AIチャレンジ優勝エンジニアが生み出すデパレタイズソリューションとは

BLOG

世界的なAIのデータ分析コンペティションプラットフォーム「Kaggle(カグル)」にて、National Football League (以下NFL)とAmazon.com, Inc. が主催した「NFL Health & Safety – Helmet Assignment」に、当社のエンジニアである松田 吉平氏が優勝しました。野心に溢れるAI開発者たちがしのぎを削るコンペをどう勝ち抜いたのか、そしてその技術がどのように当社のソリューション開発に活かされているのか、松田氏にお話を伺いました。AI導入の波はあらゆるフェーズで浸透しつつありますが、まだまだその裾野は遠くまで広がっています。

松田 吉平氏:技術開発本部 システム技術開発センター ロボット技術開発部所属。博士(工学)

NFLの選手のプレイ中の怪我をAIで分析

-今回のコンペのテーマについてご紹介ください

コンペのお題は、「NFLの試合映像やセンサ情報から試合中に頭部に衝撃を受けた選手を特定する」というものでした。参加者は1000人以上で、世界中のデータサイエンティストが、より高い精度を求めて独自のソリューションを構築し、競い合います。

アメフトは世界で最も激しくボディコンタクトをする球技としても知られており、選手はプロテクターを身につけていますが怪我が非常に多い。特に頭部への衝撃は重篤な負傷や障害になることも多く、どのように負傷自体や衝撃を減らすか、また事故が発生した後に適切な治療をいかに素早く行うかが課題となっていました。競技中にどのプレイヤーが頭部への衝撃を受けたかを正確に特定することができれば、治療の対応スピードが上がりますし、ヘルメットへの影響やどう衝撃を緩和するかの研究が進みます。でも、これを人手でやろうとすると大変な手間がかかります。そこでNFLはこれを近年のAI技術を活用して解決しようとして、コンペを開催しました。

-どのような工夫をしましたか?

映像とセンサ情報という2つのデータをうまく紐づけることがこのコンペのポイントでした。プレイヤー同士がぶつかったことを映像から検出し、そのプレイヤーが誰なのかを選手に取り付けられた位置センサと関連付けて推定します。特に工夫したのは、しゃがんだり転倒したりといったようなプレイヤーの位置・姿勢の細かな変化まで厳密に分析し、それを予測するAIを構築したことです。これで、他の参加者よりも大きく精度を伸ばすことができました。結果として手動に比べると83倍の速度に達し、これまで3~4日かかっていた作業を2時間でできるようになったと評価いただきました。

-面白かったことはありますか

よくあるAIの画像分析では画像中の物体検出などが一般的ですが、このコンペでは画面に映るフィールド上の選手たちの3次元(3D)位置まで考えなくてはならず、これまでやったことのない取り組みにわくわくしました。分析の際はデータを何度も何度も見なくてはいけないので大変ですが、NFLの動画はとても迫力があり何度でも楽しく見ることができました。おかげで、コンペの終盤には動画のタイトルを見るだけで選手の動きを想像できるようになりました(笑)。

コンペを通してAI開発の実践ができた

-逆に辛かったことはありますか

正直コンペ自体をつらく感じたことはないのですが、プライベートの時間を使っているので勉強とコンペの時間を確保するのが大変でした。2か月かけて開発したのですが、200時間くらいかかったので、体力やメンタルはきつかったです。公園で子供と遊んでいる時にいきなり「あそこはこうしたらいけるかもしれない」と浮かんできてしまってモヤモヤしたり。気が休まらなかったですね。

-受賞の連絡が来たときの気持ちを教えてください

電車に乗っていたのですが、文字通り震えましたね。参加する以上は絶対勝つと思って取り組んでいましたが、実際に受賞するとやっぱりすごく嬉しい。優勝は自分より上がいないから、誰も文句言えないじゃないですか。だからもう周りの人全員に自慢できますし。その日はほとんど仕事が手につきませんでした(笑)。

-そもそもコンペに参加しようと思ったきっかけは

勉強の一環になるかなと思ったのがきっかけです。理論的なところは書籍などで学べるのですが、実際のデータを使って動かしてみるという部分がなかなか身につきません。開発者としてはデータを触って分析し、試行錯誤を繰り返すところもやっぱり重要です。コンペなら材料を与えられるので、実践的な学習に繋がるというところを魅力に感じました。

AIビジョンを荷下ろしに活用するデパレタイズソリューションとは

-松田さんが今回コンペで作ったソリューションではAI画像認識を活用していますが、普段の業務ではどのような領域を担当していますか

ほとんどロボットに関わることがメインで、現在は主にAIビジョンというものを活用した製品の開発に携わっています。カメラに映った映像をAIが分析してさまざまな処理をするというもので、代表的なものだとデパレタイズソリューションという製品に活用されています。デパレタイズソリューションとは物流拠点や工場内での荷降ろし作業を効率化するというものです。

先ほどコンペでNFLのプレー映像から3次元位置を考慮するというお話をしましたが、デパレタイズソリューションには3次元AIビジョンを搭載し、扱う荷物を高度に分析できるようにしています。

荷下ろしに特化することで高性能廉価を実現

-AIを用いることでデパレタイズソリューションが荷下ろしする際にどのような作業を効率化できるのでしょうか

荷下ろし作業においては、元々人力で倉庫から該当の商品をピッキングして運んで該当の場所に置くという作業に、多大なコストと時間がかかっていました。それを自動化するにあたって世の中にロボティックロジスティクスが浸透したのですが、ロボットを動かすにあたって従来型のソリューションだと準備や登録の手間がかかったり、作業の融通が効かないという問題点がありました。その点、当社のデパレタイズソリューションは、荷降ろし作業の自動化における作業の精度やスピードを従来型の製品よりも高めることに成功しています。

例えば、従来型の製品だと、ピッキングする荷物のサイズや形状を全て事前に登録する必要があります。登録していない形状の荷物が流れてくると処理できずに止まってしまう。一方、当社のデパレタイズソリューションは最小のサイズと最大のサイズだけ登録しておけば、すべての荷物を処理することができます。

また、従来型は扱う荷物のサイズや形状に正解がある状態。荷物をカメラで認識して正誤を確認する、正解ならアームが動いて荷物を動かすという流れのため、正解をティーチングする時間が発生します。これを事前情報ありといいます。当社のデパレタイズソリューションは最小・最大寸法以外に登録の必要はなく、ティーチングする時間を大幅に削減できます。こちらは事前情報なしに分類されます。

-なぜ川崎重工では従来型よりも高性能を実現できているのでしょうか

荷下ろし作業に特化しているのが大きいと思います。実はカメラに関しては他社製品に比べても安いものを使っていますが、ただ、その分余計な機能を入れておらず、AIが荷物の映像を読み取ることに特化しています。また、カメラだけでなく機械の他の部分も目的を絞って作ることで「多機能ではないが荷下ろしに特化している」 「荷下ろしに関しては高性能」 「簡単に使える」という製品になりました。機能を絞ったことで他社製品よりもコストパフォーマンスに優れ、企業様が導入しやすくなったと思います。

製品化を率いた、姫川リーダ(ロボットディビジョン 汎用システム部 汎用二課 所属)

AIのさらなる普及にはデータと基盤モデルが鍵

-松田さんとしては今後デパレタイズソリューション、さらにAIはどのように発展していくとお考えでしょうか

デパレタイズソリューションについては、今後データがどんどん集まってAIの学習が進むにつれて、さらに効率が上がってくると思います。例えばデパレタイズソリューションの開発で苦労したのが、荷物の表面にある紐やテープ。あれをAIが見たときに、紐があるところを段ボールの境目と勘違いしてしまうことがあります。それで例えば実際のサイズより小さい箱だと判断して間違えて取ってしまうということが起こります。

でも、今後さまざまな現場で活用されてデータが集まってくれば、色々なバリエーションの荷物を学習することができます。そうすれば、伝票やステッカーがたくさん貼ってあるような箱でも、ロボットが惑わされずに、これまでの経験をもとに適切な荷下ろしをしてくれるようになります。ロボット向けの良質なデータをたくさん集めることが大事になってきます。

また、基盤モデルと呼ばれるAIも鍵になってくると思います。近年注目度が上がっているChatGPTのようなものも一例ですね。基盤モデルは大量のデータを元に学習しているため、非常に高い認識能力、一種の常識のようなものを持っています。こういったAIは、先ほど挙げたような「箱に伝票がついているのはよくあることだ」という常識も持っています。

基盤モデルはテキストや画像・音などさまざまな情報を扱うことができるので、物流に限らず、あらゆるシーンでのロボット活用を飛躍的に広げる可能性を秘めています。

データと基盤モデル、これらを上手く活かして世界を広げていきたいですね。