東芝、少量データのオフライン強化学習で複雑なロボット操作を制御するAI開発

東芝は5月10日、ロボット制御で使用される機械学習「オフライン強化学習」で、世界初という少量の画像データから複雑なロボット操作を高精度に制御する「ロボット制御AI(人工知能)技術」を開発したと発表した。

0510toshiba1 - 東芝、少量データのオフライン強化学習で複雑なロボット操作を制御するAI開発
2段階制御学習手法の概要

開発したAI技術では、ロボットアームの操作範囲を撮影した画像からロボットアームの移動先を決定する1段目の制御と、移動先周辺のみを切り取った画像から移動先を補正する2段目の制御で構成する2段階制御をAIが学習。

その上で、2段目の学習で、注目領域のみを含む画像の入力や、「データの水増」と呼ばれる、学習用の画像データが少ない時に、画像の回転や切り取り、合成などでデータを増やすデータ拡張に対応、移動先の補正のみを学習対象としていることで、高い精度のロボット操作を可能にした。これまでは1段目の制御のみを学習し制御を行っていた。

今回のロボット制御AIは、杉山将・理化学研究所革新知能統合研究センター長兼東京大学大学院新領域創成科学研究科教授と共同で開発した。東芝では、ロボット操作の100回の画像データで学習したロボット制御AIを、公開ベンチマーク環境でシミュレーション評価実施。

0510toshiba2 - 東芝、少量データのオフライン強化学習で複雑なロボット操作を制御するAI開発
公開ベンチマーク環境での評価結果

その結果、ピッキングや物を置くなどの8種類の作業をそれぞれ500回行った時の平均成功率が従来手法の36%から72%に大幅改善し、世界最高の精度を達成したという。また、作業別で、従来手法は最高79%の成功率が99%に向上した。

東芝では、現在、製造現場などでロボットを導入し複雑な作業を行わせるには、対象物の位置や向きなどの状態推定や状態ごとの動作計画などを専門家が設計・開発し、人手で学習させていると説明。

その中で、「強化学習」は、カメラで取得した画像から自律的にロボット操作を学習できるため、複雑な作業を自動化する手法と期待されているものの、高精度な作業の実行には、AIがロボットを実際にオンラインで稼働し、試行錯誤して学習するため、安全上の懸念があり、あらかじめ作成したデータから制御をオフラインで学習し、試行錯誤を必要としない「オフライン強化学習」に注目が集まっているという。

しかし、オフライン強化学習で精度を上げるには、想定される物の配置や作業のパターンを網羅的に学習する手法が一般的で、そのために数千以上の学習データが必要となり、データの作成に数週間から1カ月以上と手間と労力がかかる指摘。ロボット制御AIは、こうした課題を解決する手法としている。

少ない時間とコストで、製造機器や医療機器の操作・自動運転など、安全な学習が必要とされる機器の制御の精度を大きく向上が可能で、例えば、高熱を扱うため安全性が求められる製造工場の溶接機器の自動化に適用すれば、これまで必要だった熟練者の作業をロボットで代替でき、人材不足の解消を図れる。

今後は、技術の有効性を実環境のデータを使って進めるとともに、精度のさらなる向上を図り、早期の実用化を目指す。