【電子版】英ディープマインド、教師なしで自己学習するＡＩ開発－ビデオ画像・音声から物事の概念習得

[ ロボット ]

(2017/8/12 12:00)

米グーグルの親会社アルファベット傘下の英ディープマインドが、短いビデオのスチル映像と音声をもとに自己学習する人工知能（ＡＩ）を開発したと報じられた。映像に何が映っていてどんな音が聞こえるのか、単語や文章ではＡＩに一切教えず、ＡＩ自らが特定の物事の概念を学習する。自らを取り巻く現実世界を見たり聞いたりしながら、継続的に自分で学習するＡＩの開発につなげられるという。

英ニュー・サイエンティスト誌が１０日に報じた。ディープマインドは、１０月２２日からイタリア・ベニスで開かれる「コンピュータービジョン国際会議」（ICCV 2017）で研究成果を発表する。

報道によれば、ディープマインドのプロジェクトチームでは、３種類のニューラルネットワークを組み込んだアルゴリズムを開発。まず映像と音声をそれぞれ専門に認識するニューラルネットワークに対し、短いビデオから切り出した一連のスチル画像と、それと同じ部分にある長さ１秒の音声を使って学習させた。

次いで３番目のニューラルネットで、スチルのイメージと音声を比較し、どの音がビデオのどの光景にリンクしているのかを学習。全部で40万のビデオ映像から6000万のスチル・音声の組み合わせを学ばせた。その結果、「群衆」「タップダンス」「水」などに関わる見た目や音の概念を獲得し、人が拍手している写真に対しても、どの音が拍手と一致するかＡＩが理解していたという。

また、ディープマインドのアルゴリズムはラベル付きのデータで学習させた他の多くのアルゴリズムに比べ、それらのほぼ8割の時間しかかけずに正しく音声クリップのカテゴリー分けができたとしている。

通常、機械学習で行われているのは「教師あり学習」という手法。例えば「ネコ」というラベルをつけた大量の画像をＡＩに学習させると、学習していないネコのイメージを与えても、ＡＩはそれがネコだと認識できるようになる。

ただ、ディープマインドの研究プロジェクトリーダーによれば、こうした教師あり学習のやり方は「スケーラブルではない」という。現実世界のように、多様な物事が大量に存在する環境に人間がいちいちラベル付けしてＡＩに理解させるのには、限界があるためだ。

一方で、教師なし学習のアプローチは、今回のように視覚と聴覚だけでなく、視覚と触覚などと組み合わせてＡＩの感覚を拡張するのにも応用できるという。さらに、ユーチューブのように大量にあるオンライン映像をもとにＡＩを学習させられる可能性もある。

(2017/8/12 12:00)