【電子版】東大特任准教授の松尾豊氏に聞く／ディープラーニングとロボットが超巨大産業を生み出す（１）

[ ロボット ]

(2016/7/15 05:00)

日刊工業新聞社が昨年12月の「2015国際ロボット展」に併せて発刊したロボット情報誌「The ROBOT イノベーション×ビジネス」。6月に出された第2号には人工知能（AI）研究で著名な東京大学の松尾豊特任准教授のインタビューが掲載されています。3回にわたりインタビュー記事を電子版に再掲載します。

　　◇　　　◇　　　◇

AI（人工知能）はディープラーニングの登場で大きなブレークスルーを迎えている。英グーグル・ディープマインド社が開発した囲碁AI「AlphaGO（アルファ碁）」は予測を10年以上短縮してトップ棋士に勝ち、AIを活用したクルマの自動運転なども実用段階に近づいてきている。今後ディープラーニングは、産業にどう活用され、何を変えていくのだろうか？　気鋭の人工知能学者、東京大学の松尾豊特任准教授に聞いた。

松尾特任准教授

─ディープラーニングの基本となるニューラルネットワークについて教えてください。

松尾　経済学などでは、さまざまな変数の関連性を導き出す統計手法として、重回帰分析などの多変量解析を使うことが多いですが、それと比較するとわかりやすいかもしれません。たとえば、ある画像に猫が映っているかどうかを人間が判断できるというのは、画像の各画素の情報を入力xとし、猫が映っているときには1、猫が映ってないときには0をとるような関数f(x)がある、ということです。この「猫関数」は、入力変数を何らかの形で足しあわせたり掛けあわせたりと加工していく関数になっているはずで、そこにはたくさんのパラメーターがあります。この「猫関数」を、人間の神経回路を模した階層的な関数の構造をもとに、たくさんのデータからの学習により見つけ出そうというのが、ニューラルネットワークです。経済学だと変数は数個から数十個くらいのことが多いと思いますが、この「猫関数」は、100×100の小さな画像だとしても、1万もの入力変数を取りますよね。つまり、x1, x2からx10000までということです。こうしたたくさんの数の変数を使った「猫関数」を見つけることは、通常は非常に困難です。ところが、今のディープラーニングですごいのは、それをいかにサボるか、いかにズルをして、その数万の変数からなる方程式を解いて、パラメーターを見つけてしまうか。ここが実は一番重要なところになります。

─さまざまな分野で「ディープラーニング」という言葉が使われていますが、概要を教えていただけますか？

松尾　ディープラーニングについて、いろいろな説明がなされていますが、基本的には“深い構造をもったニューラルネットワーク”ということになります。今までは深いニューラルネットワークというのは作るのが難しかったわけですが、それができるようになってきた。とくに画像認識をするうえで非常に精度が高くなってきています。

─画像認識で使うのが一般的なのでしょうか？

松尾　今のところ3タイプぐらいに集約されてきています。1つは画像認識でよく使われる「CNN（Convolutional Neural Network）」、日本語で「畳み込みニューラルネットワーク」というものです。これは基本的には“教師あり学習”※1なんですよね。それからもう1つが、時系列データなどを扱う「LSTM（Long Short Term Memory）」というもの。これも、昔からあった「RNN（Recurrent Neural Network）」という手法を発展させたもので、とくに自然言語処理系のデータ、つまり対話のデータなどを扱う際によく使われます。最近ではCNNとRNNを組み合わせる方法もよく使われるようになってきています。

3つめが「生成モデル」といわれるもので、ここが今後非常におもしろくなるところだと思います。生成モデルにも2系統ほどあって、1つが「Variational Autoencoder（変分オートエンコーダー）」と呼ばれるもので、もう1つが「GAN（Generative Adversarial Network）」というものです。いずれも画像認識だけでなく画像の生成もできる。非常に少ないデータから画像を描くことができるという、生成する側の技術なんですよね。それをうまく使うと次のシーンで何が起こるか予測することができたり、文脈から画像や映像を作ることができます。言い換えると、人間が想像するとか、予見するといったことに該当するような機能を持たせることができるわけです。その3系統ぐらいにだんだん集約されてきている感じはありますね。

≪脚注≫※1　教師あり学習

入力データから正しい出力データを得るための関数を作る際、入力とそれに対する正しい出力をペアで与え（訓練データ）、未知の入力に対する出力を正しく予測させようとするもの。

（次回は7月22日掲載予定）

人間は一瞬で「猫」であることを理解するが、AIは「名前」と「概念」に分けて理解する。ディープラーニングを使うと「概念」を自動的に作り出し学習できる

＜コラム＞ディープラーニングの「認識」とは？

人間にとって「猫」という言葉と、「猫がどういうものであるか」という概念は自明でありイコールだ。人間は簡単に「言葉」と「概念」を結びつけるが、コンピュータには難しい。人間がその結びつきをいちいち教えるのではなく、膨大なデータと計算からコンピュータ自ら「概念」を作り出し、「言葉」との結びつきを学習することで、「言葉」が示すものを認識できるようにするための作業が「ディープラーニング」だ。猫の画像についてディープラーニングを実行した後では、初めて見る猫の写真も猫と認識できるようになる。ディープラーニングは、脳のニューロンの仕組みをまねたニューラルネットワークを何層にも重ね、学習を繰り返すことで、認識の確からしさを高めていき、「概念」を獲得する。静止画像の認識で実用化が進んでいるが、今後は動画や言語などの分野での応用が期待されている。

＜プロフィール＞

松尾豊（まつお・ゆたか）

東京大学大学院工学系研究科　特任准教授

1975年生まれ。2002年東京大学大学院工学系研究科博士課程修了。工学博士。専門分野は、人工知能、ウェブマイニング、ビッグデータ分析。人工知能学会からは、論文賞、創立20周年記念事業賞、現場イノベーション賞、功労賞を受賞。人工知能学会では、2012年から編集委員長・理事、2014年より倫理委員長を務める。著書に「人工知能は人間を超えるか－ディープラーニングの先にあるもの」 (角川EPUB選書)、編著に「人工知能とは」（監修:人工知能学会、近代科学社）など。

(2016/7/15 05:00)