研究所紹介  

   

活動  

   

情報発信  

   

あいんしゅたいんページ  

   

AIとロボット: 強化学習

詳細

ロボットを動かすための人工知能理論である強化学習についてのべる。人工知能(AI)というとディープラーニング(深層学習)といわれるが、ディープラーニングはAIの一部である機械学習のさらに一部でしかない。強化学習という機械学習の一分野が昨今注目を浴びている。それは英国のディープマインド社が開発したアルファ碁と、アタリのビデオケームを総なめにしたDQN(ディープ・Q・ネットワーク)というAIの成功による。AIの今後の研究目標は人間のように考える汎用人工知能の開発である。ディープマインド社は強化学習の発展で、汎用人工知能を作ろうとしている。彼らはそれを人工知能のアポロ計画と呼んでいる

人工知能の一分野に機械学習(Machine learning)がある。コンピュータが知的に見える振る舞いをさせるための理論である。機械学習には大まかに言って教師あり学習、教師なし学習、強化学習と分類できる。

教師あり学習と教師なし学習は膨大なデータの中から法則性を見つけだす手法である。その中でも教師あり学習は、例えばたくさんの猫の写真と「ネコ」という答えを与えて学習させて、そして新しい写真が与えられた時に、それがネコであるか犬であるかを答えるような機械学習の分野である。教師あり学習の一手法として深層学習がある。そのほかにベイズネットワーク理論という確率論的な手法がある。つまり深層学習は膨大なAI分野のごく一部にしかすぎない。つまりAIイコール深層学習ではないのである。

教師なし学習は答えが与えられていない膨大なデータが与えられた時に、それを分類する手段である。たとえばネコの写真と犬の写真をその特徴で分けるとか。

強化学習は教師あり学習や教師なし学習とは違った分野である。強化学習ではデータは自分で作り出す。AIが試行錯誤しながら正解を求めていく手法である。強化学習の具体例としてアルファ碁やロボットの運動・行動の制御アルゴリズムがある。

世間ではよくアルファ碁は深層学習であると言われるが、それは正確ではない。正確には強化学習、深層学習、モンテカルロ木探索、多腕バンデット問題を合わせた手法で、深層学習はその一部品でしかない。

強化学習ではエージェント(ロボットとか人間)というものが、環境(外部世界)を観測して、適切な行動をすると報酬がもらえるという仕組みである。このとき将来も合わせた報酬の総和を最大化する仕組みが強化学習である。

報酬の例としては、例えばゲームでは勝てば1点、負ければ-1点、それ以外は0点とする。将棋では王を取れば1点だが、飛車や金をとっても0点にしておく。そうしないと飛車をとって王を取られるようなバカな学習をしてしまう。強化学習では目前の利益を犠牲にしても、長期的な利益を求めるのである。

強化学習を使ってロボットを立たせようと思えば、立ち上がれば1点、こければ-1点、それ以外は0点としておく。ロボットを歩かそうと思えば、前進すれば1点、後退すれば-1点、それ以外は0点

強化学習のアルゴリズムの目的は要するに将来の報酬の総和を最大化することである。例えとしては人生がある。これを人生ゲームと考えよう。人生の目的は何か? 強化学習的に考えると、死ぬまでにもらう報酬の総和を最大にすることである。そのためには良い学校に入って、良い会社に入って、できるだけ多くの給料をもらう。

エージェントの状態とか行動には、価値が定義できる。状態価値と行動価値と呼ぶ。価値の高い状態とか価値の高い行動は、将来の報酬の総和の予想ができるだけ高いものをいう。

状態価値は人生ゲームで例えれば、個々の大学や会社の価値である。大学の価値はその大学の卒業生が死ぬまでに儲ける報酬の平均できまる。会社の価値も同じである。

どのような行動をとるかを決める選択基準を方策(ポリシー)とよぶ。人生ゲームで言えば、例えばどの大学に入るか、どの会社に入社するかは方策の問題である。もちろん大学に行かないという行動を選択する方策もある。方策の価値は、死ぬまでに獲得した報酬の総和で測る。最適な方策を探るのが強化学習の目的である。

もっともこの話はあくまでも例えであり、人生における最適の方策を決める強化学習アルゴリズムはまだない。

まとめ

人工知能(AI)というと深層学習=ディープラーニングといわれるが、ディープラーニングはAIのごく一部でしかない。強化学習というAIの一分野が昨今注目を浴びている。それは英国のディープマインド社が開発したアルファ碁と、アタリのビデオケームを総なめにしたDQNというAIの成功による。AIの今後の目標は人間のように考える汎用人工知能の開発である。ディープマインド社は強化学習理論の発展で、汎用人工知能を作ろうとしている。彼らはそれを人工知能のアポロ計画と呼んでいる。

   
© NPO法人 知的人材ネットワーク・あいんしゅたいん (JEin). All Rights Reserved