研究所紹介  

   

活動  

   

情報発信  

   

あいんしゅたいんページ  

   

パチンコ必勝法と世界制覇

詳細

パチンコ必勝法と書いたが厳密に言えばパチンコではなくスロットマシンである。でも同じようなものだ。スロットマシンとはラスベガスのようなカジノにおいてある、パチンコのようなバクチの機械である。そのスロットマシンの必勝法が多くの研究者によって真剣に研究されている。非常に奥の深い数学なのだ。いったい何のためにスロットマシンを研究するのか?またそれが世界制覇と何の関係があるのか?

まず何のために研究するかというと、この問題は人工知能研究にとって非常に重要だからだ。2016年にグーグル/ディープマインド社の人工知能アルファ碁が韓国のイ・セドル9段を破って大きな話題になった。この人工知能には、先に述べたスロットマシン必勝法のアルゴリズムが組み込まれている。具体的には上部信頼性限界1(UCB1)というのだが、まあ名前はどうでも良い。

グーグルのビジネスモデル

それが世界制覇と何の関係があるのだろうか。実はその種の人工知能アルゴリズムはグーグル、マイクロソフト、フェイブック、アマゾン、ヤフーなどの大手のIT企業のネット広告にさかんに使われている。ネットを見ているといろいろなバナー広告が目に付くだろう。この広告をユーザーがクリックすると宣伝効果が現れたとして、広告主はグーグルなどIT企業にお金を払う。だからユーザーに広告をクリックさせることが、非常に重要になってくる。そのためどのような広告を、どのような位置に置くとクリックされやすいか、それを知るアルゴリズムがこれなのだ。

我々はグーグルやヤフーのメールをただで使っている。グーグルやマイクロソフトの検索エンジンをただで使っている。グーグルのユーチューブをただで見ている。グーグルやアップルの地図をただで使っている。なんでグーグルやマイクロソフトは膨大なお金を使ってまでも、我々にタダでサービスを提供するのだろうか? かれらはどうして儲けているのだろうか? そのビジネスモデルは何だろうか?

それは広告主から取る広告費なのだ。グーグルやフェイスブックといった会社はできてそれほど年月は経っていない。それが何であんなに急速に大きくなったのか?それも無料のサービスを提供して。その秘密は広告にあるのだ。我々は知らないうちにスロットマシン必勝法のアルゴリズムに操作されているのだ。人工知能に操られて広告をクリックしているのだ。

グーグルはもはや並みの政府以上の力を持っている。いわば知らないうちに世界を制覇しているのだ。中国政府はそのことを知っているのでグーグルやフェイスブックを厳しく禁止している。支配権をのっとられないためだ。

スロットマシン必勝法

スロットマシンにはいろんな種類があるが、研究されているのは数学的に簡単化したモデルだ。マシンにコインを入れてレバーを引くと、ある確率である数のコインがランダムに出てくるとする。もし客が入れた以上のコインをゲットできれば儲かったことになる。でも普通は、客は儲かるよりは損をするようにできている。そうでなくては店はやっていけない。つまり平均的には客は損をすることは明らかなのだ。

それはあらゆるギャンブルがそうだ。競馬では収益で競馬場やそこで働く人々、騎手、馬の持ち主の報酬が払われている。その元は客のお金だ。宝くじも同じことだ。ギャンブルでは平均的には客は必ず損をするのは明らかなことだ。

でも客の全員が損をすることが明らかであれば、だれもギャンブルをしない。宝くじでも1等賞が1億円とか、まれに客が儲かることがあるのだ。宝くじは操作できないから、必勝法はない。でも競馬では予想屋があるように、賢く振舞えば儲かることもある。

さてスロットマシンも、よく出る台と出ない台があるとする。よく出る台にあたった客は儲かる。平均的には客は儲からないとしても、競馬同様に賢く振舞えば儲かる可能性がある。パチンコでも同じことだ。それではどうしたら儲かるだろうか?それはよい台を探し当てることだ。よい台が見つかれば、それで遊んでいれば平均的には儲かる。

問題はよい台がはじめは分からないことだ。それを見つける方法が、今回の主題であるスロットマシン必勝法だ。

貪欲法

一番簡単な方法から紹介する。それを貪欲法という。10台のスロットマシンがあるとする。まずは全ての台を一通り試してみる。その中で一番よく出た台を、本当に最高の台だと仮定して、それ以降はそれを打ち続けるという方法だ。一通りでは確かでないので二通り試して平均を取ることも考えられる。でもそれも同じことだ。やはり貪欲法という。貪欲法とは当面一番よいと思われる手に固執する方法だ。

貪欲法の問題点は、一番よい台だと思った台が、本当はそうではなく、別にもっとよい台があるかもしれないのに、それを見逃す可能性があることだ。目先の近視眼的な利益にこだわるので貪欲法という名前がついている。遠い先の利益を考慮しないのが貪欲法だ。

エプシロン貪欲法

次に開発されたのがエプシロン貪欲法というものだ。強化学習で盛んに使われている。これは当面はよいと思われる台を選ぶが、ごく小さな確率エプシロン(たとえば10%)で他の台もランダムに選択する。するともしかしたら、真によい台、つまり宝の山を掘り当てるかもしれない。もっとよい台がみつかればそちらに移動するが、それでもさらにほかによい台があるかもしれないので、エプシロンの確率で他の台の探索は続行する。

この種の問題を探索と活用のジレンマという。活用とは、目先の利益にこだわること、つまり現状で最良と思われるものを選び続けることである。一方、探索とはもっとよいものがあるかもしれないと探し続けることだ。たとえばレストランに行く例を考えよう。もしあなたが安くておいしいお店を知っているとする。そこに行き続けるのが貪欲法だ。でもほかにもっとおいしくて安い店があるかもしれないと思い、それを探すのが探索だ。

活用ばかりでは、もっと良いものがあるかもしれないのに、それを見逃す危険性がある。そのもっと良い物を探し求めるのが探索だ。でも良い物に当たる可能性は低いので、探索をすると当面は損をするかもしれない。この活用と探索の兼ね合いが問題なのだ。貪欲法では活用ばかりで探索をしない。エプシロン貪欲法では、いつも一定の割合で探索を続ける。探索の割合をもっと動的に変更する方法が提案されている。それらの手法を簡単に紹介しよう。

上部信頼性限界法1とトムソン・サンプリング

これ以上は専門的になるのだが、エプシロン貪欲法は最適ではないことが分かっている。初めに紹介したUCB1つまり上部信頼性限界法1というのがあり、アルファ碁に使われて有名になった。具体的な手法は説明が難しいが、一番不確かなものを試して、不確かさを減らして行く方法だ。極めて簡単な式で表現できる。それは探索の割合を不確かさと試行回数の簡単な式で表している。簡単な式なので、それを使うのは簡単なことだ。しかしその式を導くのは高度な数学的定理を必要とする。ここではそれ以上述べない。

上部信頼性限界法1よりよい方法がありトムソン・サンプリング法という。これが最近グーグルなどで使われているアルゴリズムだ。トムソン・サンプリング法自身は1933年、つまりいまから80年以上も前に発明されたのだが、それが脚光を浴びるようになったのはごく最近のことだ。グーグルなどのネット宣伝に使われるようになったからだ。この理論も難しいので、ここでは名前だけの紹介に止める。

まとめ

われわれは知らないうちにグーグルやフェイスブック、アマゾン、ヤフーなどの使う人工知能アルゴリズムに操作されている。自分の自由意志で選択したように見えて実は操られているのだ。それら人工知能はアメリカの大統領選挙すら操作できる。いまさらグーグルを使わないという選択をすることはできない。でもどのように操られているかを知っておくことは重要だ。そのためにもアルゴリズムの中身を理解することは必要だろう。

   
© NPO法人 知的人材ネットワーク・あいんしゅたいん (JEin). All Rights Reserved