研究所紹介  

   

活動  

   

情報発信  

   

あいんしゅたいんページ  

   

技術的特異点に更に近づく・・・Nuance社の音声入力システムDragon Dictation

詳細

アップルの最新のスマートフォンであるiPhone4Sに登載されている人工知能Siri は音声認識機能を持っている。現在の対応言語は英語、フランス語、ドイツ語だけである。しかし来年には日本語、中国語、韓国語、イタリア語、スペイン語にも対応予定であるという。

私は、はたして日本語で十分な精度を持つ音声認識が可能かといぶかっていた。しかし最近アメリカのNuance Communications社の音声認識ソフトであるdragon dictationをiPadとiPhoneに、dragon search をiPhoneにインストールして認識を新たにした。認識精度がとても良いのである。

もちろん日本語は同じ発音で違う意味を持つ同音異議の言葉が非常に多いので、それらの区別は難い。我々人間はそれを前後の文脈から判断している。現在のSiriの人工知能にはそこまでの能力はない。従って100%近い認識率は期待できない。それでもdragon dictationを使ってみてその精度に驚いたというわけだ。私は五木寛之の「古寺順礼」を読み上げて、それをiPadに認識させたが、十分に使い物になると思った。もちろん、後から編集する必要はある。

ところでこのNuance社の音声認識エンジンであるが、Siriに使われているのはこれだと知って、なるほどと思った。日本でdragon dictationがフリーであるのは、フィールドテストをして日本人の音声サンプルを集めているのであろう。このソフトをインストールする時に、あなたの住所録の名前を採集して良いかと聞かれる。これに対して人々の反発は大きいようだ。名前などネットを探せばいくらでも集められるではないかという人がいる。私はこれは、名前とそれを人々がどう発音するかを対比するデーターを集めようとしているのだと推測する。実際、その文章をよく読むと、集めるのは名前だけで、住所、電話番号、電子メールアドレスなどの個人情報は集収しないと書いてある。また拒否してもかまわない。私は一応拒否して、システムをインストールした。

dragon dictationはこちらのしゃべった内容を聞き取り、それをネットを続じてサーバーに送り、そこで音声を解析して文章にして送り返してくれる。60秒間に限定されているので、長い文を読み上げる時は途中で切らねばならない。また3GかWiFiを経由してサーバーと繋がっていなければならない。その点が過去のIBMのViaVoiceGoldなどと違う特徴だ。

dragon searchはグーグルサーチやYouTubeでの検索に用いる。こちらは短い単語なので、認識率は更によい。十分に使えると思う。

私はiPhoneのdragon dictationを使って、朝、家を出てから、教えている大学につくまでの行動を口述筆記させてみた。ただし、バスや電車の中で携帯に向ってしゃべるのはマズいので、そこはキーボードで入力した。結果はまあまあ使いものになる程度である。外は雑音が多いので音声認識は難いのであろう。この話はオチがあり、最後の段階で操作を誤り、それまでに吹き込んだ内容が全部消滅してしまった。

それはともかく、工夫しだいでは役に立つソフトである。雑音の少い静かな場所でメールを口述筆記するなど良いであろう。Siriが来年以降にやってくれるであろう事を先取りすることが出来るのだ。

人工知能の世界もますます面白くなってきた。

   
© NPO法人 知的人材ネットワーク・あいんしゅたいん (JEin). All Rights Reserved