研究所紹介  

   

活動  

   

情報発信  

   

あいんしゅたいんページ  

   

行住座臥これ入力2・・・音声認識の威力

詳細

要約

音声認識とは、人間が話した言葉をコンピュータにデジタル・データとして入力する技術である。音声認識の技術はまだ成熟したものではない。よいソフトを上手く使えば、キーボード入力や手書き入力より、はるかに速く楽に入力できる。しかし、他方で使いものにならないという評価もある。使い方しだいなのである。私個人の評価としてはPC用にはWindows 7の音声認識機能、iPhone、iPad用にはDragon Dictationを勧める。追加の費用が必要ないこと、十分に実用的に使えるレベルにあるからだ。しかし費用を惜しまないならば Ami Voice もよいソフトである。

始めにと、まとめ

音声認識とは声で文章を入力したり(ディクテーション)、コンピュータをコントロールする技術である。昔から研究されているが、例えば日本語変換などと比べて、まだ成熟した技術ではない。しかし上手に使いこなすと、普通人のキーボード入力の3から5倍のスピードで入力できると言うし、疲労も少ない。その意味ではうまく使えば、十分に使える技術である。

しかしどのソフトでも、うまく行くとは限らない。さらに特定のソフトに限っても、使う人、使い方、使うマシン、使った時間、使う環境によって評価が変るというやっかいなものである。本稿ではPC用とiPhone、iPad用のソフトで私が使ったものを紹介し、その特徴について述べる。

具体的にはPC用としてはWindows 7の音声認識機能、Ami Voice、Via Voice Goldを取り上げ、iPhone、iPad用にはDragon Dictation、音声認識メールクラウド、音声認識メールSTを取り上げる。

音声認識の評価は1)音声認識の精度、2)スピード、3)堅牢性(ロバストネス)によって決まる。人々が注目するのは通常は1であるが、本格的に使うなら2、3も重要である。

音声認識にはコンピュータ単独で作業が完結するスタンドアロン型と、ネットを通じてクラウド上のコンピュータと接続して、作業を行うクラウド型に分かれる。PC用はスタンドアロン型であり、Dragon Dictationと音声認識メールクラウドはクラウド型である。

クラウド型の特長は、始めから認識精度が高いことである。それは豊富な音声データと辞書が用意されているからであろう。しかし2、3に関しては問題もある。そもそもネットに繋がっていない限り使えないのだ。それによく落ちる。認識結果が返ってくるまで、かなり待たされるものもある。

スタンドアロン型はその逆で2、3に関してはあまり問題はない。従って1さえよければ良いのだが、認識率を上げるには、十分に使い込んで、自分の音声データをコンピュータに蓄積し、辞書を整備する必要がある。だからちょっと使っただけの人の評価などあてにならない。

音声認識ソフトの評価は両極端に分かれることがよくある。認識精度が低いので使いものにならないという評価がある。しかし上に述べたように、クラウド型は本来的には認識精度は高いのである。それが低いのは当人の声が悪いか、しゃべり方が悪いのである。しゃべり方は速すぎない、遅すぎない、単語を区切って発音しない、明瞭な発音をする、などがコツであるとされている。「自分の面が曲っているのに、鏡を責めて何になる」のである。

また、あまり気がつかない点にマイクの質とまわりの環境がある。音声認識は雑音をきらうからだ。マイクはUSB接続のものが良いとされている。雑音を拾いにくいからだ。マイクは口もとに置くのが良い。

また音声認識は静かな室内で行うのが好ましい。室内でも話し声、テレビ、空調の音など全てジャマである。騒がしい街頭では難しい。その意味で音声認識は場所を選ぶ。

ソフトの値段について言えば、Windows 7の音声認識機能はOSに付属してくるので、ある意味タダである。Dragon Dictationもフリーである。Ami Voiceは最も高く、2万円強、アカデミック版のヘッドセット無しでも1万4千円程度する。iPhone、iPad用のソフトは数百円の程度である。Via Voice Goldはもはや売っていない。

大量の入力を本格的に行いたい人には、PCのスタンドアロン・タイプがよく、メールなどちょっとした入力を手軽に行うにはクラウド型が良い。要するに自分が音声入力を何の為に使うかによってベストなチョイスは異なるのである。

コンピュータを音声だけでコントロールする本格的な使い方ができるのは、評価したソフトの中ではWindows 7の音声認識機能だけである。Nuance社のDragon DictationのPC版のソフト、Dragon NaturallySpeakingはそれができるが、日本語版は2005年以降アップデートされておらずWindows 7に対応していないので評価から外した。英語版はそれができる。次のYouTubeの映像では英国人のお姉さんが、格好良く使いこなしている。それにしてもすごい英国訛りである。私もこのようにラップトップを自由に操りたいものだ。ちなみにこれらの機能は、これから述べるWindows 7の音声認識機能は持っている。 

How Nuance's Dragon NaturallySpeaking speech recognition software works...

Windows 7の音声認識

正直言って私は Windows 7に音声認識機能があることを知らなかった。それを知って試してみると、これが驚くべき機能であることが分かった。非常に役に立つ機能である。実際この文書のこの部分は Windows 7の音声認識機能を使って音声入力で書いている。

インストール

音声認識機能をインストールするには、まず「アクセサリー」から「コンピュータの簡単操作」という項目の中にある「Windows音声認識」というタブをクリックする。最初にするべきことはマイクの音量の調整である。それは「マイクのセットアップ」という項目である。次に「音声認識チュートリアルを行う」というタブをクリックする。これは音声認識のやり方を教えるチュートリアルである。ここでコンピュータの指示に従って発声すると、コンピュータはあなたの声を学習する。次に「音声精度の向上」を行う。そこではコンピュータの指示に従って、画面に書かれる文字を発声していけばよい。これは二部ある。この音声精度の向上を何度もやることが重要である。コンピュータにあなたの声を覚えさせることが重要なのである。

そして次に音声入力の練習をする。私は小説とか新書、それに自分自身が書いた文章を読み上げて音声入力してみた。最初は満足のいくものではない。そこで間違った点を修正していくとコンピュータは学習していくのである。先に言ったように、音声入力で重要な点は、コンピュータにあなたの声を覚えさせること、コンピュータが知らない単語の辞書登録をすること、この2点がカギである。

辞書登録

辞書登録の方法としては2種類あり、その一つはソフトの内部から「音声辞書を開く」オプションをクリックして、辞書登録する方法がある。この場合、自分の声を同時に録音して登録することができる。もう一つは、Microsoft IMEに登録する方法である。どうやら、音声認識機能はこの辞書を参照しているらしい。私は普段はATOKを使っているので、少々面倒である。

修正の方法

音声入力して、間違った場合は修正する。その場合、カーソルの動きを音声だけでコントロールすることができる。ただし、ここで間違うと惨めで、いらいらするので、手が空いているならマウスでやるのが手っ取り早い。目的の語句を選択して「修正」というと、修正の候補が9個現れる。後で述べるAmi Voiceとの違いは、この修正画面が優れていることである。単語だけではなく、文章が表示される。コンピュータがあなたの発音をどのように誤解したか、よく分かる。修正を繰り返すほど、コンピュータは賢くなり、同じ間違いをしにくくなる。

コンピュータのコントロール

Windows 7 の音声認識機能のすごい点は、単にディクテーション、つまり聞き取りだけではなく、コンピューターのコントロールが音声だけでできるということである。これはなかなか感動ものである。例えば次に示すYouTubeでは、アメリカ人とおぼしき少年が、ほとんど練習もしないで、コンピュータを言葉だけでコントロールできる様子を示して、とても感動している。「クール」、「オーサム」である。これが日本語でもできるのである。

Ami Voice

Ami Voice はアドバンスト・メディア社が販売する商用ソフトである。アドバンスト・メディア社のホームページはこちらを参照のこと。

Ami Voiceは基本的にはディクテーションのツールである。コンピュータをコントロールする機能はない。カーソル移動のコマンドも Windows 7よりは簡単である。

入力方法はWindows 7 の場合と同じである。修正方法が少し違う。修正の候補が出てくるのだが、候補は単語単位である。そのため修正は、Windows 7 の場合ほど直感的ではない。修正をするほどコンピュータは賢くなるというのだが、どうも自信が持ちにくい。

Ami Voiceは独自の辞書をもっている。それをマスター辞書という。マスター辞書には、ブログ日記・メール辞書、しゃべり言葉辞書、書き言葉辞書、政治経済辞書と4種類ある。書く文章の種類によって適切なもの選ぶ。

マスター辞書のほかにユーザー辞書がある。ユーザー辞書に単語を登録することで、正しく変換する可能性を高めることができる。ただしこの辞書登録は、語句と読みの対応のみで発音を登録することはできない。

Ami Voiceは独自の学習機能を持っている。それを音響学習と呼ぶ。使っているうちに音声がたまってくる。音声がある程度たまると、それを登録する段階になる。そうすると学習量のレベルが上がっていく。最初は 0レベルである。レベルが増えるのを見ることは楽しい。音響学習レベルの最大値は126レベルである。音響学習と登録した辞書は、他のコンピュータにエクスポートすることができる。これはWindows7には無い機能である。複数台のコンピュータを同じ環境で使うことができる。私は現状では40レベルにも達した。ここまで来ると十分に実用になる。

Ami Voiceにはユーザーという概念がある。それぞれのユーザーはそれぞれの声を学習していく。一人のユーザーに二人以上の声を混ぜてはいけない。認識効率が下がるからである。これもWindows7にはない機能である。

ここに Ami Voice の実際の使用例が挙げられている。

Ami Voiceの値段であるが アマゾンで調べると USBヘッドセット付きが\23,080である。ヘッドセットなしは \17,089である。アカデミック版はそれぞれ \16,566と \12,843である。結構高いと言わざる得ない。

Via Voice Gold

筆者が以前使用していた音声認識ソフトにIBMのVia Voice Goldがあった。しかし現在では、もはや売られていない。これも上記と同様のソフトで、認識効率はそこそこ良かったのだが、ため息などを拾って、意味のある単語に変換してしまうと言う欠点があった。ちなみにWindows7もAmi Voiceもその問題はない。しかし、逆に短いため息のような言葉は入力できない。

音声認識メールクラウド音声認識メールST

Ami Voiceを販売しているアドバンスト・メディア社が iPhone、iPad用に販売しているソフトが音声認識メールである。クラウド版はネット接続してクラウド上で音声認識をするものである。一方 STはローカルに音声認識するものである。どちらも Ami Voice のエンジンを使用している。

両方使ってみたが、正直って STは使用に耐えない。辞書が貧弱すぎるからである。認識精度は極めて悪い。それに対してクラウド版は極めて認識精度が高い。しかしながら、変換が非常に遅い。音声認識はタイピングの 3から5倍の速度があるという触れ込みであるが、この遅さではそのキャッチフレーズが泣く。またよく落ちる。落ちても再度立ち上げなおせばよいのだが、それでもいらいらする。というわけでこのアプリは、更なる改良を期待する。この認識精度の高さを保ちながら、スピードが向上し、落ちなくなれば、非常に良くなるであろう。もっともこのアプリはその名前が示すようにメール用であると割り切るならば、今でも十分に使うことができる。

注 この文章は昨日書いたのだが、今日音声認識メールクラウドをテストしてみると、遅いという問題は解決していた。改良したのか、或いは昨日はサーバーが混んでいたのかよく分らない。ともかくこのソフトは十分に使い物になる。

ドラゴン・ディクテーション

このソフトについてはすでに別のエッセーで触れた。ここでは詳しい説明をしない。基本的な性格は音声認識メールクラウドと同じである。

まとめ

以上に述べたように、音声認識はまだ発展途上にあるアプリケーションである。しかしながら、用途を限定し、十分に使いこんでから実用に供するなら十分に使うことができる。私のお勧めは、PC版としては Windows 7の音声認識機構、iPhone、iPad用としてはドラゴン・ディクテーションを勧める。なぜならどちらもタダであるからだ。それでいて十分、機能は高い。特にWindows 7の音声認識をマスターすれば、非常に格好良い PCライフが楽しめるであろう。

今日から私は、日記もメールも音声認識による音声入力を用いて書いている。具体的には Ami Voice を使っている。極めて快適である。もういくらでも入力できてしまうのである。書きすぎてしまうと言ってもいいだろう。ここに至るまではかなりの練習が必要だったことは事実である。しかしひとたびこの状態になると、私の知的生産性は爆発的に増えるであろうことが予想される。やはり試してみるものである 。

   
© NPO法人 知的人材ネットワーク・あいんしゅたいん (JEin). All Rights Reserved