Semiconductor Portal

HOME » セミコンポータルによる分析 » 産業分析

駅探ならぬ「コエタン」ソフトを半導体チップにインプリするとどうなるか

音声認識ソフトウエアを半導体チップに焼き付け、何か新しい応用はできないだろうか。音声認識ソフトはこれまでコンピューティングパワーをかなり必要としたが、賢い方法で軽くし、それでも重い場合にはクラウドコンピューティング手法を使って、ほぼリアルタイムに応答させることができるようになった。

「コエタン」でマイクに向かって駅名を言い、結果や地図を表示する

「コエタン」でマイクに向かって駅名を言い、結果や地図を表示する


英国南西部チェルトナムに本部を置く、ノバウリス(Novauris Technologies)社は、プログラム容量が2.9MBと軽い音声認識ソフトウエア「コエタン」を開発、米アップル社のスマートフォンiPhoneおよび音楽プレイヤーiPod touchに搭載することに成功した。このビジネスでは、日本のインターネットベンチャーであるトラフィックゲートと手を組み、トラフィックゲートのインターネット広告の配信プラットフォーム「TG Ad for iPhone」を利用することで、アップルストアから無償でダウンロードできるというビジネスモデルを確立した。彼らはスマートフォンなどを使う消費者がアプリケーションをダウンロードするたびにサーバーをアクセスするため広告がヒットするという仕掛けを作っている。コエタンのアプリに搭載したバナー広告をユーザーがクリックしてもサーバーはヒットする。広告をヒットするたびに収入が入る。これが彼らのビジネスモデルであり、その売上収入をノバウリスとトラフィックゲートで分ける。

この音声認識ソフトは、電車の乗り換え案内サイトである「駅探」ならぬ、「コエタン」という商品名で、音声で駅名を入力し、その検索結果をiPhoneかiPod touchの画面に表示するもの。ユーザーは、「溜池山王から東京まで」といえば、画面に「駅探」と同じように路線案内を表示する。コエタンはアップルストアからダウンロードできる75,000アプリケーションソフトの一つにすぎないが、人気ランキング上位にあるという。

この音声認識は、「AからBまで」というとその音声をデータ通信でトラフィックゲートが持つサーバーに送られ、直ちにパターンマッチング計算をした後、結果をiPhoneなどに戻してくる。iPhoneに戻ると駅探のAPIをアクセスし、駅探と同じ画面に結果を表示する。

この音声認識では、特別なサーバーは使わない。ごく一般的なサーバーで十分に計算処理できる、とノバウリス社CEOのYoon Kim氏はいう。音声からテキストへ直接変換する場合には、パターンマッチングを探すのに一から十までしらみつぶしに比較するためCPUを目いっぱい使うが、周囲の雑音や不特定話者のような同じ言葉でも違う発音などによって、認識率がよくないうえに時間がかかっていた。

そこで今回、音声を例えば「ためいけさんのう」なら「ta/me/i/ke/san/no/u」などのようなシンボルに分け、シンボルごとに比較するようにした。もしシンボルが「ta/be/i/ke/san/no/u」となっていれば、明らかに違いがわかりノイズとして除去できる。出来るだけ短いシンボルで比較することで短時間に結果がわかるため、音声からテキストまでシンボルを何段階かに分け、比較しテキストへ変換する。比較部分が小さいため計算が速くなるとしている。シンボルをどのように分けるか、どのようにして参照シンボルを見つけるか、にノウハウがあり、この技術に特許を持っている、とKim氏は言う。

このソフトウエアは、iPhoneなどから消費者はダウンロードできるが、半導体チップに焼き込むことも可能で、プログラム容量が2.9Mバイト程度とフラッシュメモリーに簡単に収まる。音声認識ソフトが軽い応用では、半導体チップに集積し、携帯機器に組み込むこともできるとする。

今後、音声認識技術をエンターテインメント分野に展開していきたい、Kim氏は語る。

(2009/11/05)
ご意見・ご感想