WADA-blog(わだぶろぐ)
ニッチテーマでサイトを企画・制作し広告収入で暮らすミニサイト作り職人だった(←引退しました)自由人わだのブログ。製品レビューに小型バイク、セルフリノベ、家庭菜園、IoTまで好奇心のおもむくまま。

「Google音声検索」記者発表会

P1080396_3渋谷のセルリアンタワーで開催されている、Googleの記者発表会に参加中。

まずは速報まで。

P1080399

携帯には多数のセンサーがある。
マイク、スピーカー、GPS、カメラ。

マイクという、携帯が生まれたときから存在するセンサー。
それにクラウドをつなげることにより、携帯は耳のような存在になる。

まず提供するのは、アンドロイド、そしてIPhone。

いきなりデモが行われた。

携帯に向かって話しかける。
そして検索が始まる。

P1080407

セルリアンタワーの住所からマップを見たい。
入力は面倒、数字の切り替えもある。打ち間違えも。

音声検索であれば簡単。

そしてスピーカーは、壇上で住所をかなりはやいスピードで読み上げた。
それにより、地図が瞬時に開かれた。

住所読み上げで、おそらくユーザは地図を知りたいのだろうということで、一発で地図をだす。

次に「ラーメン」とひとこと。

それだけで、GPWSと連動して、現在地の近くのラーメンがでてくる。すごい。

P1080408

電話番号も表示されていて、そこにかけるのも簡単。
そしてルート案内も。

なんというかこれは「執事の世界」だなあ~。

次に「六本木のおいしい焼き鳥」と読み上げた。

今度は六本木のおいしい焼き鳥屋さんの情報がでてきた。

外出したときに一番気になるのは、乗り換え案内。
携帯のユースケースとしてもメジャー。

これも音声検索だと違ったことになる。

「東京テレポートから赤坂見附」

これで、いまからでる次の電車、そして乗り換え検索が一発ででてくる。

ひとこというだけででてくるので、最速の乗り換え案内。

終電ぎりぎりで走っているとき、これはもうキーボード入力はムリ。

「赤坂見附から横浜、終電」

というだけで、終電の乗り換え案内もでてくる。
なんだ走る必要ないじゃんと歩くこともできる。

あるある。時間わからないだけで走り続けちゃうこと!

続いてiPhoneのデモ。

Googleモバイルアップというアプリを使う(←あとで確認必要)。
サーバも同じなので、同じ品質のサービスを提供できる。

次に画像の検索。

携帯では画像検索のニーズが強い。
音声だとこんな感じ。

「宇宙から見た日本の夜景の写真」

かなり詳しい指定をした検索クエリー。

クエリーがご認識されてしまったのでもう一度。

非常に詳しい指定でもしっかり認識されて帰ってくる。

iPhone接続、ネットワークがいまひとつらしく。

より多くの画像を見ることができ、また拡大することも。

画像の次は動画。
またまたデモ。

世界一大きな犬「アイリッシュウルフハンド」の子供も大きいのか?と甥っこに聞かれたというシチュエーション。

「アイリッシュウルフハンド 子犬 動画」で検索するとYouTubeの動画がでてきた。

誰かと話しながらYouTubeの動画を一緒に見たいというとき、タイプしてると会話がとぎれてしまう。音声検索ならそういうこともない。

「YouTube 猫 だるまさんが転んだ」

ここですごいのは、ユーチューブがちゃんと英語でスペリングしてくれている。

「英和 ディステーネーション」

かたかな発音しても、正しい英語のスペリングをしてくれる。そして辞書を表示してくれる。辞書をひくのも一瞬。スペルを確認するにも使える。

アーティストの名前などでも便利。

このエンジンの賢さを示すため、難しい日本語の地名を。

スピーカーがまた読み上げた。

「北海道 中川郡 音威子府村」

ちゃんと変換してくれる。
最初に人から聞いたときはまったくわからなかったという。人の耳よりいいのではとのこと。


<ここからまた追記>


●認識制度

Googleが独自開発したもの。
膨大なデータ、100億以上の検索ワードを使って学習をしたりした。

最先端の音声認識の技術をつかっていて、ノイズの多い場所でも使えるようになっている。

こういうサービスを使う場は、まわりにテレビがついていたり音楽かかっていたり、人が話していたり、街で喧騒の中であったり。そういった私用環境の中でも認識する製品にしている。

先週公開したGoogle日本語入力の技術も。

認識制度は、ユーザが使えば使うほど学習してゆく。

Googleの強みである技術、データで開発された。

●スピード

音声をコンピュータに認識させる処理は、非常に負荷がかかる。
Googleがもつクラウド、数多くのコンピュータが処理をして実現している。

非常に多くのリクエストがきてもちゃんとすばやく処理することができる。

●検索

住所を入れれば地図を、駅名で乗換え案内など、意図をどう認識しているか。
ここは検索技術。

認識されたキーワードの意図がどういったものであるか、それを認識して結果を返す。

最も簡単にすぐにユーザの求める答えを返すことができる。

モバイルの世界で技術革新を進めていきたい。
クラウドと携帯電話をつなげる。PCにもモバイルにもこれまでなかった革新的なサービスを提供できる。

音声検索はその第一歩。

携帯電話にはまだまだ可能性がある。マイク以外のセンサーもある。
多様なハードウェアを搭載、それをクラウドとつなげることで何ができるのか。

今回の音声検索にもGPSつかわれているが、GPSについてもまだまだサービス開発してゆく。夢広がるばかり。

音声認識自体にも、まだまだ可能性がある。

ユーザが知りたいことを話すと答えを返してくれるという親和性の高いところから始めたが、汎用性がたかく応用がきく。詳しいロードマップはまだ公開できないがお楽しみに。

●質疑応答

修正についての実演。
間違えていってしまったときには、「キャンセル」というボタンを押すとそこでキャンセルできる。いい間違えたら簡単に取り消せる。

なまりについて。
標準語は当然として、関西弁の場合。

「道頓堀のうまいお好み焼き」と、関西弁で話をしても認識された(「うまい」の「う」にイントネーションがあっても)

既に、英語・中国語のサービスが展開されていて、言語としては日本語が3つめ。