なぜ賢くないのか。「スマートスピーカーの基本」を4つの疑問から考える(西田宗千佳)back

なぜ賢くないのか。「スマートスピーカーの基本」を4つの疑問から考える(西田宗千佳)


続き・詳細・画像をみる

1:
A:コマンドワードを言わない限り記録されない
アメリカでこんな事件があった。
2016年12月、米アーカンソー州の警察当局は、Amazonに対し、殺人容疑者が所有するAmazon Echoの音声データを提供するよう令状を出した。家にEchoがあったなら、そこから情報が得られるのではないか......という発想からである。
Amazonはこれに応えていない。「法的に正当な根拠がない限り、顧客の情報は提供できない」というのが理由だ。真っ当な対応だが、とはいえ、もう少し現実的な話もある。提供しようにも、Amazonにはたいした情報がないのである。
Echoに代表されるスマートスピーカーは、利用者の声をマイクで拾って反応する。音声認識はクラウドで行っており、だから常に「声を記録し、ネットの向こうに送っている」ようにも思える。
だがそうではない。
スマートスピーカーでは「コマンドワード」を使う。Googleなら「OK Google」であり、LINEなら「Clova」であり、Amazonなら「Alexa」、マイクロソフトが「Cortanaさん」、アップルが「Hey,Siri」になるが、これを行ったのちの言葉が「命令」として有効になる。
こうした構造である理由は主に2つある。一つは、「ここからが命令である」ことを明確にし、認識率を高めること。そしてもう一つは、機械が記録する音声が「どこからどこまでか」を明確にすることである。要は、「コマンドワードを話してからの命令しか記録も認識もしていない」わけだ。
先ほどのアメリカでのAmazonの例も、コマンドワードの先しかネットには送られていないので、「殺人がコマンドワードを話した後に行われた、もしくは関連することが行われた」という前提でなければ、Amazonには情報が残っていないのである。
スマートスピーカーには必ず「マイクのミュートボタン」が用意されている。これは、スマートスピーカーが一切外部の音を認識しないよう、明示的に「今は聞くな」と示すために用意されているものだ。
逆にいえば、こうしたルールはメーカーとユーザーの間の「信頼関係」で成り立つ。ユーザーとの信頼関係を無視すれば、常に「盗聴状態」にすることも不可能ではない。とはいえ、そうしたことは通常の企業にとって、ビジネス価値の破壊につながるので、行われることはない。
ただし、機器のハッキングやなんらかの不具合によって、「意図せず記録されてしまう」場合はあり得る。先日もこんなニュースが流れた。(すでに不具合は解消済みであるというが......)ハッキングや不具合で「盗聴」される可能性はスマホやPCにもあるので、スマートスピーカー独自の問題とはいえない。だが、「信頼できるか否か」が重要であることには変わりない。
疑問その2:
A:諸事情あってコマンドワードは固定
スマートスピーカーではコマンドワードが重要だが、どうにもなじみがなかったり、思い入れが難しい言葉ばかりなのが気になる。あのドラマに出てきたあのコンピュータの名前や、あのアニメに出てきたあのキャラの名前、もしくは飼っていたペットの名前などにできればいいのに......と思う人は多いはず。
結論からいえば、これはけっこう難しい。
すでに述べたように、スマートスピーカーでは、コマンドワード以前の言葉を認識しない。逆にいえば、コマンドワードは「絶対確実に認識する」こと、「コマンドワードの認識だけはネットに依存しない」ことが必須条件になるのだ。
好きなキーワードを設定できるようにするには、スマートスピーカーなどの中だけで即座に、好きなキーワードに反応できるような認知系が必要になってくる。将来的には可能だが、今はそれが難しいため、徹底的に学習を重ねた特定のワードのみを仕込んで、ローカルで即座に確実に反応するように工夫する必要がある。だから、コマンドワードは「特定の言葉」なのである。
また、コマンドワードは、日常出てくる言葉では「誤爆」が問題になる。「言いにくくはないが絶妙に日常会話には出てきにくい」言葉でないと、実際には使いづらい。「コンピュータ」とか「Amazon」とかを使うと、そういう話題を話すたびに誤爆することになる。
疑問その3:
A:意外なほど「大人の事情」が敵になる
スマートスピーカーからの応答は、基本的に音声合成もしくは録音した音声で行われる。そこで誰もが思うのが、「声を変えられないのか」ということ。あのキャラ、あの声優の声にできれば、万難を廃して買う......という人は多いだろう。
だが、これもなかなか難しい。
スマートスピーカー製品に関わる企業の人々に幾人かに聞いてみたが、答えは皆「ノー」だった。
理由は技術的なものではない。もちろん、キャラの声を自由に合成するのはまだハードルの高い技術だが、けっしてできないことではない。
問題は、「キャラや声優さんに寄せると、発音可能な内容の自由度が下がる」ことだ。
キャラクター商品や芸能人の関わる製品には「監修」がつきものだ。彼らにとって、キャラクターや芸能人本人のイメージは商品そのものであり、商品価値とバッティングするようなあり方は許されない。その厳しさ・ユルさはまちまちだが、必ず監修作業が必須になることに違いはない。ここでいう「監修」とは、単に本人に言わせたくない言葉(わいせつな言葉など)だけを指すのではない。本人のイメージと乖離する言葉ばかりを話すことで、ファンが幻滅する可能性も含む。だから、演出も重要な要素だ。
だが、音声合成を使ったスマートスピーカーの場合、決まったフレーズだけを話すとは限らない。実際のところ、使い方が定まっていないと「監修」しようがない......という部分もある。NGワードを設けていくこともできるが、そうすると、スマートスピーカーや音声アシスタントの機能に制限をかけることにもつながる。
「声優さんの声を使ったサービス」はけっこうあるが、そのほとんどは「決まったことを喋るもの」である。そうすることで、演出と監修を生かした製品作りができる。音声アシスタント的な要素を持ち、キャラをいかした製品としては、過去にソニーモバイルが「SAO・アスナバージョンのXperia Ear」を出したことがある。だがこれも、Xperia Earの音声対応の範囲が限定されており、監修をしっかり通しても商品性にはマイナス要素がなかったから実現している。
結局、音声アシスタントのキャラは「自分たちで責任がもてるものを作る」のがベスト......という結論に、各社は至るのである。
もちろん将来、「キャラの特性を把握し、常にそこから離れずに演技できるAI」が開発できるようになれば、事情は変わるだろう。
疑問その

続き・詳細・画像をみる


ブラック企業で働くって大変だな

お菓子くれなきゃシャコシャコするぞ!隣人の家に毎日のようにやってきてはおやつくれるまでドアをたたき続ける猫

【動画】名古屋の交通事情ヤバすぎワロタ

【モバマス】小日向美穂「こひなたぬき」

【画像】どうすれば正解なの?

アムロ=νガンダムみたいな風潮

【希望】小池代表「ハンズやニトリでは色々売ってるが、足りないのが希望」と演説→ハンズが大人の対応

【VIP】育 ち が わ か る 行 動

【海外】9歳の女の子、147kgの従姉妹に座られて死亡

ドコモ、Android 8.0アップデート予定機種を発表。Xperia X Performanceなど

妻がDQNネーム付けたがったらどう止めるのがベストなんや?

【動画】ケンカ自慢の素人がプロボクサーとガチでやり合った結果・・・たった3秒で・・・

back 過去ログ 削除依頼&連絡先