スマホメーカー同士による「AI戦争」が日に日に激化している。
オンデバイス――すなわち、スマホのプロセッサーでの処理に対応するAIの開発は、同時に「音声アシスタントの進化」をも促している。
「OK,Google」や「Hey,Siri」などの呼びかけで起動する音声アシスタントは、いまや高度に進化したAIに歩調を合わせてユーザーの個人秘書のようになろうとしている。
だが、その音声アシスタント分野での明暗が、AndroidとiOSで大きく分かれているようだ。
服のコーディネートもお任せ!
現在のAIは「マルチモーダル」に対応しようとしている。
これは、写真や音声、文章などの異なる情報源を同時に認識し、処理する機能を指す。Googleの開発した生成AIモデル「Gemini」に対応した音声会話システム「Gemini Live」は、2025年3月中に「画面共有」と「ライブ動画ストリーミング」のサービスを開始する予定だ。
このシステムによって、どんな使い方ができるのか。たとえば、通販サイトで服を買おうと考えているとする。ちょうどいいジーンズを見つけたが、今度はそれに合ったジャケットを見つける必要が出てきた。そんな時、Gemini Liveを使って「このジーンズに合う上着は何?」と口頭で質問する。この際、ジーンズの画像を共有していれば、Geminiは画像と音声での質問を統合して情報分析する。
これはいわば、AIがファッションコーディネーターになってくれる用途であると言えるだろう。
スマホカメラはAIの「目」
もうひとつ、「ライブ動画ストリーミング」についても解説しよう。
Googleはこの機能に関する利用例の動画を公開している。たとえば、素焼きが終わって間もない(これから本焼きする)花瓶の動画を撮影し、同時に釉薬のいくつかのサンプルを映し、その上でGemini Liveに「こんな花瓶を目指してるんだけど、どの釉薬を使った方がいいかな?」と質問する。すると、Gemini Liveがより最適な釉薬に関するアドバイスを返してくれるのだ。
スマホカメラを「目」として使い、対象物を撮影しながら口頭で質問する。そうした使い方を、Gemini Liveは可能にしているのだ。
「新しいSiri」は開発が難航か
一方、Appleも「Apple Apple Intelligence」にパーソナライズされた「新しいSiri」の開発を行っている最中である。
だが、これはリリースが大幅に遅れるという。John Gruber氏のブログ『Daring Fireball』の取材に応じたAppleの広報担当スタッフによると、新しいSiriのリリースは来年2026年になってしまうという。
これは手痛い遅れであるということは言うまでもない。リリースが2026年ということは、次期iPhoneナンバー(iPhone17)には間に合わない見込みということでもある。
こうした残念な話題もあるが、それでも音声アシスタントはAIの進化に合わせて「頼れる相棒」になっていることは間違いないだろう。(澤田真一)