マイクロソフトの研究者チームは、わずか 3 秒のサンプルに基づいて人間の音声のリアルな物まねを生成できる新しい AI である VALL-E に関する論文を発表しました。これは声優だけでなく、カードの詳細が必要な親戚と電話していると騙される可能性のある人にとっても憂慮すべき事態だ。私は通常、新しい AI トリックのマイナスの影響について考える前に、その印象的なものに驚かされるのですが、これには最初から不安を感じました。
サンプルの一部を自分で再生できますMicrosoft の github デモについて、または以下のビデオをご覧ください。
研究者らは、VALL-E を「既製のニューラル オーディオ コーデック モデルから派生した離散コード」でトレーニングされた「ニューラル コーデック言語モデル」と説明しています。また、「既存のシステムの数百倍に相当する」6万時間の音声をもとに訓練されているとも述べている。人間の音声をリアルに模倣するように設計された AI は以前から存在していましたが、他の試みが不十分である一方で、これらのサンプルは説得力があります。かなり明らかにロボット。
研究者らが指摘しているように、VALL-E はプロンプトの「話者の感情と音響環境を保存する」ことができます。それは印象的ですが、パフォーマンスで適切なトーンと感情を表現することとは異なります。そのため、声優を置き換えるにはまだ長い道のりがあります。 VALL-E の高度なバージョンでさえ、才能ある専門家を上回るパフォーマンスを発揮しているとは思えません。しかし、企業は何が最善であるかよりも、費用対効果が高いものを追求する傾向があります。
AI の進歩が目覚ましい時代であり、Chat-GPT では次のことが可能になりました。エッセイの執筆とコーディングエラーの修正一方で、Midjourney や DALL-E のような作品は、間違いやすいイメージを吐き出します。人間のアーティストの作品のために。これらのおもちゃが人々の生活を脅かさない世界で遊べるようになればいいのにと思います。