Microsoft、声を模倣できる不気味なAI「VALL-E」を発表

マイクロソフトの研究者チームは、わずか 3 秒のサンプルに基づいて人間の音声のリアルな物まねを生成できる新しい AI である VALL-E に関する論文を発表しました。これは声優だけでなく、カードの詳細が必要な親戚と電話していると騙される可能性のある人にとっても憂慮すべき事態だ。私は通常、新しい AI トリックのマイナスの影響について考える前に、その印象的なものに驚かされるのですが、これには最初から不安を感じました。

YouTubeで見る

サンプルの一部を自分で再生できますMicrosoft の github デモについて、または以下のビデオをご覧ください。

研究者らは、VALL-E を「既製のニューラルオーディオコーデックモデルから派生した離散コード」でトレーニングされた「ニューラルコーデック言語モデル」と説明しています。また、「既存のシステムの数百倍に相当する」6万時間の音声をもとに訓練されているとも述べている。人間の音声をリアルに模倣するように設計された AI は以前から存在していましたが、他の試みが不十分である一方で、これらのサンプルは説得力があります。かなり明らかにロボット。

研究者らが指摘しているように、VALL-E はプロンプトの「話者の感情と音響環境を保存する」ことができます。それは印象的ですが、パフォーマンスで適切なトーンと感情を表現することとは異なります。そのため、声優を置き換えるにはまだ長い道のりがあります。 VALL-E の高度なバージョンでさえ、才能ある専門家を上回るパフォーマンスを発揮しているとは思えません。しかし、企業は何が最善であるかよりも、費用対効果が高いものを追求する傾向があります。

AI の進歩が目覚ましい時代であり、Chat-GPT では次のことが可能になりました。エッセイの執筆とコーディングエラーの修正一方で、Midjourney や DALL-E のような作品は、間違いやすいイメージを吐き出します。人間のアーティストの作品のために。これらのおもちゃが人々の生活を脅かさない世界で遊べるようになればいいのにと思います。

関連記事

テムズ川の血の中で静かに魅力的なメタマステリーを熟考する

私はスチールリーズアークティスノヴァプロワイヤレスで（ほぼ）史上最低価格でスナップしました

Elder Scrolls IVで最高の出生サインIV：Oblivion Remastered

アサシンの信条の影のすべての隠されたトレイルの場所と報酬

Creepy Redneck Dinosaur Mansion 3、Survival Horror、Match-3 Metroivaniaの続編は存在しない、

この新しいDell GeForce RTX 4070 TiスーパーゲームPCはたった1650ドルに落ちました