メタの新しいAIは外交で人間プレイヤーに勝つことができる

これは、「AI が今できるようになった」というエキサイティングな瞬間です。Meta の最新 AI、Cicero は、古典的な交渉と裏切りのゲームである Diplomacy で人間のプレイヤーに勝つことができます。オンラインでプレイしているときウェブディプロマシー.net、「人間のプレイヤーの平均スコアの2倍以上」を達成し、「複数のゲームをプレイした参加者の上位10パーセントにランクイン」しました。誰が何をするために説得する必要があるかを把握し、印象的で効果的な自然言語を使用してそれらのプレイヤーと対話できます。

「世界征服」なんて冗談はしません。私はしません。

Diplomacy は、プレーヤーが第一次世界大戦の自由参加型バージョンでヨーロッパの支配を競う、余分なものを取り除いたボード ゲームです。毎ターン、盤上で少数の軍隊を操縦しますが、より重要なのは、同盟を結ぶことです。あなたはジェフに、マーガレットのドイツに対して団結し、ベルリンへの軍隊を支援することに同意する必要があると伝え、その後、パリを襲撃するのを助けると約束したマーガレットに密かに支援を交換します。外交とは、メタの言うように、研究ブログ投稿表現すると、「駒ではなく人間に関するゲーム」です。

もちろん、巧みな操縦が役立ちます。そして、それは高度な AI のスキルが議論の余地なく人間のスキルを上回る戦略的領域であり、メタは当然それを軽視します。それでもなお、人々に協力してもらうように説得する必要があるゲームであり、シセロはまさにそれを行うことができます。

詳細については、Meta のブログ投稿およびチームの記事を参照してください。研究論文ただし、研究科学者の Mike Lewis の論文を参照すると、最も印象的な部分にすぐにジャンプできます。ツイッターのスレッド

各ゲームでは、何百ものメッセージが送受信されますが、そのメッセージはゲームの状態、対話履歴、およびその計画に正確に基づいている必要があります。私たちは、誤ったメッセージをフィルタリングする方法を開発し、40 のゲームでエージェントを人間に置き換えることができました。ここでどのプレイヤーが AI であるかを推測してください... 4/5pic.twitter.com/8IMuepL7yf

— マイク・ルイス (@ml_perception)2022年11月22日

Meta のブログ投稿は、Cicero の魅力の核心に迫ったもので、非常に興味深いものです。 AI が「過去のゲームにおける人間のプレイヤーの行動のデータベースなどのラベル付きデータ」に基づいてトレーニングする教師あり学習だけで改善するのではなく、Cicero は予測を立てて、それを忠実に守ろうとします。

「Citerative は、対話の一貫性と合理性のバランスをとる反復計画アルゴリズムを実行します。エージェントはまず、他のプレイヤーと共有した対話に基づいて現在のターンの全員の方針を予測し、また、他のプレイヤーがエージェントの方針をどう考えるかも予測します。次にエージェントは、 piKL と呼ばれる私たちが開発した計画アルゴリズムを実行します。これは、他のプレーヤーの予測されたポリシーを考慮して、より高い期待値を持つ新しいポリシーを選択しようとすると同時に、新しい予測を元のポリシーに近づけようとすることで、これらの予測を繰り返し改善します。予測。」

別のツイートルイスからさらに、シセロは「意図的に裏切りをしないように設計されている」が、「時々考えが変わる...」と述べています。

メタ示唆によると、Cicero のような AI の将来のアプリケーションの 1 つは、ユーザーの動機を理解しながら現実的に話すビデオゲームの NPC を作成することです。もしかしたら本当にモンスターと話せるようになるかもしれない。