StarCraft 2 グランドマスター レベルでプレイできる AI について Google に話しました

最後の「AI が何かをする」という見出しはどうなるのだろうか。 Google DeepMind が真の汎用知能の作成を目指して構想しているのは、「AI はあなたよりもはるかに優れたすべてのことを実行できる、いいや」のようなものです。彼らの尺度によると、彼らの AI AlphaStar は、1 日にグランドマスター レベルに到達し、その目標に向けてさらに 1 段上に到達しました。スタークラフト 2のヨーロッパのサーバー。つまり、最高のプレーヤーには勝てないものの、「地域の 90,000 人のプレーヤーの上位 0.15% 以内」であることを意味します。

特に前回以降、視点と 1 分あたりのアクションの制限が大きくなったことを考えると、これは印象的です。DeepMind が戦闘のために送り込んだ。このバージョンでは、どのマップでも 3 つのレースすべてをプレイできますが、人間のプレイヤーと同様にカメラ視点に制限されています。これは見事な成果ですが、チームと話し、注意点を 1 ~ 2 つ指摘する機会が得られたことをうれしく思います。

7 月に遡ると、ヨーロッパのプレーヤーは、次のようなチェックボックスを目にしました。Google のボットに直面する可能性をオプトインする。 Googleは現在、ボットの成果をNatureで公開している。実際の勉強は、ペイウォールの向こう側、しかしNatureも出版しました重要な詳細のほとんどが記載された記事

彼らは、AI に実際のプレイヤーを監視させてから、「エクスプロイター」と対戦させることで AI をトレーニングしました。これらは、AlphaStar の戦略に穴を突くために意図的に設計されたエージェントでした。プロプレイヤーの Dario "TLO" Wünsch は、1 月に以前のより制限の少ないバージョンの AlphaStar に打ちのめされる前からこのプロジェクトに関わってきました。

彼は、AlphaStar が建物の防御壁に計画された隙間を 1 つのユニットで埋めたサンプルマッチを見せてくれました。私がその行動は搾取者のせいではないかと尋ねたところ、研究科学者のオリオール・ヴィニャルズ氏が割って入って、それは標準的な強化学習の産物だが、「特に」搾取者によるものだと教えてくれた。壁が完璧でない場合、搾取エージェントが侵入する可能性があります。

私が述べたこれらの制限は非常に重要です。ビニャルズ氏は、この新しいバージョンの AlphaStar では 5 秒以内に 22 を超えるアクションを実行することはできず、「平均アクション率も妥当であることを保証するためだけに」より長い時間枠があると語った。重要なのは、「優れたプレーヤーと比較して統計的に高すぎると(彼らが)判断したものでは決して急上昇しない」ということです。実際の論文では、ピーク APM はプロ プレーヤーよりも低いと述べられていますが、これは人間が同じコマンドをスパム送信することでアクションを「無駄にする」可能性がいかに高いかについては考慮されていないことに注意する価値があります。

もう 1 つの重要な制限は、このバージョンの AlphaStar はカメラをかざしたゲームの一部しか「見る」ことができないことです。 DeepMind は、人間と同じゲームを見ているという印象を与えたいと考えていますが、その主張には精査が必要なニュアンスがあります。ヴィニャルス氏は喜んでこれに従う。「ここで正確に意味しているのは、人間のカメラの視点では原理的に利用できない情報はいかなる時点でもアルファスターには与えられないということだ。アルファスターはカメラの視点の外でアクションを実行できない。おそらく特定のものを見ているのだろう」 、もしかしたらもっと正確かも――」

その時点で彼は告げ口して立ち止まった。 「正確に言えば、正確な言葉ではないかもしれませんが、それは違います。認識はコンピュータのインターフェースを介して行われ、数値を認識し、バイナリ情報をデータに変換します。」

ダリオ氏は、より有益に、例えば 32 ユニット対 31 ユニットという接戦の状況で、AI がどのようにして自分が有利であると判断できるかについて要約しました。しかし、これらは周辺事例であり、人間は直観するのが得意であると強調しました。結果。彼はまた、範囲能力で自身のユニットを爆破するなど、AlphaStar が犯した多くの間違いをすべて取り上げました。 「一部の部隊はより良く制御できるが、一部の部隊はより制御が悪い」と彼は述べた。 「その観点からすると、それは非常に公正だと感じます。」ヴィニャルズ氏は、地図上で正確にクリックする能力、またはクリックに相当する能力は、「おそらく中型ユニットの約半分」であると推定した。

Google にとって重要なのは公平性です。ヴィニャルズ氏は、カメラの焦点をどこに合わせるかなど、AI にリアルタイムの決定を下せるようにすることに非常に興味があると語った。彼は、「これらのユニットを完璧に制御することは不可能だから、それらを移動させて、後でこれらのユニットに戻ってくるだけかもしれない」などのことを「考える」ことを望んでいます。彼によれば、「AlphaStar が開発したスキルは、私たちが課した制限があるからこそ可能になったものです。」

ダリオはこれを裏付け、「制限が適用される前のプレイスタイルは、少し退廃的でした。多くの場合、単一のユニットが有利になり、単一の攻撃が完璧に実行されるとゲームが終了します。APM 制限が導入されてからすぐに、私はそれを見ました」より多様な戦略、ゲームのより深い探索 これは非常に素晴らしい教訓です。機械的に能力が低下しても、より多くのインテリジェンスが出現する可能性があります。」

公平性が重要であるという別の意味もあります。 AlphaStar の洗練が、DeepMind がわずかに改善されたアルゴリズムに資金と計算能力を投じた結果であるとすれば、その成果はそれほど印象に残るものではないでしょう。当然のことながら、チームはそんなことはないと私に安心させようとしてくれました。研究者の David Silver 氏は、このプロジェクトに約 2 年間取り組んでおり、プロジェクトの範囲を他の Google プロジェクトと比較したと語った。アルファ碁そしてアルファゼロ

ビニャルズ氏は、学術機関の多くの人々が「画像モデルなどのトレーニング」に使用しているものと同じコンピューティング リソースを使用していると私に語り、シルバー氏は、学術機関が「リソースを効果的に使用すれば」その結果を反映できる可能性があると主張した。彼は、新聞の情報から総経済コストを割り出すことはできるが、それが「衝撃的な数字」になるとは思わないと私に言いました。 Vinyals 氏は、このハードウェアを使用して AlphaStar を人間の約 200 年に相当する期間プレイさせたと推定しています。彼はこの数字を、技術的に可能な数千年または数百万年と比較して好意的に比較しています。

私も、そしてAIの魔術師マイク・クック氏は、この記事のために私に知恵を貸してくれましたが、この偉業の重要性の多くは、どれだけお金と創意工夫に起因するかにかかっていると考えています。シルバー氏は、Deep Mind が最終的に追求している問題は「人間が持つ知能レベルと一般的な学習能力を獲得できるかどうか」であり、「それを実証できるようにゲームのコンテキストから始めたいと考えている」と語った。

こすれがあります。これは、大規模なリソースを持つ組織が、99.85% の人間に勝つ AI をどのように作成できるかを示す印象的なデモンストレーションです。スタークラフト重要なのは、彼らと同じような方法でプレイすることです。それが一般知性への一歩をどの程度構成するかについては、この記事の範囲を超えた問題です。とりあえず聞いてみることにするだけです。