今日の「コンピューターがこれまで人間に勝てなかった点でコンピューターが人間に勝った」というニュース: Google Deepmind が勝利したスタークラフト 2自分のゲームのプロ。 「AlphaStar」は昨晩、トップとの試合を中心としたショーのライブストリームで発表されました。スタークラフトプロはグジェゴシュ・“MaNa”・コミンチとダリオ・“TLO”・ヴンシュ。 AlphaStar が勝ったすべての試合は、実際には事前に録画されたものでした。
注目すべき点は、OpenAI の Dota ボットとは異なり、AI はあなたや私が今すぐ起動できるのと同じバージョンの StarCraft をプレイしていたことです。Dota 2 プロに勝つことができませんでした去年、ゲームのカットバックバージョンで。これで Google は 2 対 0 となり、Google も2016年にGO世界チャンピオンを破った。
それでも、AI の超人的な利点の 1 つが無効になると、AI は失われることを心に留めておくことが重要です。最後のライブマッチは、ズームアウトできないバージョンの AlphaStar と対戦し、人間のライバルよりも多くのマップを一度に表示しました。
こちらがディープマインドのAlphaStar の概要ただし、そこにあるすべての主張を眉間にしわを寄せながら読むことを忘れないでください。以下の流れも同様です。
たとえば、次のような主張を考えてみましょう。
「TLO と MaNa との試合では、AlphaStar の平均 [1 分あたりのアクション] は約 280 で、プロ プレーヤーよりも大幅に低かったが、そのアクションはより正確である可能性があります。この低い APM の一部は、AlphaStar がトレーニングを開始したためです。リプレイを使用するため、人間のゲームのプレイ方法を模倣します。さらに、AlphaStar は観察とアクションの間で平均 350 ミリ秒の遅延で反応します。」
これは重要かつやや印象的なメモです。AI は超人的なスピードを活用して勝利したわけではありません。しかし、その動作がより正確になるということはさておき、私には大きな問題であると思われます。超人的なマイクロプレイは、AlphaStar が人間の敵を出し抜くことで勝利したという考えを台無しにします。
私は AI 研究者の Vanessa Volz 氏にも連絡を取りました。彼はこの非常に正当な指摘を提起しました。「場合によっては (ストーカーやドローンの過剰生産など)、AlphaStar はプロにとってなじみのない戦略を実行していたため、プロは対応するのが困難でした。したがって、その部分が人間のプレイヤーの考えを超えたものか、あるいはむしろ驚くべきものだったのかは不明です。」
これらの制限を念頭に置くのは重要ですが、それでもこれは見事な成果です。 StarCraft の複雑さの周りにニューラル ネットワークがどのように回路をラップしたかの詳細には触れませんが、概要は次のとおりです。
「AlphaStar の動作は、生のゲーム インターフェイス (ユニットとそのプロパティのリスト) から入力データを受信し、ゲーム内のアクションを構成する一連の命令を出力するディープ ニューラル ネットワークによって生成されます。
「AlphaStar は、新しいマルチエージェント学習アルゴリズムも使用しています。ニューラル ネットワークは、当初、Blizzard がリリースした匿名化されたヒューマン ゲームからの教師あり学習によってトレーニングされました。これにより、AlphaStar は、ゲーム上でプレイヤーが使用する基本的なミクロおよびマクロ戦略を模倣して学習することができました。」スタークラフトのはしごです。」
その後、「チーズ戦略」がより平等なアプローチに屈したため、彼らはアルファスターに人間の戦略を反映した進化する戦略で、自分自身のさまざまなバージョンとゲームをプレイさせました。
これはビデオゲーム以外にも応用できますか? Google は確かにそう考えています。
「非常に長い一連のデータに対して複雑な予測を行うという基本的な問題は、天気予報、気候モデリング、言語理解など、現実世界の多くの課題に現れています。私たちは、これらの領域で大幅な進歩をもたらす可能性に非常に興奮しています。 AlphaStar プロジェクトからの学びと発展。」
もっともらしい。確かにもっともらしいです。