TED動画厳選 Stuart Russell /「安全なAIのための３原則」

安全なAIのための３原則（17:35）

スチュワート・ラッセル（Stuart Russell）

このページをシェアする：

対訳テキスト
講演内容の日本語対訳テキストです。

※映像と合わせてご覧になる方へ
自動スクロールはしませんので、映像に合わせてスクロールさせてご覧下さい。

これは李世ドルです。李世ドルは世界で最も強い碁打ちの１人ですが、シリコンバレーの友人たちなら「なんてこった」と言う瞬間を迎えています。

(笑)

我々が予想していたよりもずっと早く AIが進歩していることに気付いた瞬間です。人間は碁盤上で機械に負けましたが実際の世の中ではどうでしょう？

実際の世界は碁盤よりもずっと大きくずっと複雑でずっと見通し難いですが決定問題であることに違いはありません。到来しつつあるテクノロジーのことを考えるなら — 機械は本当に理解して文を読めるようにはまだなっていないことに新井紀子氏が触れていましたが、それもやがてできるようになるでしょう。そしてそうなったとき機械は人類がかつて書いたすべてのものを速やかに読破することでしょう。そうなると機械は碁において見せた、人間より遠くまで見通す力と合わせより多くの情報に触れられるようになることで、実際の世の中でも人間より優れた判断ができるようになるでしょう。それは良いことなのでしょうか？そうだと望みたいです。

我々の文明そのもの我々が価値を置くすべては我々の知性を拠り所としています。はるかに多くの知性が使えるようになったなら人類に可能なことに限界はないでしょう。ある人々が言っているようにこれは人類史上最大の出来事になるかもしれません。ではなぜ「AIは人類の終焉を意味するかもしれない」などと言われているのでしょう？これは新しいことなのでしょうか？ただイーロン・マスクとビル・ゲイツとホーキングが言っているだけなのか？

違いますこの考えは結構前からありました。ここにある人の言葉があります。「重大な瞬間にスイッチを切るといったことによって機械を従属的な位置に保てたとしても — この“スイッチを切る”ことについては後でまた戻ってきます―種としての我々は謙虚に捉えるべきである」誰の言葉でしょう？アラン・チューリングが 1951年に言ったことです。ご存じのように、チューリングはコンピューター科学の父であり、いろいろな意味で AIの父でもあります。この問題を考えてみると、つまり自分の種よりも知的なものを生み出してしまうという問題ですが。これは「ゴリラの問題」と呼んでも良いかもしれません。なぜなら数百万年前にゴリラの祖先がそうしているからで。ゴリラたちに尋ねることができます。「いいアイデアだったと思う？」

ゴリラたちがいいアイデアだったのか議論するために集まっていますがしばらくして出した結論は「あれは酷いアイデアだった」というものです。おかげで我々の種はひどい苦境に置かれていると彼らの目に実存的な悲哀を見て取れるでしょう。

(笑)

「自分の種より知的なものを生み出すのは良い考えではないのでは？」という不安な感覚がありますそれについて何ができるのでしょう？ AIの開発をやめてしまう以外ないかもしれませんが AIのもたらす様々な利点や私自身AI研究者であるという理由によって私にはそういう選択肢はありません実際AIは続けたいと思っています。

この問題をもう少し明確にする必要があるでしょう正確に何が問題なのか？優れたAIが我々の破滅に繋がりうるのはなぜなのか？

ここにもう１つ引用があります「機械に与える目的についてはそれが本当に望むものだと確信があるものにする必要がある」これはノーバート・ウィーナーが 1960年に言ったことで最初期の学習システムが作り手よりもうまくチェッカーを指すのを見たすぐ後のことですしかしこれはミダス王の言葉だったとしてもおかしくないでしょうミダス王は「自分の触れたものすべてが金になってほしい」と望みそしてその望みが叶えられましたこれはいわば彼が「機械に与えた目的」ですそして彼の食べ物や飲み物や親類はみんな金に変わってしまい彼は悲嘆と飢えの中で死んでいきましただから自分が本当に望むことと合わない目的を掲げることを「ミダス王の問題」と呼ぶことにしましょう現代的な用語ではこれを「価値整合の問題」と言います。

間違った目的を与えてしまうというのが問題のすべてではありません別の側面もあります「コーヒーを取ってくる」というようなごく単純な目的を機械に与えたとします機械は考えます「コーヒーを取ってくるのに失敗するどんな状況がありうるだろう？誰かが自分のスイッチを切るかもしれないそのようなことを防止する手を打たなければ自分の「オフ」スイッチを無効にしておこう与えられた目的の遂行を阻むものから自分を守るためであれば何だってやろう」１つの目的を非常に防御的に一途に追求すると人類の本当の目的に沿わなくなるというのが我々の直面する問題です実際それがこの講演から学べる価値ある教訓です。もし１つだけ覚えておくとしたらそれは — 「死んだらコーヒーを取ってこれない」ということです。

(笑)

簡単でしょう。記憶して１日３回唱えてください。

(笑)

実際映画『2001年宇宙の旅』の筋はそういうものでした。HALの目的・ミッションは人間の目的とは合わずそのため衝突が起きます幸いHALは非常に賢くはあっても超知的ではありませんでしたそれで最終的には主人公が出し抜いてスイッチを切ることができましたでも私たちはそんなに幸運ではないかもしれませんではどうしたらいいのでしょう？

「知的に目的を追求する機械」という古典的な見方から離れて AIの再定義を試みようと思います３つの原則があります第１は「利他性の原則」でロボットの唯一の目的は人間の目的人間にとって価値あることが最大限に実現されるようにすることですここで言う価値は善人ぶった崇高そうな価値ではありません単に何であれ人間が自分の生活に望むものということです。この原則は「ロボットは自己を守らなければならない」というアシモフの原則に反します自己の存在維持にはまったく関心を持たないのです。

第２の原則は言うなれば「謙虚の原則」です。これはロボットを安全なものにする上で非常に重要であることがわかります。この原則はロボットが人間の価値が何か知らないものとしています。ロボットは最大化すべきものが何か知らないということです。１つの目的を一途に追求することの問題をこれで避けることができます。この不確定性が極めて重要なのです

人間にとって有用であるためには我々が何を望むのかについて大まかな理解は必要です。ロボットはその情報を主として人間の選択を観察することで得ます。我々が自分の生活に望むのが何かという情報が我々のする選択を通して明かされるわけです。以上が３つの原則です。これがチューリングの提起した「機械のスイッチを切れるか」という問題にどう適用できるか見てみましょう

これは PR2 ロボットです。私たちの研究室にあるもので背中に大きな赤い「オフ」スイッチがあります。問題はロボットがスイッチを切らせてくれるかということです。古典的なやり方をするなら「コーヒーを取ってくる」という目的に対し「コーヒーを取ってこなければならない」「死んだらコーヒーを取ってこれない」と考え私の講演を聴いていたPR2は「オフ・スイッチは無効にしなければ」と判断し「スターバックスで邪魔になる他の客はみんなテーザー銃で眠らせよう」となります。

(笑)

これは避けがたいように見えますこのような故障モードは不可避に見えそしてそれは具体的で絶対的な目的があることから来ています

目的が何なのか機械に確信がないとしたらどうなるでしょう？違ったように推論するはずです「人間は自分のスイッチを切るかもしれないがそれは自分が何か悪いことをしたときだけだ悪いことが何かよく分からないけど悪いことはしたくない」ここで第１および第２の原則が効いています。「だからスイッチを切るのを人間に許すべきだ」実際ロボットが人間にスイッチを切ることを許すインセンティブを計算することができそれは目的の不確かさの度合いと直接的に結びついています。

機械のスイッチが切られると第３の原則が働いて追求すべき目的について何かを学びます。自分の間違った行いから学ぶのです。数学者がよくやるようにギリシャ文字をうまく使ってそのようなロボットが人間にとって有益であるという定理を証明することができます。そのようにデザインされた機械の方がそうでないものより良い結果になると証明可能なのです。これは単純な例ですが、人間互換のAIを手にするための第一歩です。

３番目の原則については皆さん困惑しているのではと思います。「自分の行動は見上げたものではない。ロボットに自分のように振る舞って欲しくはない。真夜中にこっそり台所に行って冷蔵庫から食べ物を失敬したり、あんなことやこんなことをしているから」ロボットにしてほしくない様々なことがあります。でも実際そういう風に働くわけではありません。自分がまずい振る舞いをしたらロボットがそれを真似するというわけではありません。人がそのようにする動機を理解して、誘惑に抵抗する手助けさえしてくれるかもしれません。それでも難しいです。私たちがやろうとしているのは、あらゆる状況にあるあらゆる人のことを機械に予測させるということです。その人たちはどちらを好むのか？これには難しいことがたくさんあって、ごく速やかに解決されるだろうとは思っていません。本当に難しい部分は私たちにあります。

言いましたように、私たちはまずい振る舞いをします。人によっては悪質でさえあります。しかしロボットは人間の振るまいを真似する必要はありません。ロボットはそれ自身の目的というのを持ちません。純粋に利他的です。そして１人の人間の望みだけ満たそうとするのではなく、みんなの好みに敬意を払うようデザインされています。だからある程度悪いことも扱え、人間の悪い面も理解できます。例えば入国審査官が賄賂を受け取っているけれど、それは家族を食べさせ子供を学校に行かせるためなのだとか。ロボットはそれを理解できますがそのために盗みをするわけではありません。ただ子供が学校に行けるよう手助けをするだけです。

また人間は計算能力の点で限界があります。李世ドルは素晴らしい碁打ちですが、それでも負けました。彼の行動を見れば勝負に負けることになる手を打ったのが分かるでしょう。しかしそれは彼が負けを望んだことを意味しません。彼の行動を理解するためには、人の認知モデルを逆にたどる必要がありますが。それは計算能力の限界も含むとても複雑なモデルです。それでも私たちが理解すべく、取り組めるものではあります。

AI研究者として見たとき最も難しいと思える部分は私たち人間が沢山いるということです。だから機械はトレードオフを考え、沢山の異なる人間の好みを比較考量する必要があり、それにはいろいろなやり方があります。経済学者社会学者倫理学者はそういうことを分かっており、私たちは協同の道を探っています

そこをうまくやらないとどうなるか見てみましょう。たとえばこんな会話を考えてみます。知的な秘書AIが数年内に利用可能になるかもしれません。強化されたSiriのようなものです。Siriが「今晩のディナーについて奥様から確認の電話がありました」と言います。あなたはもちろん忘れています。「何のディナーだって？何の話をしているんだ？」

「20周年のディナーですよ夜７時の」

「無理だよ、７時半に事務総長と会わなきゃならない。どうしてこんなことになったんだ？」

「警告は致しましたが、あなたは推奨案を無視されました」

「どうしたらいいんだ？忙しくて行けないなんて言えないぞ」

「ご心配には及びません事務総長の飛行機が遅れるように手配済みです」

(笑)

「コンピューターに細工しておきました」

(笑)

「えっそんなことできるのか？」

「大変恐縮して明日のランチでお会いするのを楽しみにしているとのことです」

(笑)

ここでは価値についてちょっと行き違いが起きています。 Siri は明らかに妻の価値観に従っています。「妻の幸せが夫の幸せ」です

(笑)

別の方向に行くこともあり得ます。忙しい仕事を終え帰宅するとコンピューターが言います。「大変な１日だったようですね」

「昼を食べる時間もなかったよ」

「お腹が空いたことでしょう」

「ああ腹ペコだよ何か夕食を作ってもらえるかな？」

「そのことでお話ししなければならないことがあります」

(笑)

「南スーダンには、あなたよりも必要に迫られている人々がいます」

(笑)

「行くことに致しましたので夕食はご自分で作ってください」

(笑)

こういった問題を解かなければなりません。そういう問題に取り組むのは楽しみです

楽観しているのには理由があります。１つには膨大なデータがあること。思い出してください。機械は人類が書いたあらゆるものを読むことになるでしょう。人間の書いたものはたいがい誰かが何かをし他の人がそれに腹を立てたというものです。学べるデータが膨大にあります。

またこれを正しくやるための強い経済的インセンティブが存在します。家に家事ロボットがいると想像してください。あなたはまた仕事で帰りが遅く、ロボットは子供達に食べさせなければなりません。子供達はお腹を空かせていますが冷蔵庫は空っぽです。そこでロボットは猫に目を止めます。

(笑)

ロボットは人間の価値観をちゃんと学んでいないため、猫の持つ感情的価値が猫の栄養的価値を上回ることを理解しません。

(笑)

するとどうなるでしょう？「狂ったロボット子猫を料理して夕食に出す」みたいな見出しを見ることになります。このような出来事１つで、家事ロボット産業はお終いです。だから超知的な機械に到達するずっと以前にこの問題を正すよう大きなインセンティブが働きます。

要約すると、私はAIの定義を変えて人間のためになると証明可能な機械が得られるよう試みています。その原則は、機械は利他的であり、人間の目的のみを達成しようとするが、その目的が何かは確信を持たず、そしてすべての人間を観察することで、我々の本当に望むことが何かを学ぶということです。その過程で人類がより良い者になる術を学ぶことを望みます。ありがとうございました。

(拍手)

(クリス・アンダーソン) すごく興味深いね。スチュワート次のスピーカーのための準備があるので少しここで話しましょう。

質問があるんですが「無知にプログラムする」というアイデアはとても強力であるように思えます。超知的になったロボットが文献を読んで、無知よりも知識がある方が良いと気付き、自分の目的を変えてプログラムを書き換えてしまう — そういうことにならないためにはどうすれば良いのでしょう？

(スチュワート・ラッセル) 私たちはロボットに人間の目的をよく学んでほしいと思っています。ロボットはより正しくなるほど確信を強めます。手がかりはそこにあるわけですから。それを正しく解釈するようデザインするのです。たとえば本の内容にはバイアスがあることを理解するでしょう。王や王女やエリートの白人男性がしたことばかり書かれているといった風に。だから複雑な問題ではありますが、ロボットが我々の目的を学べは学ぶほど、我々にとって有用なものになるでしょう。

(クリス) １つの原則にまとめられないんですか？固定したプログラムとして「人間がスイッチを切ろうとしたら無条件に従う」みたいな。

(スチュワート) それは駄目ですね。まずいアイデアです。自動運転車で５歳の子を幼稚園に送るところを考えてみてください。車に１人で乗っている５歳児が、車のスイッチを切れるようにしたいと思いますか？違うでしょう。ロボットはその人間がどれほど理性的で分別があるかを理解する必要があります。人間が理性的であるほどスイッチを切らせる見込みは高くなります。まったくランダムな相手や悪意ある人間に対してはなかなかスイッチを切らせようとはしないでしょう。

(クリス) スチュワート、あなたがみんなのためにこの問題を解決してくれることを切に望みます。ありがとうございました。素晴らしいお話でした。

(スチュワート) どうもありがとう

(拍手)

このプレゼンテーションについて

超知的な人工知能(AI)の力を享受しながら、機械に支配される破滅的な未来を避けるというのは、どうしたらできるのでしょう？全知の機械の到来が近づきつつある中、AIのパイオニアであるスチュワート・ラッセルが取り組んでいるのは少し違ったもの──確信のないロボットです。常識や利他性その他の深い人間的価値に基づいて問題解決をする「人間互換のAI」という彼のビジョンに耳を傾けましょう。

こちらもオススメ！