TED動画厳選 Joseph Redmon /「コンピューターはいかに物体を即座に認識できるようになったのか()」

コンピューターはいかに物体を即座に認識できるようになったのか（7:37）

ジョセフ・レドモン（ Joseph Redmon）

このページをシェアする：

対訳テキスト
講演内容の日本語対訳テキストです。

※映像と合わせてご覧になる方へ
自動スクロールはしませんので、映像に合わせてスクロールさせてご覧下さい。

10年前コンピュータービジョンの研究者はコンピューターで犬と猫を見分けるのはほとんど無理だと考えていました人工知能の大きな発展にもかかわらずです現在では99%以上の精度で見分けられるようになっていますこれは「画像分類」と呼ばれる問題でコンピューターに画像のラベル付けをさせるものですコンピューターは何千種もの物を識別できるようになっています。

私はワシントン大学の大学院生で Darknetというプロジェクトに取り組んでいますコンピュータービジョンのモデルをトレーニングしテストするためのニューラルネット・フレームワークです Darknetがあの犬の画像を何だと思うか見てみましょうあの画像を私たちの画像分類プログラムにかけると犬か猫かだけでなく具体的な犬種まで言い当てますそこまで細かいことが分かるようになっていますそして正しい答えを出しています。私の犬は確かにマラミュート犬です [マラミュート犬 37% ハスキー犬 15% エスキモー犬 12%]。

画像分類は驚くほど進歩しましたがこういう複数の物が写った写真を画像分類にかけたらどうなるのでしょう？結果は— 前とほぼ同じになっています [マラミュート犬 7% エスキモー犬 6% ハスキー犬 6%] それは正しくて画像の中には確かにマラミュート犬がいますがそのラベルだけではこの画像の中でどんなことが起きているのかあまりわかりませんもっと強力なものがほしいところです私は「物体検出」と呼ばれる問題に取り組んでいてそれは画像を見てその中にある物体をすべて検出しそれぞれの物を箱で囲ってそれが何か識別するという問題ですこの画像を物体検出プログラムにかけるとどうなるか見てみましょう。

得られる結果はこういうもので色んなことができます猫と犬がいることがわかり相対的な位置や大きさもわかりますおまけの情報もあります向こうに本があるとかコンピュータービジョンを使ったシステム自動運転車やロボットを作ろうとするならこれはまさに欲しい情報でしょう周りの世界と作用し合えるようにしてくれるものが欲しいのです私が物体検出に取り組み始めた頃は１つの画像の処理に 20秒かかっていましたこの領域でなぜスピードが重要なのか分かってもらうため物体検出で画像の処理に２秒かかるとどんな具合か見ていただきましょうこれは画像１つにつき20秒かかる画像検出プログラムより 10倍速いわけですがプログラムが答えを出したときには状況は既に変わっているためあまりアプリケーションの役には立ちません。

さらに10倍高速化してみましょう毎秒 5フレーム処理していますだいぶマシにはなりましたが何か大きな動きがあるとズレが出ますこのようなシステムに自分の車を運転して欲しくはありません。

これは私たちの物体検出システムでノートPC上でリアルタイムで動いています私が動き回ってもスムーズに追尾します様々な種類の変化にも対応できます大きさとかポーズとか前向き後ろ向きとてもいいですこれこそコンピュータービジョンを使ったシステムを作ろうというときに欲しいものです。

(拍手)。

ほんの数年で１画像あたり20秒から 20ミリ秒へと 1000倍高速化しましたどうやって実現したのか？以前の物体検出システムはこのような画像を受け取ると沢山の領域に分割しそれぞれの領域を分類プログラムにかけ高いスコアが出たところに物体が検出されたと見なしていましたこの方法だと１つの画像に対し分類プログラムを何千回も走らせニューラルネットによる評価が何千回も必要になりますそうする代わりに１つのニューラルネットですべての検出を行うようトレーニングしました境界の箱や分類の確からしさの確率をすべて同時に生成するのです我々のシステムでは物体検出を行うために画像を何千回も見る代わりにたった一度しか見ないのですそれがYOLO (You Only Look Once)の名の所以ですこれだけ速いと画像だけでなく映像もリアルタイムで処理できます猫と犬を検出するだけでなくそれぞれが動き回り相手に反応しているのが分かります。

この検出プログラムは MicrosoftのCOCOデータセットにある 80種の物に対してトレーニングしてありますスプーンやフォークといった日常的な物もあればもっと変わった物もあります動物車シマウマキリンちょっと面白いことをやりましょう客席からどんなものが検出できるか試してみますぬいぐるみの動物が欲しい人？そこかしこにテディベアがあります検出器の閾値を少し下げて客席の皆さんを検出できるようにしましょう「一時停止」の標識を検出できるでしょうかバックパックがいくつかありますねもう少しズームしましょう素晴らしいですすべての処理がノートPC上でリアルタイムで実行されています。

重要なのはこれが汎用物体検出システムだということでどのような領域の画像に対してもトレーニングできます自動運転車が一時停止の標識や歩行者や自転車を検知するのに使うのと同じプログラムを組織生検でガンを見つけるためにも使えるのですすでに世界中の研究者達がこの技術を使って医学やロボット工学を前進させています今朝新聞で読んだんですがナイロビ国立公園では YOLOを検出システムとして使って動物の個体数調査をしているそうですそれというのもDarknetはオープンソースでパブリックドメインなため誰でも無料で使えるからです。

(拍手)。

私たちは物体検出技術をさらに近づきやすく使いやすいものにしたいと思いモデルの最適化やネットワーク・バイナリぜーション近似を組み合わせることでスマートフォン上で動かせるようにしました。

(拍手)。

私はすごくワクワクしていますいまやこの基本的なコンピュータービジョンの問題に対してとても強力な解があり誰でもそれを使って何か作り出すことができるんですあとは皆さんやこのソフトウェアを使える世界中の人々にかかっていますこの技術を使ってみんながどんなものを作ってくれるか楽しみです。

ありがとうございました

(拍手)

このプレゼンテーションについて

10年前には研究者達はコンピューターで猫と犬を見分けるのはほとんど無理だと思っていました。今日では、コンピュータービジョンシステムにより99%以上の精度で行えるようになっています。どうやってでしょうか？ジョセフ・レドモンはオープンソースの物体検出システム YOLO (You Only Look Once) に取り組んでいて、シマウマから一時停止の標識まで、映像や画像の中の物体を瞬時に識別できるようにしています。この目を見張るようなデモで、レドモンは自動運転車やロボットやガンの検出といった応用に向けた重要なステップを披露しています。

こちらもオススメ！