2023.07.25 2023.09.23

TED要約:コンピュータが瞬時に物体を認識する方法を学ぶ

marugotoyoten

ジョセフレドモンが「コンピュータが瞬時に物体を認識する方法を学ぶ | ジョセフ・レドモン」について語りました。この動画の要点と要約をまとめました

スピーカー

ジョセフレドモン

専門分野:None
経歴:None

３つの要点

要点１
画像分類は99％以上の精度で行われている
要点２
物体検出では画像内のすべての物体を見つけることができる
要点３
YOLOはリアルタイムでビデオを処理し、物体の動きや相互作用を捉えることができる

要約

画像分類の進化と課題の紹介
私はワシントン大学の大学院生、ジョセフ・レドモンです。私はDarknetというコンピュータビジョンモデルのトレーニングとテストのためのフレームワークに取り組んでいます。10年ほど前までは、コンピュータが猫と犬の違いを見分けることはほとんど不可能でしたが、今では人工知能の進歩により、画像分類（画像にラベルを付けること）は99％以上の精度で行われています。しかし、より複雑な画像を理解するためには、このレベルの分類だけでは十分ではないことにすぐに気付きました。

実用的なアプリケーションのためのコンピュータビジョンの向上：物体検出
視覚情報をより正確に解釈するためには、より強力なツールが必要です。それが私たちが物体検出に取り組む理由です。画像分類が画像にラベルを付けるだけであるのに対し、物体検出では画像内のすべての物体を見つけ、それらに境界ボックスを付け、物体にラベルを付けることができます。このアプローチにより、自動運転車や物理的な世界と対話するロボットシステムなどのシステムを設計する際に、物体の相対的な位置やサイズなど、より多くの情報を画像から抽出することができます。

YOLOからリアルタイム物体検出への進化
物体検出に取り組み始めた当初、1枚の画像の処理には20秒かかりましたが、これは実用には遅すぎました。この技術を有用にするためには、処理速度を大幅に向上させる必要がありました。私たちは、1つのネットワークをトレーニングして、境界ボックスとクラスの確率を同時に生成することで、1枚の画像あたり20ミリ秒まで処理速度を向上させました。これは、リアルタイムでビデオを処理し、物体の動きや相互作用を捉えることができる「YouOnlyLookOnce」またはYOLOと呼ばれる手法です。

物体検出の意義と将来：さまざまな産業への影響
このシステムの魅力は、速度だけでなく、汎用的な物体検出システムであることです。日常の物体検出に使用されるコードと同じものを、組織の生検でがん細胞を検出するために使用することもできます。世界中の研究者がこのオープンソース技術を医学やロボット工学などさまざまな分野で活用しています。さらに、私たちはこのシステムをスマートフォンで動作するよう最適化し、物体検出をさらに利用しやすくしました。今や、誰でもこの技術を取り入れて何かを構築することができます。私は世界中の人々がこの技術を活用して何を築くのかを楽しみにしています。

▼今回の動画