『CVPR2021』というコンピュータービジョンのイベントで、テスラのAIチームシニアディレクターであるAndrej Karpathy氏が登壇。テスラが進める完全自動運転への取り組みを解説しました。はたして、テスラはどこまで進んでいるのか。テスラオーナーで翻訳家の池田篤史氏が翻訳しつつ解説します。かなり専門的ながら、興味深い内容です。
※冒頭画像はCVPRウェブサイトより引用。
はじめに
2021年6月下旬に開催されたCVPR(Computer Vision and Pattern Recognition)に、昨年に続きテスラのAIチームシニアディレクター、アンドレイ・カーパシー氏が登壇し、カメラからの入力のみで自動運転機能を達成する取り組みについて解説しました。この記事ではそれに加え、テスラハッカーとして有名なGreentheonly氏にも取材をして、アンドレイ氏が表向き言えないようなことも解説していただきました。
【関連動画】
[CVPR’21 WAD] Keynote – Andrej Karpathy, Tesla
アンドレイ氏のプレゼンはまず、人間のドライバーよりも機械のほうが優れている時代になりつつあるという話から始まります。今はまだ人間のほうが運転が上手な場面が多いですが、人間が注意散漫になったり、ペダルを踏み間違えた際に(完全自動運転の)車が事故を未然に防いだケースも次第に増えています。
次に、アメリカでは現在、主にテスラの従業員で構成される2000人のベータテスターにより、FSD Betaと呼ばれる、完全自動運転により近い運転支援システムのテストが行われていることに触れます。このシステムは高速道路や単調な運転環境だけでなく、交差点での右左折や路上駐車の車両を避けて通るなど、より複雑で実践的な機能が含まれています。なお、「支援システム」のため、運転の責任は相変わらず人間にあり、常に注意を払う必要があります。
カメラオンリーという選択肢
Google系列のWaymoや、最近自動運転Lv 3を達成したホンダ・レジェンドなど、他メーカーの多くがLiDAR(レーザーを使った測距システム)を採用しています。物体との距離を極めて正確に測定できるため、一般的にLiDARがないと安全な自動運転は成立しない、と信じられていますが、これに関してテスラは2019年に「LiDARは可視光付近の波長を使ったセンサーのため、カメラで距離を推定できればLiDARは不要になる。やるならせめて、霧や雨を見通せるレーダー波長にしたほうがよい」と切り捨てています。
さらに、今年の4月27日以降に製造されたアメリカ向けのモデル3およびYはレーダーすら搭載されておらず、先述のFSD Betaもたとえレーダー搭載車であってもレーダーを利用していません。理由としては、レーダーなど他のセンサー類はカメラと比べて情報量が少なすぎること、そしてカメラだけだとセンサーフュージョンをしなくてよいためコンピューターの処理能力を全て画像処理に回せることを挙げています。
テスラは研究の末、単眼カメラで物体までの距離や加速度を高い精度で推定できるようになりました。これには膨大かつ多様なデータに、「これは車、これは縁石」と正確にラベリングがされたデータセットが必要なのですが、幸いテスラには世界中でオートパイロット機能を備えた車が100万台以上走行しており、合計で約80億km分のオートパイロット走行のデータにアクセスできるため、生データの量には困っていません。
参考までにWaymoの自動運転走行データは2009年から累計で2000万kmしかありません。その多くをエンジニアに給料を払って運転させて収集させている一方で、テスラは400倍のデータをオーナーから無料で収集できているため、これは巧妙な仕組みと言わざるを得ません。
集めたデータは本社にある、より処理能力の高いコンピューターで分析します。自動運転中なら車のコンピューターもリアルタイムで運転の判断を迫られますが、録画ファイルであれば時間をかけてゆっくり解析することができ、未来の結果も分かっているため、時間を遡行した推定も可能になります。
プレゼンでは前走車が砂煙や雪を巻き上げ、一時的に見えなくなる状況を例に取り、こうした状況では処理の重いニューラルネットや人間を使って、時間をかけて「見えなくても前走車は突然消えるのではなく、そこにいる」ということを学習させることが説明されました。
こうして得たデータをユーザーの車に配信し、自動運転には関与させずに裏で実行し(シャドーモード)、ドライバーとコンピューターで判断が異なった場合は、そのデータを吸い上げて改善に役立てるというループを繰り返します。
これによって完成したデータセットは、AIにとって判断が難しいシナリオが100万通り、距離や速度が正確にラベリングされたオブジェクトが60億個、データ量にして1.5ペタバイト(1500テラバイト)にのぼります。これを素早く処理するためにテスラでは、既存の自動車メーカーではありえないレベルのスーパーコンピューターを所有しています。
このスパコンはNvidiaの最新鋭GPU「A100」を5760個つなげた構成で、理論的には浮動小数点演算で世界5位の性能を持つとテスラは言っています。また、これよりもさらに高性能なスパコン「Dojo」も開発しています。Dojoの名前の由来は、映画マトリックスでモーフィアス(ローレンス・フィッシュバーン)がネオ(キアヌ・リーブス)にカンフーを教えた仮想空間の「道場」に由来しており、AIがAIを学習させるシステムだと言われています。
テスラはバッテリーからインバーター、モーターまでハードウェアを垂直統合で開発していることが取り沙汰されますが、このように、自動運転機能もセンサー環境から学習用データセット、自前のスパコンまで垂直統合されているため、他社には真似することのできないカメラでの測距技術を確立することができたのです。
テスラビジョンの成果
レーダーを排したカメラオンリーのシステムはTesla Visionと呼ばれていますが、以前のシステムと比較して主に3つの改善点があります。まず1つ目が急ブレーキをかける前走車への対応です。
少し見づらいですが、右のグラフの青い線がテスラビジョン、オレンジ線が従来のカメラ+レーダーです。前走車が急減速すると、オレンジ線がガクガクしていることが分かります。これは減速が急すぎて前走車があたかもレーダーから消え、また現れて、を繰り返しているように車には見えるため、自車の減速が不十分になります。一方で青い線は途切れることなく前走車との距離や速度、加速度を捉え続けているため、安定して減速することができます。
2つ目が、これまでテスラオーナーを悩ませてきた「ファントムブレーキ」を克服したことです。ファントムブレーキとはオートパイロットで走行中に、例えば高速道路で橋をくぐる際に車が障害物だと認識して一瞬急ブレーキを踏む現象を指します。
ファントムブレーキは、レーダーとカメラの両方を使っていることに起因します。これまではテスラに十分な学習用データセットがなかったためカメラでの距離や速度の推定が甘く、レーダーに頼っていました。しかしレーダーは縦方向の分解能力があまりないため、高架道路をくぐる手前で陸橋が頭上にあるのか、衝突コースにあるのか判断しづらいのです。そこにカメラがデタラメな距離情報を瞬間的に吐き出すと、コンピューターはレーダーとカメラの間違った情報を結びつけて、前方に何かあると勘違いします。
テスラビジョンではカメラの測距精度が高く、高架道路に衝突しないことも画像から明白なため、ファントムブレーキは発生しません。下図のグラフは先ほどと同じ色分けですが、青い線はグラフに急激な変化がなく、オレンジ線は幻影(ファントム)を誤認識していることが分かります。
3つ目は逆に本当に前方に障害物があるケースです。ここでは路肩にトラックが停まっているのですが、レーダーとは常に些細なことでも「前方に障害物が!」と警告を出してきます。そのため、自動運転コンピューターはカメラ信号の中に、本当にそれに対応する障害物がないかを探し続けます。この時、カメラが前方のトラックを認識するのに時間がかかると、下図のグラフのように、オレンジ線の山の立ち上がりが遅れます(=ブレーキが遅れます)。テスラビジョンでは180m手前から徐々に減速を開始し、145m手前ではっきりとトラックを認識して一貫したブレーキングを行います。
テスラビジョンをアップデートで配信してから2400万km分の走行データ(内、オートパイロット走行は270万km)を収集していますが、未だ事故は起きていません。
もちろん完璧なシステムなど存在しないため、いつかは事故を起こすでしょうけど、以前のシステムは約800万kmに1度事故を起こしており、それよりは安全であるとテスラでは信じています。こちらのページで四半期ごとのテスラ車の事故データが開示されるので定期的に確認したいと思います。なお、2021年Q1の時点で既に人間の約10倍安全という結果が出ています。
Greentheonly氏の見解
Greentheonly氏は正体不明のホワイトハットハッカーで、アメリカ在住のロシア人であること、モデルXを乗り継いでいることぐらいしか情報がありません。テスラ界隈では古くからツイッターに情報を投稿しており、その内容はファンでもアンチでもなく、中立な立場からのコメントです。今回独占インタビューにお答えいただきましたが、あくまで一個人の意見としてご理解ください。
EVsmart(以下、E):レーダーがなくて本当に大丈夫なのですか?
Greentheonly(以下、G):いや、実は人間が運転している時に重要な役割を果たします。視界が悪いときに警告を出してくれるでしょう。自動運転では視界が悪いと己の能力を過信することなく安全な速度まで減速するため、レーダーはそこまで重要ではありません。
E:テスラがもうすぐFSD Betaを一般にも公開するようですね。自動運転Lv5はもうすぐ実現すると思いますか?
G:テスラは「もうすぐだ」と期待を煽りつつ、恐らく社内ではまだまだ道程は長いと思っているのではないでしょうか。現在のAIは与えられたタスクを上手くこなすことができますが、背景情報を理解できる汎用的な知能がありません。例えばこの例を見てください。テスラ車は信号を判断する基準の一つとして、仰角と光源の大きさを利用しています。そのため、正面に満月がちょうどよい位置に出ていると、それを黄信号と認識します。
Hey @elonmusk you might want to have your team look into the moon tricking the autopilot system. The car thinks the moon is a yellow traffic light and wanted to keep slowing down. 🤦🏼 @Teslarati @teslaownersSV @TeslaJoy pic.twitter.com/6iPEsLAudD
— Jordan Nelson (@JordanTeslaTech) July 23, 2021
E:テスラがオフラインでデータセットをトレーニングしていますが、それでも難しいですか?上記の例では、しばらく走行しても一向に信号に近づかない、もしくはカーブを曲がったら真正面にいた月が別の位置に移ることから、時間を遡行して「月ではない」と学習できないですか?
G:効果はあるでしょうが完璧ではないです。「この標識/信号は私に対するものか」というのは難しい課題です。
E:では汎用的な知能はいつ実現しそうですか? 私が調べたところ、楽観的な人で6年、悲観的な人で15年先だと言っています。
G:私も5年以上先、恐らく10年~20年かかるのではと思っていますが、この世界では5年以上先のことを論じるのはあまり意味がありません。誰かが突然ひらめいて一気に物事が解決することだってあります。そして、グロい話ですが、モルモットなどの脳を利用した研究のほうが早く実を結ぶのではないかと思います。
E:リアルに「…スケテ…タスケテ」と聞こえてきそうな話ですね。少し話題を変えて、テスラのスパコンについてはどう思われましたか?
G:浮動小数点演算で世界5位は眉唾ですね。あの機材の能力を全部足し算したら5位と同等、ということだと思います。実際にはひとつのクラスタとして全てが上手くつながっているかが重要で、Top 500に正式に認めてもらう必要があります。つなぎ方次第で機材を活かすも殺すも決まってくる。
E:なるほど、では日本時間の8月20日に開かれるTesla AI dayでは、Dojoの各部がうまく統合されていて、本当に世界トップクラスの性能を発揮するのか、そして「汎用的な知能」にどのように到達するつもりなのか、そのあたりが見どころということですね? 貴重なご意見ありがとうございました。
おわりに
「テスラでは安全を何よりも優先している」と常々言っているイーロン・マスクですが、レーダーを廃止することで発生するリスクを上回るほど今回のカメラオンリーという選択肢に自信を持っているということなのでしょう。もちろん、まだ完成の域には達していないでしょうけど、果たしてこれが正しいアプローチなのか、今後も推移を見守っていきたいと思います。
(文/池田 篤史)





