【行業動態】科技發展帶來了巨大的變化,但汽車行業卻沒發生太本質

【行業動態】科技發展帶來了巨大的變化,但汽車行業卻沒發生太本質

經過了多年來科技的發展,今天我們的機器幾乎可以感知世界上所有空間,在這其中包括了對馬裡亞納海溝的「探底」以及對人們胃腸道中幽門螺旋桿菌的「窺視」。

科技發展帶來了消費電子、生物醫學、土木工程和航空航天等等行業的劇變。但縱觀汽車行業,卻好像跟 100 年前還沒發生太本質的變化。

隨著影象識別、AI 神經網路、軟體演算法、光學、半導體以及通訊技術的高速發展,

我們欣喜地發現它們最終都指向了交通出行最美好的終局「Autonomous Driving」,也就是自動駕駛

在通向這麼個美好終局的道路上,還是有著重重阻礙,那麼阻礙到底是什麼,方法又有哪些?

這篇文章希望純粹地從技術角度來完成一次對終局的探索。

現在開始,全文大概 5,000 字,如果可以,請堅持到最後。

01

機器的視覺

人之所以看世界是五彩斑斕的,

是因為人看到的全是來自外界物體的反射光

【行業動態】科技發展帶來了巨大的變化,但汽車行業卻沒發生太本質

白天的時候,我們眼睛接收到的其實是物體對於太陽光反射後,透過眼球,彙集在晶狀體上,對映在視網膜上的「畫素點」,然後再經過大腦「神經元細胞」提取出顏色分佈、紋理特徵、輪廓以及細節資訊。

最後大腦將分析出的影象資訊與固有的抽象概念進行比對,從而做出判斷以及選擇。

這也是我們偶爾會認錯人的原因,這是因為我們看到的這個人的長相與腦子中的抽象概念很相像。

在一點上,機器「模仿」了人類。攝像頭採集道路影象資訊,交由晶片運算處理,也就是說機器的「眼睛」以及「大腦」都有了,缺的就是「深度思考」能力了。

因此人們賦予了機器「卷積神經網路」,也稱 CNN,原理跟人類思考模式相似。

但不同的是機器並沒有「視網膜」,因此「產生視覺」的方式跟人類有所差異。

機器採用的方法是把圖片變成「數字矩陣」,也就是把一張張圖片從最底層的 RGB 開始識別,輸出機器能夠理解的數字 0 與 1。

在這之中不同的影象對應著不同的數字矩陣,也就是說影象識別的本質是基於數值矩陣的分類問題

然後會用到的是「卷積」,也就是類似人類神經元的功能,在同一物體的不同表現形式之間建立多層結構,找出相同的特徵,以此來判斷。

在這其中會用到一個設定好提取邏輯的「卷積核」。

我們可以簡單把圖片理解成 10 X 10 的大方格,那麼卷積核就是 2 X 2 的小方格,把小方格放入大方格中,那麼這個小方格就獲取了新的圖,也就是「特徵圖」。

【行業動態】科技發展帶來了巨大的變化,但汽車行業卻沒發生太本質

為了方便大家理解,舉個不恰當的例子。大家可以看下現在有三臺車,

卷積核設定的提取邏輯是具有「車燈」特徵的數字矩陣

那麼卷積核就會掃描提取有這個特徵的影象區域

【行業動態】科技發展帶來了巨大的變化,但汽車行業卻沒發生太本質

比如透過影象識別得出有 6 個車燈,加入邏輯演算法告訴機器 2 個車燈等於 1 臺車,那麼機器就會輸出圖片上有 3 臺車。

那麼需要說的是,單張圖片可以設定多個「卷積核」,一般卷積會從影象的長、寬、深三個維度來提取影象特徵,因此得到的圖片通常是三維的。

然後把提取到的特徵圖再「池化」和「啟用」。所謂「池化」是夾在連續卷積層之間的,也就是把特徵圖中有用的資訊放大,不必要的資訊縮小,然後把輸出資料加起來。

這麼做的目的是為了壓縮資料和引數的量,在保留原影象特徵的同時還減少了機器的計算量

如果再拿上面的圖來舉例,這個時候就是要把「寶馬車燈」這個特徵凸顯出來,把與寶馬車燈無關的背景資訊去掉。

而「啟用」,

則是在影象池化後透過「啟用函式」圖片特徵用 0-1 之間的數值來更加清晰地展現,越接近 1 則代表特徵越明顯

然後再把圖片多次卷積、池化、啟用後,加入我們設定的演算法邏輯,就又可以讓機器透過「寶馬車燈」的數字特徵,在圖中識別出哪臺車是寶馬了。

綜上所述,

卷積神經網路主要是抓取影象特徵,再透過不斷地資料訓練以及強化然後形成對物體的識別以及判斷

這裡補充說一下 800 萬畫素高畫質攝像頭的作用,其實跟人眼的原理類似,但有一定的區別。

因為在影象識別是透過提取數字來判斷特徵,

這裡面有個「感知閾值」

。簡單來說高畫素攝像頭相比低畫素攝像頭,在捕捉遠處物體輸出的影象資訊時,畫素點更密,特徵更加明顯,這有助於更早識別到遠處的物體。

翻譯成人話就是,

假設識別一頭牛的感知閾值是需要 100 個畫素點組成的特徵,那麼 120 萬畫素的可能需要 200 米的距離才能採集到足夠的畫素點。而 800 萬畫素在 400 米外就可以採集完成

因此高畫素攝像頭在演算法以及訓練程度相同的情況下,測距肯定會更遠,

當然在這個過程中是需要高算力來支援的,因為要從更多的畫素點中提取所需的特徵

而在輔助駕駛過程中,一旦攝像頭已經識別到遠處的障礙物,這個時候需要做的是保持「追蹤」,而不是再一次去識別。「追蹤」的過程其實又並不會消耗太多的算力,多出來的算力可以去檢測其他遠處障礙物。

因此這也是高畫素攝像頭的必要性,不僅是前方攝像頭,後方攝像頭也同樣重要。

例如在不限速的高速公路上變個道,如果能夠更遠地識別到後車,就可以更加充分地保證安全性

但可惜的是目前再強大的神經網路也不如人腦效率高,800 萬畫素也不如人眼 3。24 億畫素高。

況且「硬體配置」更高的人類也會像上文提到的一樣偶爾「認錯人」,而且即便是在全神貫注地駕駛,也會發生一些意外交通事故

因此自動駕駛的多感測器融合方案,看起來走的更對。

02

這不是簡單的疊加

那麼除了攝像頭,現在行業內比較主流採用的是傳統毫米波雷達來滿足測距功能,毫米波雷達具備體積小、質量輕、成本低、穿透能力強、傳輸效率高且穩定等優點,但其實缺點也是有的,例如缺失了高度資訊。

當然最近比較火的解決方案是 4D 毫米波雷達。據傲酷亞太區總裁郄建軍介紹,

他們的 4D 毫米波雷達透過運用軟體演算法在原來的物理天線基礎上可以虛擬出 5-10 倍的天線

這樣可以達到 120 根天線的效果,在同為單晶片且 FOV 120 度時,角解析度可以達到 1 度,實現高達 350 米的探測距離。

看起來似乎解決了識別高處障礙物的問題,

但我認為其實對於車企來說,還是沒有從根上解決問題

因為毫米波另一特點就是對金屬物體敏感,這有好有壞。好處就是對於前後方車輛的檢測非常穩定且準確。

但缺點也是同樣的,在正常的道路環境中,含有金屬元素的物體除了車輛以外,還有電線杆、窨井蓋、路邊的防護欄等等。

這意味著毫米波反饋回來的資料對於車企來說,雖然可移動的金屬物體反射回來電磁波的資訊是可靠可信的

但靜止物體反射回來的電磁波其實他們很難給到一個較大的輔助駕駛決策權重

因為毫米波並不知道那到底是什麼。為了避免頻繁出現急剎的情況,原則是需要過濾掉這部分資料的。

可是又因為馬路上經常會出現一些真的有靜止障礙物的場景,導致車企又不敢 100% 過濾掉這部分資料。

因此對於車企來說,即便上了 4D 毫米波雷達,由於毫米波的特性,我認為汽車廠商在實際過程中依然是個「來回調整」的糾結問題。

再來說鐳射雷達。隨著成本大幅降低,鐳射雷達開始逐漸變成車企的「寵兒」。

鐳射雷達可以解決的問題是,脈衝帶來的點雲資訊不僅可以彌補攝像頭的長尾效應,還有就是脈衝測量與物體的絕對距離,對於晶片來說,運算量較低,可以說是「即插即用」。

因此對於車企來說,他們是願意在輔助駕駛中,給到有能力 3D 建模的鐳射雷達較大的決策比重。

【行業動態】科技發展帶來了巨大的變化,但汽車行業卻沒發生太本質

這是因為攝像頭看不懂它沒見過的,毫米波太敏感導致可用資訊不確定,這兩個感測器的特性註定了在極端場景下,鐳射雷達的資料相對更加可信。

舉個並不恰當的比喻。假設前方斑馬線上有一隻斑馬,由於兩者之間畫素點有比較大的重合,而且攝像頭也並沒有大量地訓練過斑馬的影象,沒識別出斑馬。

而此時毫米波對靜止物體的回波又被演算法過濾了,那麼碰撞就是大機率的事情。

鐳射雷達在這種場景下,雖然現階段可能也並不能非常清楚地知道障礙物到底是什麼,但可以檢測到前方斑馬線上有障礙物。

因此車輛還是可以做出相應的減速或剎停決策,避免事故的發生。

而且鐳射雷達是可以對物體進行分類識別的,因為發射與反射回來的脈衝訊號是有區別的

因此在點雲演算法中加入卷積神經網路,鐳射雷達也可以實現對物體特徵的判斷以及識別的,現階段能做到的是針對一些具備高反光的物體,例如雪糕筒、反光錐之類的,會比較容易。

另外,脈衝帶來的絕對距離資訊,也解決了現階段對於攝像頭來說挑戰比較大的景深問題。這裡多說幾句,特斯拉 AI 高階總監 Andrej Karpathy 提到過特斯拉是採用的是「Bird‘s Eye View」的方式。

簡單來說就是利用車身 5 個方向的攝像頭採集 2D 畫面測算出畫素景深,由於 5 個攝像頭位置採集到的畫面有一定的時延,這時候再去做「時空同步」,模擬出一個 3D 環境,再計算與障礙物的相對距離,得到類似鐳射雷達的點雲資訊

從原理上看,這一套方式是可以行得通的,雖然做好不同車速狀態下的各攝像頭資訊的「時空同步」以及對多個攝像頭 2D 畫面做 3D 建模,對算力以及演算法都有了更高的要求。

【行業動態】科技發展帶來了巨大的變化,但汽車行業卻沒發生太本質

但我認為對於特斯拉來說,這只是他們「攀登珠穆朗瑪峰」的一個過程而已。

那是不是特斯拉一定不會用鐳射雷達,我認為未必。雖然從很長期來看,我認為視覺方案也有機會可以做成 L4,原因主要有兩點。

一是攝像頭受到極端天氣的影響,這個很難從技術上解決。例如濃霧天氣,以特斯拉如此「陽剛」的企業風格,他們肯定不希望在這種天氣下透過限制使用 ODD 場景來規避。

二是別忘了,

我們現在 L2 輔助駕駛與 L4 自動駕駛最大的區別在於法律責任從人類轉移到汽車廠商

據業內人士透露,哪怕就目前的技術水平 905 nm 鐳射雷達如果大批次採購的話,成本降到 300-500 美元也不是夢想。

這裡要思考的是如果要在短期內實現 L4 自動駕駛,300-500 美元的成本與法律責任轉到廠商後的風險成本,兩者之間誰更低的問題,畢竟「降本」才是特斯拉的核心思想。

當然我認為隨著視覺方案進一步發展,會弱化當前鐳射雷達的地位,但很難取代。

這裡我比較贊成的是小鵬自動駕駛產品總監黃鑫說的,「鐳射雷達,從長期來看被高估,從短期來看被低估。個人看法,也許是錯的。」

最後我想說的是,如果大家都只是 L2,法律責任還在於人類,特斯拉何必要上鐳射雷達。

但現階段從安全冗餘的角度來說,我認為視覺方案需要付出成本是要比多感測器融合要高的

03

選擇題

多感測器融合,簡單來說就是車輛採集多方面的資訊後進行決策以及判斷。

但是因為多個感測器在採集資訊的時間頻率、空間以及速度資訊上是有誤差的

,所以這裡的融合演算法就顯得比較重要了。

先說時間誤差,這是因為感測器的「取樣速率」不同導致的。鐳射雷達每秒出點數可達幾十萬甚至幾百萬個,而車用攝像頭一般每秒是 30 幀畫面左右,彼此之間存在著比較大的時間隔閡。

就比如,上個 0。01 秒回傳的 50 萬個鐳射脈衝到底應該與哪一幀畫面去對應起來呢?

再說空間資訊,由於攝像頭、毫米波以及鐳射雷達擺放位置不同,感知區域也並不同。我們要形成一個機器能夠理解的感知世界,就需要將攝像頭採集到的目標物體要與毫米波採集到的資訊在同一座標體系中做融合。

就比如,上個 0。01 秒回傳的 50 萬個鐳射脈衝到底應該與畫面的哪個畫素區域去對應起來呢?

關於速度,由於毫米波直接根據多普勒效應是可以直接給出距離以及速度資訊的,而攝像頭也可以根據追蹤到的特徵畫素區域變化幅度以及「卡爾瑪濾波」獲得距離以及速度資訊,但彼此之間也存在著誤差。

很明顯毫米波由於是電磁波測速會更及時,而攝像頭在拍攝時速為 120 公里的車輛時,假設是每秒 30 幀,每一幀的畫面之間車輛實際上已經是移動了 1 米空間距離的。

因此為了解決上述問題,首先我們要採用「融合演算法」去做時空同步的事。

但是做成「時空同步」後,新的問題又來了。除了上述攝像頭以及毫米波的例子,其實每個感測器採集的資訊都存在一定的誤差,到底該信誰的呢?

那麼我們現在的做法是「後融合」也就是,讓攝像頭、毫米波以及鐳射雷達等感測器先進行資訊採集,然後各自生成資訊列表。

這個時候再依據感測器不同的特性在不同的場景去分「權重」,然後再採用「卡爾曼濾波器」等方法來計算得出不同感知資訊之間相對準確的預估值

提了兩次「卡爾瑪濾波法」,稍微解釋一下這個原理。大概的意思就是會依據各感測器採集到的資訊,依據比例權重去做一個「預估」。

舉個不恰當的比喻,假設同一臺車,透過攝像頭景深測算得知與前方障礙物有 30 米距離,然而毫米波傳輸回來的資訊顯示與前方障礙物實際只有 26 米。

這時候套用「卡爾瑪濾波法」。因為在測距方面,雖然毫米波對金屬敏感,導致資訊不可全信,但相比攝像頭還是更加準確的,這時候這套「濾波」會給予毫米波雷達更多的權重,把攝像頭的資訊作為參考,套用公式得出預估與前方障礙物的距離為 27。32 米。

其實「卡爾瑪濾波法」有一個具體公式,但實在比較複雜,複雜到我懷疑可能有很大一部分算力都消耗在這個上面了。

在這個過程中,本意是為了更好地將感知資訊「確定化」,

但會不可避免的出現回傳的真實感知資訊被卡爾瑪濾波法「過濾」了

,也就是現在階段輔助駕駛很多決策資料,本質上是由機器是「預估」出來的。

但行業其實幾年前就已經有了感測器「前融合」的方法。只不過從技術門檻上來說是比後融合要更加高,

就光是「要掌握所有感測器的原始資料」這一項,就讓很多車企「望而卻步」了

因為在「前融合」中,需要做的是讓其他感測器也跟攝像頭一樣學會「深度學習」的能力,而且大家都採用同一套「演算法」去做判斷。

簡單來說就是我們人類無論是用視覺看到一臺車,還是鼻子嗅到尾氣味道,還是耳朵聽到了車輛的排氣聲,在我們大腦子都會輸出同一個資訊「有車經過」,而不是要三者資訊再融合一遍,在做去判斷和選擇。

需要說明的是,前融合做的也是把「低水平」特徵融合,並不是全部。

重點是在於把攝像頭、毫米波、鐳射雷達等感測器的原始資料用同一套演算法都融合在一起後,那麼對於承擔處理資訊的晶片處理器就好像變成了「天眼」一般的存在

由於「天眼」的存在,這時候機器對於外界的感知資訊已經非常清楚了,那麼在這個基礎上再去做進一步的感知以及控制演算法。

如此一來,就能透過提升感測器輸出資訊的一致性、減少運算次數,從而達到提升感知系統效率以及準確性的目的。

這樣,機器也能獲得更多的冗餘算力,就算跟人類一樣開車偶爾開個「小差」,但並不影響最終的安全性。

寫在最後

如果你看到這裡了,其實文章也已經略微超出 5000 字,但我想說的其實並沒有說完,在自動駕駛方面,還有關於晶片、控制冗餘以及還是「期貨」的相控鐳射雷達等等,其實還可以聊很多。

進入 2021 年以來,最大的感觸是被電動車行業不斷推著向前狂奔,沒有一刻停止過。每一天認知都在被行業所重新整理,很多事情的發生也比預期的早了很多。

如果你和我們一樣關注自動駕駛發展程序,跟我們一樣熱愛科技進步帶來的生活方式改變,歡迎加入我們社群跟我們一起「暢聊」對於未來的想象。

最後我想說的是,在英國醫生弗萊明發明青黴素之前,人類還飽受細菌性感染疾病的困擾。在卡爾本茨發明汽車之前,人類也沒能體驗到出行的便利性。

萬幸,我們這一代人有機會見證又一次歷史的變遷。

撰文:賣白菜的黃老闆

編輯:大吉這些也值得讀

【行業動態】科技發展帶來了巨大的變化,但汽車行業卻沒發生太本質

【行業動態】科技發展帶來了巨大的變化,但汽車行業卻沒發生太本質