車載音訊讓智慧汽車更聰明
在先進駕駛輔助系統(ADAS)中,結合視覺處理器的CMOS影像感測器已在協助汽車辨識與分類方面發揮關鍵作用。至於其「聽覺」呢?
麥克風也能扮演像攝影機般重要的角色,為自動駕駛車增添更多「智慧」功能嗎?
DSP Concepts執行長與創辦人Paul Beckmann表示,在汽車和駕駛人發現救護車接近以前,就已經聽到它的警報聲響起了。那麼為什麼汽車產業不會對音訊感興趣?
系統OEM廠商(不只是汽車製造商)目前正處於「使用更多麥克風以便為人工智慧(AI)產生另一種重要感測器資料——音訊」的關鍵時刻,Beckmann解釋。
正如他所預設的,音訊正「從單純的在娛樂系統中播放,朝向在情境架構中實現輸入、觸發與分析。」
由麥克風所拾取的智慧,也可能用於日常生活的各種系統中,從汽車、數位虛擬助理到可攜式裝置等。「視覺與聽覺應該並駕齊驅,」DSP Concepts業務與行銷執行總裁Willard Tu表示。「狗吠聲、嬰兒哭鬧、玻璃碎裂、汽車喇叭、警報聲與槍聲等等……音訊有助於讓系統更有效地掌握環境[和情境]。」
*圖1:音訊「輸入」演算法發展藍圖
(來源:DSP Concepts)*
如今,有兩個重要的發展趨勢推動電子產業突然在音訊領域迅速發展。
一是擁有多顆麥克風的智慧型手機普及;其次則是數位虛擬助理的流行,如Amazon Echo與Google Home。根據SAR Insight & Consulting總監與首席分析師Peter Cooney的觀察,「一般消費裝置中整合虛擬數位助理的應用越來越多,帶動感知與採用語音作為自然的使用者介面,應用於許多日常任務中。」
但是,麥克風能多快超越作為一種自然使用者介面的角色,開始變成真正的‘智慧感測器’?看來業界還得等待一些進展。
為了迎接挑戰,音訊需要可以拾取更佳音質的麥克風、善於後處於音訊的處理器、預處理音訊的有效演算法、易於使用的音訊處理工具、相當於繪圖用Open GL的音訊標準,以及能以最小功耗維持永不斷線的麥克風。
總之,如同Cooney所指出的,市場需要「始終保持監聽的技術、語音增強演算法以及麥克風。」
在ARM處理器上實現音訊處理
音訊處理以往是播放系統(如TV、DVD和Hi-Fi音響系統中的等化器)才需要的專業領域。
而今在智慧型手機和其他家用裝置的麥克風普及帶動下,音訊處理任務已經擴展到幾乎無處不在。專用音訊DSP也並不是系統中處理音訊的唯一晶片了。
隨著越來越多的音訊開始在ARM處理器上執行,Beckmann指出,更多的OEM「熱切地將麥克風視為」AI的輸入感測器。DSP Concepts正處於觀察這一市場過渡的最佳位置。
Beckmann看好市場成長的態勢,特別是因為該公司一款稱為Audio Weaver在過去一年來的成果。如同Beckmann描述的,這是「唯一一款可跨平台作業的繪圖音訊設計架構。」
業界分析家認為,DSP Concepts正佔據音訊市場上的獨特位置。TECHnalysis Research總裁兼首席分析師Bob O'Donnell認為:「我並未看到DSP Concepts或其Audio Weave工具面對哪幾家競爭對手。許多公司都針對音樂與錄音等目的進行專業的音訊剪輯與音訊處理,但這畢竟是不同的領域。」
庫尼表示同意。「我不知道任何競爭產品音頻織女的。」他補充說,「DSP概念有其他的產品也是如此,如聲音增強算法(噪音抑制,迴聲取消,波束賦形),基準和參考設計。」
Cooney也同意這一看法。「我還不知道Audio Weaver有任何競對手。」他補充說,「DSP Concepts也有其他的產品,例如聲音增強演算法(雜訊抑制、回音消除、波木成形等)、基準與參考設計。」
*圖2:全球麥克風與音訊處理器市場
(來源:SAR Insights & Consulting)*
DSP Concepts並未設計或銷售DSP。然而,競爭對手一般都是其他的DSP業者。Audio Weaver的競爭產品來自德州儀器(TI)或Cirrus Logic等DSP供應商自行打造的音訊工具。其差異之處在於那些內部開發的工具僅用於DSP供應商自家的晶片。而採用像Audio Weaver這樣的獨立平台工具,Tu強調,「OEM不必被限制於一種特定的DSP。」
Cooney說,DSP Concepts藉由與Cadence/Tensilica等許多公司合作,主要的業務在於為其客戶提供音訊設計解決方案。
除了Audio Weaver工具,DSP Concepts也授權一些可形成麥克風輸入的音訊演算法,包括波束成形、回聲消除、雜訊消除與遠音場(far-field sound)等演算法。Beckmann指出,在此業界缺乏深諳音訊處理的工程人才之際,市場亟需易於使用的音訊預處理演算法,以便能從不需要的環境雜訊中區隔出聲音來。
音訊:長期受冷落的領域
然而,目前使用音訊進行聲學事件檢測(和分析)仍然是一種相對較新的應用。
O’Donnell指出,「理論上,可能會有更多專用音訊處理器在做AI,但坦白說,音訊就像是長期受到視訊的冷落一樣,而且時至今日也是如此。」
他補充說,聲音的另一項重大挑戰是「語言與意義」。他說,「一張樹的圖片以任何語言來說是樹,但要瞭解字、詞以及最重要的意義與意圖,就具有語言與文化的獨特性了。這使得語音辨識與自然語言的處理變得十分困難。」
Beckmann坦承,音訊缺乏標準,也造成了差距。
以OpenGL來看,它是一種針對圖形渲染的跨語言、跨平台API。對於想要編寫程式碼的視訊遊戲設計人員來說,這種API十分重要。像Nvidia等GPU供應商在使用這種API後就能最佳化其硬體。
音訊世界則可以使用硬體抽象層來實現跨平台的硬體加速渲染,類似於OpenGL所扮演的角色一樣。如果缺乏標準,每一家音訊晶片公司都必須最佳化自家硬體以及自給自足。缺乏標準延緩了擴展跨平台的音訊應用所需的創新腳步。
實現永不斷電的續航力
Amazon Echo或Google Home等流行的數位虛擬助理下一步要實現的就是「長時傾聽」(always-listening)的能力。Amazon正透過其‘tap-then-speak’的語音啟動機制加速這方面的進展。但該裝置還不能稱得上是‘always listening’。
*圖3:全球語音介面與長時傾聽技術市場
(來源:SAR Insights & Consulting)*
具有永不斷線/長時傾聽能力的裝置一旦走出家門,將開始面臨各種挑戰。到了戶外,它的音訊處理能力必須從背景雜訊中區隔出需要聽到的聲音。此外,Beckmann強調,更大的問題還在於電池壽命。
為此,他指出,「位於波士頓的新創公司Vesper開發的靜態感測MEMS元件就十分關鍵。」Vesper專門開發壓電MEMS麥克風,不久前還發佈了一款新的聲學感測器,可利用聲能喚醒完全待機中的系統。
Vesper執行長Matt Crowley表示,這款新的壓電MEMS麥克風VM1010可在傾聽模式下汲取僅3μA電流,該元件預計在今年第四季出樣。Crowley並承諾,VM1010的新版本將會配備「鑑頻」(frequency discrimination)功能。這表示系統設計者可因應槍聲、玻璃粉碎或人聲等特定的雜訊特性編程MEMS麥克風。
汽車內部
回過頭來看看汽車內部的音訊應用。語音為汽車內部提供了自然的人機介面(HMI)。
為了提高駕駛人使用免持聽筒的語音品質,一線業者與汽車OEM嚴重地依賴音訊處理技術。Beckmann說,「配備多聲道(從8-32聲道)揚聲器的汽車,帶來了十分複雜的音訊系統。」
不僅如此,隨著電動車的出現,汽車產業開始使用假引擎噪音——或「電子聲音」。從BMW到福斯(Volkswagen)等越來越多的汽車製造商開始玩各種共鳴放大器技巧。事實上,不只是電動車,當今更省油的引擎聲音更安靜,也較不那麼有力了。汽車製造商擔心所有的平靜可能會讓潛在買家卻步。
對於汽車產業的許多人來說,音訊是熟悉的領域。汽車製造商們知道,音訊可以為其提供差異化。車內的聲學感測器不僅可以聽到外面發生的事情,未來,車子自己的引擎也能夠針對診斷應用偵測任何異常情況。
編譯:Susan Hong
(參考原文:Audio Rises for Event Detection,by Junko Yoshida)
訂閱EETimes Taiwan電子報
加入我們官方帳號LINE@,最新消息一手掌握!