在談到成像或具體到手機(jī)拍照時(shí),通常市場(chǎng)更關(guān)注的是攝像頭模組本身,或者其中最核心的 CMOS 圖像傳感器(CIS)。當(dāng)前,智能手機(jī) CIS 市場(chǎng)的競(jìng)爭(zhēng)仍然非常激烈,更多需求正從 8 英寸 wafer 轉(zhuǎn)向 12 英寸,同時(shí)隨著 4000 萬(wàn)像素以上的 CIS 需求提升,像素工藝節(jié)點(diǎn)也在變小。
這一改變,這對(duì)于手機(jī) CIS 市場(chǎng)份額第一的索尼而言,恐怕算不上是一個(gè)好消息。今年 8 月,Twitter 上出現(xiàn)一組消息源未經(jīng)考證的數(shù)據(jù),指出今年第一、二季度,三星與索尼的圖像傳感器市場(chǎng)份額縮短到有史以來(lái)的最接近。索尼圖像傳感器在今年第二季度的市場(chǎng)份額下探至 42.5%,三星上升到 21.7%。在《國(guó)際電子商情》來(lái)看,這與三星乃至更多市場(chǎng)參與者,如 SK 海力士,在高像素相關(guān)的制程工藝上的優(yōu)勢(shì)有關(guān)。
成像市場(chǎng)的價(jià)值恐怕正在發(fā)生一場(chǎng)轉(zhuǎn)變。由于智能手機(jī)在成像領(lǐng)域占據(jù)了最大市場(chǎng)份額(Yole Developpement 去年年中的數(shù)據(jù)顯示,移動(dòng) CIS 占到整個(gè) CIS 銷(xiāo)售額的 70%),本文主要以智能手機(jī)這個(gè)門(mén)類(lèi)的應(yīng)用為例,來(lái)談成像市場(chǎng)正在發(fā)生的轉(zhuǎn)變——原本以 CIS 為主的市場(chǎng)正逐步轉(zhuǎn)至以圖像 / 視覺(jué)處理器,如 AI 專(zhuān)核、ISP(圖像處理器)等為主,這種變化將創(chuàng)造更大的市場(chǎng)價(jià)值。
另外,智能手機(jī)成像的特殊性在于,其他領(lǐng)域的成像,如醫(yī)療成像、工業(yè)領(lǐng)域的機(jī)器視覺(jué)等,在圖像傳感器層面是以“拍得到”為主要目標(biāo),并且更注重圖像數(shù)據(jù)的后處理與計(jì)算。而手機(jī)拍照向來(lái)以“拍得好”為主要目標(biāo),它對(duì)圖像傳感器的重視由來(lái)已久。
智能手機(jī)制造商在宣傳其拍照的賣(mài)點(diǎn)時(shí),仍然更傾向于 CIS 本身的高像素和大尺寸。但成像質(zhì)量的決定因素已經(jīng)從 CIS,向圖像數(shù)據(jù)的處理與計(jì)算環(huán)節(jié)傾斜,它體現(xiàn)的也正是數(shù)字芯片本身的技術(shù)發(fā)展以及 AI 技術(shù)的快速推進(jìn)對(duì)傳統(tǒng)光學(xué)技術(shù)發(fā)展的挑戰(zhàn)。
前兩年就開(kāi)始出現(xiàn)的苗頭
聯(lián)發(fā)科在 2018 年提出了“真 AI 相機(jī)”的概念。該概念包含了三個(gè)主要的因素:1. 高像素、大尺寸 CIS;2. 多核 ISP;3. 高性能的 AI 專(zhuān)核。其中,第一點(diǎn)是成像領(lǐng)域的共識(shí),而后兩點(diǎn)都與圖像數(shù)據(jù)的后處理(Post Processing)相關(guān)。
如果說(shuō) ISP 是處理(Processing)數(shù)據(jù),那么 AI 及其他視覺(jué)處理器就是對(duì)數(shù)據(jù)做更深度的計(jì)算(Computing)。ISP 的重要性在過(guò)去總被反復(fù)提及,但其在成像領(lǐng)域,尤其是手機(jī)拍照上的地位遠(yuǎn)不及 CIS。此外,AI 專(zhuān)核也是成像領(lǐng)域這兩年的香餑餑。在此基礎(chǔ)上,“真 AI 相機(jī)”這一營(yíng)銷(xiāo)概念的提出,本質(zhì)上是為了吸引終端設(shè)備制造商來(lái)采用聯(lián)發(fā)科的 SoC 產(chǎn)品,不過(guò)它卻真正將 ISP 與 AI 專(zhuān)核提到了與 CIS 相同的高度。
無(wú)論是專(zhuān)為攝像頭配備的 ISP,還是 AI 處理單元,它們?cè)谂恼罩械膽?yīng)用都可以認(rèn)為是這兩年頗流行的 Computational Photography(計(jì)算攝影)。普羅大眾對(duì)于“AI 拍照”的理解,恐怕還停留在美顏、人臉識(shí)別、去背景或者讓天空更藍(lán)、草地更綠這樣的層面。實(shí)際上,AI 對(duì)于成像的協(xié)助,已經(jīng)深入到了拍照的方方面面,這部分將在下文探討。
除了聯(lián)發(fā)科這樣的芯片廠(chǎng)商之外,谷歌的表現(xiàn)也值得關(guān)注。據(jù)《國(guó)際電子商情》了解,谷歌在 2017 年為其 Pixel 2 手機(jī)配備了專(zhuān)門(mén)的 Pixel Visual Core(Pixel 視覺(jué)核心,圖 1),這是由該公司自主設(shè)計(jì)的基于 Arm 系統(tǒng)的 SiP 封裝圖像 / 視覺(jué)處理器。這枚處理器可以看作是一個(gè)完全可編程的圖像、視覺(jué)與 AI 多核專(zhuān)用架構(gòu)(domain-specific architecture)芯片,其應(yīng)用在 Pixel 4 之上迭代為 Pixel Neural Core(Pixel 神經(jīng)核心)。
當(dāng)然,谷歌 Pixel 系列手機(jī)在移動(dòng)領(lǐng)域普遍更具有前瞻性和試水性質(zhì)。谷歌在 Computational Photography 領(lǐng)域有著多年的沉淀,他們認(rèn)為與高通在 SoC 內(nèi)部提供 ISP 與 AI Engine 能力相比,針對(duì)拍照來(lái)自研專(zhuān)用的圖像處理硬件更加高效。
在前智能手機(jī)時(shí)代,外置 ISP/DSP 是個(gè)常見(jiàn)的概念,但隨著芯片集成大趨勢(shì)的到來(lái),當(dāng)代圖像處理硬件已很少以獨(dú)立的形態(tài)存在于 SoC 之外。谷歌的這種做法進(jìn)一步提升了圖像 / 視覺(jué)處理器的地位:雖然外置一顆獨(dú)立圖像 / 視覺(jué)芯片的方案未必會(huì)成為趨勢(shì),但是在拍照的各環(huán)節(jié)中,后處理已經(jīng)成為更重要的組成部分。
谷歌 Pixel 手機(jī)有個(gè)更有趣的傳統(tǒng):相同型號(hào)的 CIS 可以連續(xù)用在兩代 Pixel 手機(jī)上,比如 Pixel 3 和 Pixel 4 的主攝都采用疑似索尼 IMX363 的 CIS。即便如此,手機(jī)的拍照表現(xiàn)仍然會(huì)有飛躍,這個(gè)特點(diǎn)一直為人們所津津樂(lè)道。這也表明,谷歌在成像上非常重視圖像處理,而不僅只關(guān)注圖像傳感。
再回過(guò)頭來(lái)看今年的高通驍龍 865 針對(duì)成像的堆料:驍龍 865 的 ISP 部分支持每秒 2 GigaPixel 的速度,同時(shí)也支持 4K HDR、8K 視頻拍攝以及最大 2 億像素的照片拍攝。在與第五代 AI Engine 合作的情況下,這顆 ISP 能夠快速識(shí)別不同的拍攝背景、人、對(duì)象。如今,高通會(huì)著重宣傳每一代驍龍旗艦中的成像。
再看看蘋(píng)果今年發(fā)布的 A14,其 CPU、GPU 性能提升的幅度并不算大,但 AI 專(zhuān)核部分的 Neural Engine(神經(jīng)引擎)增加到 16 個(gè)核心,這讓其算力提升到了 11TOPS;A14 CPU 內(nèi)部還特別包含了升級(jí)過(guò)的機(jī)器學(xué)習(xí) AMX 模塊(矩陣乘法加速器)。如今,手機(jī)上的 AI 處理器總被人詬病沒(méi)有太多應(yīng)用場(chǎng)景,但它們?cè)?Computational Photography 上正默默發(fā)揮作用。
愈發(fā)明確的市場(chǎng)現(xiàn)狀
索尼在今年 5 月推出了兩款“智能視覺(jué)傳感器”——IMX500 與 IMX501。該公司宣稱(chēng),這是全球最早加入了 AI 處理能力的圖像傳感器。這兩顆芯片的傳感器部分,是比較典型的背照式 CIS;而集成的邊緣 AI 處理部分,包含了 DSP 的邏輯芯片,也包括了 AI 模型所需的臨時(shí)存儲(chǔ)空間,屬于比較典型的邊緣 AI 系統(tǒng)。更嚴(yán)謹(jǐn)?shù)卣f(shuō),IMX500/501 恐怕不應(yīng)僅定義為“傳感器”。
這兩顆芯片在配合云服務(wù)的情況下,在數(shù)據(jù)處理階段僅獲取元數(shù)據(jù)作為輸出,這樣能夠降低數(shù)據(jù)傳輸延遲,減少功耗與通訊的成本。這類(lèi)設(shè)計(jì)的本質(zhì)是:將部分“后處理”的能力集成到圖像傳感器上。這樣一來(lái),錄制視頻時(shí)就能進(jìn)行更高精度、實(shí)時(shí)的對(duì)象追蹤。目前,這兩款傳感器主要應(yīng)用于零售、工業(yè)設(shè)備。
另外,在配套解決方案上,索尼也推出了用于這類(lèi)集成 AI 能力的 CIS 的軟件訂閱服務(wù)。加入了 AI 數(shù)據(jù)分析的潛在市場(chǎng)價(jià)值大于傳感器市場(chǎng)本身。雖然索尼并不期望這項(xiàng)服務(wù)能夠在短期內(nèi)盈利,但是它非常看好其長(zhǎng)期發(fā)展。即便 IMX500/501 并不面向智能手機(jī)產(chǎn)品,這一步也能體現(xiàn)索尼在 CIS 業(yè)務(wù)開(kāi)發(fā)的思路轉(zhuǎn)變:即開(kāi)始從單純的圖像傳感,往圖像 / 視覺(jué)處理做擴(kuò)展。畢竟傳統(tǒng) CIS 市場(chǎng)的增長(zhǎng)速度正在放緩。
今年年中,Yole Developpement 發(fā)布了一份題為《2019 圖像信號(hào)處理器與視覺(jué)處理器市場(chǎng)與技術(shù)趨勢(shì)》的報(bào)告。該報(bào)告明確提到:“AI 徹底改變了視覺(jué)系統(tǒng)中的硬件,對(duì)整個(gè)行業(yè)都造成了影響。”
“圖像分析增加了很多價(jià)值。圖像傳感器供應(yīng)商們開(kāi)始對(duì)將軟件層集成到系統(tǒng)中感興趣。如今圖像傳感器必須跳出單純的捕獲圖像這一能力之外,再對(duì)圖像做分析。”
“但要跑這樣的軟件,就意味著高算力和存儲(chǔ)需求,也就有了視覺(jué)處理器的出現(xiàn)。ISP 市場(chǎng) 2018-2024 年的年復(fù)合增長(zhǎng)率穩(wěn)定在 3%,即 ISP 的市場(chǎng)價(jià)值到 2024 年會(huì)達(dá)到 42 億美元。與此同時(shí),視覺(jué)處理器市場(chǎng)也會(huì)迎來(lái)爆發(fā)增長(zhǎng),2018-2024 年的年復(fù)合增長(zhǎng)率為 18%,到 2024 年,其市場(chǎng)價(jià)值會(huì)達(dá)到 145 億美元。”
圖 2,2018-2024 年,圖像 / 視覺(jué)處理器的出貨量與市場(chǎng)規(guī)模預(yù)期
來(lái)源:Yole Developpement
這個(gè)值當(dāng)然仍未達(dá)到 CIS 年度總價(jià)值,上述兩個(gè)市場(chǎng)相加才大約超過(guò)今年的 CIS 市場(chǎng)規(guī)模(今年 CIS 行業(yè)產(chǎn)值預(yù)計(jì)為 172 億美元)。這還需要注意,CIS 市場(chǎng)的增速正在放緩以及此處并未考慮視覺(jué)處理芯片配套的軟件市場(chǎng)。起碼索尼認(rèn)定,其長(zhǎng)期的市場(chǎng)發(fā)展?jié)摿Υ笥?CIS 市場(chǎng)本身。Yole Developpement 的預(yù)測(cè)數(shù)據(jù)顯示,ISP 在市場(chǎng)中所占比重將逐步降低,而更注重計(jì)算的視覺(jué)處理器顯然更為緊俏(圖 2)。
“值得注意的是,很多傳統(tǒng)的行業(yè)參與者,在應(yīng)對(duì) AI 趨勢(shì)時(shí)顯得比較局促。這也讓其他更多參與者加入到業(yè)務(wù)競(jìng)爭(zhēng)中,比如蘋(píng)果、華為,Mobileye 這樣的初創(chuàng)公司,甚至其他領(lǐng)域的企業(yè),像是英偉達(dá)。”這是成像市場(chǎng)擴(kuò)展了縱深的表現(xiàn)。
AI 究竟為手機(jī)拍照帶來(lái)了什么?
今年 3 月,法國(guó)知名影像實(shí)驗(yàn)室 DxOMark 曾刊文提到,近 10 余年來(lái),智能手機(jī)拍照的畫(huà)質(zhì)提升超過(guò) 4EV,其中 1.3EV 來(lái)自圖像傳感器 / 光學(xué)技術(shù)的提升,還有 3EV 是來(lái)自圖像 / 視覺(jué)處理器(圖像數(shù)據(jù)后處理)帶來(lái)的提升。這已經(jīng)基本顛覆了大眾對(duì)于提升拍照畫(huà)質(zhì),就是要提升 CIS 技術(shù)的基本認(rèn)知。
而圖像 / 視覺(jué)處理作為一個(gè)相當(dāng)古老并發(fā)展多年的議題,AWB(自動(dòng)白平衡)、ANR(主動(dòng)降噪)、3DNR(3D 降噪)、BLC(黑電平校正)、HDR 等原本都屬于 ISP 的常規(guī)項(xiàng)目。近兩年,在圖像后處理中 AI 拍照被提得最多的功能,包括人臉識(shí)別、拍攝對(duì)象識(shí)別、語(yǔ)義分割、智能美顏等。
這些的確是 AI 為成像帶來(lái)的價(jià)值,但 AI 參與手機(jī)拍照的畫(huà)質(zhì)提升,滲透到了上述常規(guī)項(xiàng)目中。谷歌在 Computational Photography 方面的很多的研究也涉及到了這些組成部分,比如針對(duì)低光照?qǐng)鼍跋碌淖詣?dòng)白平衡,傳統(tǒng)算法在白平衡修正上顯得無(wú)能為力。谷歌幾年前就應(yīng)用了機(jī)器學(xué)習(xí):通過(guò)向模型輸入大量白平衡修正到位的照片,來(lái)訓(xùn)練自動(dòng)白平衡的智能模型。
谷歌在 Pixel 手機(jī)成像的諸多環(huán)節(jié)和特性上應(yīng)用了機(jī)器學(xué)習(xí)。比如拍照取景時(shí)的實(shí)時(shí) HDR,再比如視頻拍攝的防抖。在數(shù)據(jù)后處理時(shí),首先在第一階段進(jìn)行動(dòng)作分析、獲取陀螺儀信號(hào)、結(jié)合光學(xué)防抖動(dòng)作;其次在 motion filtering 環(huán)節(jié)結(jié)合機(jī)器學(xué)習(xí)與信號(hào)處理,來(lái)預(yù)測(cè)相機(jī)本身的運(yùn)動(dòng)軌跡;最后再最終的幀合成環(huán)節(jié),對(duì)快門(mén)與微動(dòng)造成的畫(huà)面失真做補(bǔ)償。
圖 3,來(lái)源:Google AI Blog
更為典型的例子是模擬背景虛化效果。傳統(tǒng)方案模擬背景虛化主要是靠立體視覺(jué),而谷歌提出的方案,不僅依靠?jī)煞N立體視覺(jué)方案(Pixel 4 手機(jī)的雙攝與雙像素技術(shù)),而且為加強(qiáng)虛化可靠性,對(duì)畫(huà)面拍攝對(duì)象做語(yǔ)義分割:谷歌打造了一臺(tái)五顆攝像頭的設(shè)備,拍攝大量場(chǎng)景,收集足夠的訓(xùn)練數(shù)據(jù)。利用 Tensorflow 訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò):首先分別單獨(dú)處理雙像素與雙攝的輸入數(shù)據(jù),中間有編碼器將輸入信息編碼為 IR(中間層),隨后兩部分信息經(jīng)過(guò)另一個(gè)編碼器,完成最終的對(duì)象深度計(jì)算(圖 3)。這里的編碼器本身就是一種神經(jīng)網(wǎng)絡(luò)。
今年 4 月,聯(lián)發(fā)科的研究人員發(fā)表了一篇題為 Learning Camera-Aware Noise Models 的論文,提出對(duì)圖像傳感器噪聲進(jìn)行建模的方法,通過(guò)“一種數(shù)據(jù)驅(qū)動(dòng)的方法,從真實(shí)環(huán)境噪聲中去學(xué)習(xí)噪聲模型。這種噪聲模型與相機(jī)相關(guān),不同的傳感器有不同的噪聲特點(diǎn),它們都能被學(xué)習(xí)。”
這些例子都表明,越來(lái)越多不同層級(jí)的市場(chǎng)參與者都在投入圖像的后處理。所以采用老型號(hào) CIS 的谷歌 Pixel 手機(jī),在很多成像項(xiàng)目對(duì)決中,與其他采用上億像素 CIS 的手機(jī)相比,依然保持優(yōu)勢(shì)。外置一顆 AI 視覺(jué)芯片的方案,顯然讓谷歌更有發(fā)揮空間。
如今的手機(jī)已經(jīng)開(kāi)始廣泛應(yīng)用 AI 來(lái)做成像質(zhì)量的加強(qiáng),而且包括了取景、抑噪、自動(dòng)白平衡這些傳統(tǒng)環(huán)節(jié)的參與。就用戶(hù)層面來(lái)看,AI 芯片參與計(jì)算并不會(huì)有很強(qiáng)的感知。
當(dāng)這些技術(shù)在成像領(lǐng)域變得越來(lái)越普遍時(shí),過(guò)去的移動(dòng)成像唯 CIS 中心論愈發(fā)失效。如今的終端廠(chǎng)商在火拼手機(jī)拍照時(shí),比拼的重點(diǎn)已經(jīng)向圖像 / 視覺(jué)處理與計(jì)算偏移。畢竟傳統(tǒng)光學(xué)技術(shù)發(fā)展的速度無(wú)法與與數(shù)字芯片相比。
現(xiàn)在很多人拿手機(jī)拍照去與全畫(huà)幅相機(jī)比較,即便這樣的對(duì)比沒(méi)有任何實(shí)際意義,但它也能體現(xiàn)手機(jī)的圖像 / 視覺(jué)處理計(jì)算能力,很大程度彌補(bǔ)了移動(dòng) CIS 的短板。實(shí)際上,這也是兩種方案、兩個(gè)時(shí)代的比拼。