增強現(xiàn)實(augmented reality,AR)技術是將計算機生成的虛擬信息疊加到用戶所在的真實世界的一種新興技術,是虛擬現(xiàn)實技術的一個重要分支。它提高了用戶對現(xiàn)實世界的感知能力,提供了人類與世界溝通的新的方式,近年來受到研究者的廣泛關注。
增強現(xiàn)實的定義有兩種,一種是由Milgram P 和Kishino F 提出的:將真實環(huán)境與虛擬環(huán)境放置在兩端,其中靠近真實環(huán)境的叫增強現(xiàn)實,靠近虛擬環(huán)境的叫增強虛擬,位于中間的叫混合現(xiàn)實;另一種是Azuma定義的:以虛實結合、實時交互、三維注冊為特點,利用附加的圖片、文字信息對真實世界進行增強的技術。
與虛擬現(xiàn)實不同,增強現(xiàn)實技術利用三維跟蹤注冊技術來計算虛擬物體在真實環(huán)境中的位置,通過將計算機中的虛擬物體或信息帶到真實世界中實現(xiàn)對現(xiàn)實世界的增強。近年來隨著科技的發(fā)展,增強現(xiàn)實技術被廣泛應用于工業(yè)、軍事、醫(yī)療、教育等多個領域。
本文從跟蹤注冊技術、顯示技術和人機交互技術3個方面概述增強現(xiàn)實系統(tǒng)中的關鍵技術,對增強現(xiàn)實技術在各領域的應用進行總結,并展望未來發(fā)展趨勢。
增強現(xiàn)實的關鍵技術
跟蹤注冊技術
對于增強現(xiàn)實系統(tǒng)來說,一個重要的任務就是實時、準確地獲取當前攝像機位置和姿態(tài),判斷虛擬物體在真實世界中的位置,進而實現(xiàn)虛擬物體與真實世界的融合。其中攝像機位姿的獲取方法即為跟蹤注冊技術。從具體實現(xiàn)上來說,跟蹤注冊技術可以分為3類:基于傳感器的跟蹤注冊技術、基于計算機視覺的跟蹤注冊技術及綜合視覺與傳感器的跟蹤注冊技術。
1)基于傳感器的跟蹤注冊技術
基于傳感器的跟蹤注冊技術主要通過硬件傳感器,如磁場傳感器、慣性傳感器、超聲波傳感器、光學傳感器、機械傳感器等對攝像機進行跟蹤定位。
磁場傳感器根據(jù)磁發(fā)射信號與磁感應信號之間的耦合關系獲得被測物體的空間方向信息,根據(jù)接收器的磁通量獲得接收器和信號源之間的相對位置信息。這類設備一般較為輕巧,但環(huán)境中的金屬物質會對磁場傳感器產(chǎn)生干擾,進而影響跟蹤注冊的準確性。慣性傳感器一般包括陀螺儀和加速度計等。陀螺儀可以用來測量物體的運動方向;加速度計可以用來測量物體的加速度。兩者相結合就可以獲得物體的位置和方向。超聲波傳感器跟蹤根據(jù)不同聲源發(fā)出的超聲波到達目標的時間差、相位差和聲壓差實現(xiàn)跟蹤注冊。這類方法受外界環(huán)境影響較大。光學傳感器通過分析接收到的反射光的光信號實現(xiàn)跟蹤注冊。機械傳感器根據(jù)機械關節(jié)的物理連接來測量運動攝像機的位姿。綜合來看,基于傳感器的跟蹤注冊技術算法簡單,獲取速度快,但設備較為昂貴,且容易受外界環(huán)境的影響。
2)基于計算機視覺的跟蹤注冊技術
近年來圖像處理與計算機視覺發(fā)展較快,一些較為成熟的技術已被應用于增強現(xiàn)實系統(tǒng)的跟蹤注冊中。基于計算機視覺的跟蹤注冊技術通過分析處理拍攝到的圖像數(shù)據(jù)信息識別和定位真實場景環(huán)境,進而確定現(xiàn)實場景與虛擬信息之間的對應關系。該方法一般只需要攝像機拍攝到的圖像信息,對硬件要求較低。
在實現(xiàn)方式上,基于計算機視覺的跟蹤注冊方法可分為基于人工標志的方法和基于自然特征的方法。
基于人工標志的方法一般將包含有特定人工標志的物體放置在真實場景中,通過對攝像機采集到的圖像中的已知模板進行識別獲得攝像機位姿,之后經(jīng)過坐標系的變換即可將虛擬物體疊加到真實場景中。基于人工標志的方法最具代表性的是ARToolkit和ARTag。ARToolkit通過使用人工標志實現(xiàn)了快速準確的跟蹤注冊,但其在遮擋敏感;ARTag采用數(shù)字編碼的方式在一定程度上增加了對遮擋的處理能力。圖1展示了ARToolkit 中人工標志示例。圖2展示了ARTag中的人工標志示例。

ARToolkit人工標志示例

ARTag人工標志示例
基于自然特征的方法通過提取圖像中的特征點,并計算場景中同一個三維點在二維圖像上的對應關系,優(yōu)化獲得三維點在世界坐標系中的位置以及攝像機的位姿。近年來,隨著計算機視覺與人工智能的發(fā)展,同時定位與地圖構建(simultaneous localization and mapping,SLAM)受到了人們的廣泛關注。這類方法在跟蹤注冊的同時構建場景地圖,具有運算速度快、精度較高的優(yōu)點。基于自然特征的方法不需要人為地在真實場景環(huán)境增加額外的信息,只需要跟蹤視頻中捕獲的場景中的自然特征,并經(jīng)過一系列幾何變換即可實現(xiàn)場景的跟蹤注冊。相比基于人工標志的方法,這類方法更簡單、方便,但自然特征數(shù)目與跟蹤效果的不穩(wěn)定將對系統(tǒng)的運算速度和精度造成較大影響。
3)綜合視覺與傳感器的跟蹤注冊技術
在一些增強現(xiàn)實的應用場景,基于計算機視覺與基于傳感器的方法均不能獲得理想的跟蹤效果,因此,研究者綜合考慮二者的優(yōu)缺點,將二者結合起來,以獲得更優(yōu)的跟蹤注冊效果。香港科技大學沈劭劼課題組提出的視覺慣性導航(visual-inertial navigation system,VINS)系統(tǒng)將視覺與陀螺儀和加速度計信息深度融合,在無人機和手持移動設備上均獲得了較好的跟蹤注冊效果;蘋果公司推出的ARKit和Google公司推出的ARCore增強現(xiàn)實軟件平臺分別支持iOS和Android操作系統(tǒng),為移動端智能設備上的增強現(xiàn)實應用提供了無限可能。圖3展示了在ARKit和ARCore平臺上開發(fā)的移動設備上的增強現(xiàn)實應用示例。

增強現(xiàn)實應用示例
顯示技術
增強現(xiàn)實技術的最終目標是為用戶呈現(xiàn)一個虛實融合的世界。因此,顯示技術是增強現(xiàn)實系統(tǒng)中的重要組成部分。目前,常用的顯示設備有頭戴式顯示設備、計算機屏幕顯示設備、手持式移動顯示設備及投影顯示設備等。
1)頭戴式顯示設備
由于增強現(xiàn)實系統(tǒng)要求用戶可以觀察到現(xiàn)實世界的實時影像,頭戴式顯示設備主要是透視式頭盔顯示器。這類設備的主要功能是將用戶所在環(huán)境中的真實信息與計算機生成的虛擬信息融合,按真實環(huán)境的表現(xiàn)方式可將其分為視頻透視式頭盔顯示器和光學透視式頭盔顯示器。
視頻透視式頭盔顯示器通過頭盔上一個或多個攝像機來獲取真實世界的實時影像,利用其中的圖像處理模塊和虛擬渲染模塊進行融合,最終將虛實融合后的效果在頭盔顯示器上顯示出來。
微軟推出的Hololens增強現(xiàn)實眼鏡采用全息技術,結合多個傳感器,將虛擬內容投射成全息影像,實現(xiàn)虛實融合。這款眼鏡內部集成了中央處理器(CPU)、圖形處理器(GPU)和全息處理器(HPU),不需要連接任何其他設備就可以實現(xiàn)與現(xiàn)實世界的交互。Meta公司推出的Meta2同樣是一款高沉浸感的增強現(xiàn)實眼鏡,其較Hololens 具有更大的視場角,但追蹤保真度仍有待優(yōu)化,且在使用過程中需要連接電腦進行計算。圖4為Hololens增強現(xiàn)實眼鏡與Meta2增強現(xiàn)實眼鏡外觀。

Hololens增強現(xiàn)實眼鏡(a)與Meta2增強現(xiàn)實眼鏡(b)
光學透視式頭戴顯示器根據(jù)光的反射原理,通過多片光學鏡片的組合,為用戶產(chǎn)生虛擬物體和真實場景相互融合的畫面。與視頻透視式頭盔顯示器相比,光學透視式頭盔顯示器在顯示增強畫面時,不需要經(jīng)過圖像融合的過程,用戶看到的影像就是當前的真實場景與虛擬信息的疊加。
Google公司推出的Google Glass是一款光學透視式頭盔顯示器,其經(jīng)過光學放大后將數(shù)據(jù)通過棱鏡顯示給用戶(圖5(a))。Google Glass可以通過聲音控制,實現(xiàn)拍照、視頻通話、全球定位系統(tǒng)(GPS)定位、文字處理、收發(fā)郵件等多種功能。Magic Leap公司發(fā)布了一款基于光場的頭戴式增強現(xiàn)實設備Magic Leap One(圖5(b))。這款設備利用外部攝像頭和計算機視覺處理器實時追蹤用戶位置,同時在追蹤過程中可以不斷調整雙眼的焦距,并將包含有深度信息的圖像通過光場顯示器顯示出來。

Google Glass(a)與Magic Leap One(b)
2) 計算機屏幕顯示設備
計算機屏幕顯示設備作為傳統(tǒng)的輸出設備一般具有較高的分辨率,且體積較大。在增強現(xiàn)實應用中,這類設備更適用于將精細虛擬物體渲染并疊加于室內或大范圍場景中。由于這類設備沉浸感較弱,但價格較低,一般適用于低端或多用戶的增強現(xiàn)實系統(tǒng)。
3)手持式移動顯示設備
手持式移動顯示設備是一類允許用戶手持的顯示設備。近年來智能移動終端發(fā)展迅速,現(xiàn)有的智能手持設備大都配備了攝像頭、全球定位系統(tǒng)(GPS)和陀螺儀、加速度計等多種傳感器,更具備了高分辨率的大顯示屏,這為移動增強現(xiàn)實提供了良好的開發(fā)平臺。與頭盔式顯示設備相比,手持式移動顯示設備一般體積較小、重量較輕,便于攜帶,但沉浸感較弱,同時由于硬件的限制,不同設備的計算性能參差不齊。目前,隨著iOS系統(tǒng)下的增強現(xiàn)實平臺ARKit和Android系統(tǒng)下的增強現(xiàn)實平臺ARCore的發(fā)布,后續(xù)的多數(shù)新款智能移動終端將支持增強現(xiàn)實技術。
4)投影顯示設備
投影顯示設備可以將增強現(xiàn)實影像投影到大范圍環(huán)境,滿足用戶對大屏幕顯示的需求。由于投影顯示設備生成圖像的焦點不會隨用戶視角發(fā)生變化,其更適用于室內增強現(xiàn)實環(huán)境。微軟研究院的RoomAlive項目將Kinect、投影儀、攝像機和計算機結合起來,通過構建房間的三維圖像將虛擬影像投影到整個房間,同時通過定位用戶位置實現(xiàn)與虛擬世界的交互。
人機交互技術
增強現(xiàn)實系統(tǒng)的目標是構建虛實融合的增強世界,使用戶能夠在現(xiàn)實世界中感受到近乎真實的虛擬物體,并提供人與這一增強的世界交互。在這一過程中,人機交互方式的好壞很大程度上影響了用戶的體驗。一般來說,傳統(tǒng)的交互方式主要有鍵盤、鼠標、觸控設備、麥克風等,近年來還出現(xiàn)了一些更自然的基于語音、觸控、眼動、手勢和體感的交互方式。
1)基于傳統(tǒng)的硬件設備的交互技術
鼠標、鍵盤、手柄等是增強現(xiàn)實系統(tǒng)中常見的交互工具,用戶可以通過鼠標或鍵盤選中圖像中的某個點或區(qū)域,完成對該點或區(qū)域處虛擬物體的縮放、拖拽等操作。這類方法簡單易于操作,但需要外部輸入設備的支持,不能為用戶提供自然的交互體驗,降低了增強現(xiàn)實系統(tǒng)的沉沒感。
2)基于語音識別的交互技術
語言是人類最直接的溝通交流方式。語言交互信息量大,效率高。因此,語音識別也成為了增強現(xiàn)實系統(tǒng)中重要的人機交互方式之一。近年來,人工智能的發(fā)展及計算機處理能力的增強,使得語音識別技術日趨成熟并被廣泛應用于智能終端上,其中最具代表性的是蘋果公司推出的Siri和微軟公司推出的Cortana,它們均支持自然語言輸入,通過語音識別獲取指令,根據(jù)用戶需求返回最匹配的結果,實現(xiàn)自然的人機交互,很大程度上提升了用戶的工作效率。
3)基于觸控的交互技術
基于觸控的交互技術是一種以人手為主的輸入方式,它較傳統(tǒng)的鍵盤鼠標輸入更為人性化。智能移動設備的普及使得基于觸控的交互技術發(fā)展迅速,同時更容易被用戶認可。近年來,基于觸控的交互技術從單點觸控發(fā)展到多點觸控,實現(xiàn)了從單一手指點擊到多點或多用戶的交互的轉變,用戶可以使用雙手進行單點觸控,也可以通過識別不同的手勢實現(xiàn)單擊、雙擊等操作。
4)基于動作識別的交互技術
基于動作識別的交互技術通過對動作捕獲系統(tǒng)獲得的關鍵部位的位置進行計算、處理,分析出用戶的動作行為并將其轉化為輸入指令,實現(xiàn)用戶與計算機之間的交互。微軟公司的Hololens采用深度攝像頭獲取用戶的手勢信息,通過手部追蹤技術操作交互界面上的虛擬物體。Meta公司的Meta2與Magic Leap公司的Magic Leap One同樣允許用戶使用手勢進行交互。這類交互方式不但降低人機交互的成本,而且更符合人類的自然習慣,較傳統(tǒng)的交互方式更為自然、直觀,是目前人機交互領域關注的熱點。
5)基于眼動追蹤的交互技術
基于眼動追蹤的交互技術通過捕獲人眼在注視不同方向時眼部周圍的細微變化,分析確定人眼的注視點,并將其轉化為電信號發(fā)送給計算機,實現(xiàn)人與計算機之間的互動,這一過程中無需手動輸入。Magic Leap 公司的Magic Leap One在眼鏡內部專門配備了用戶追蹤眼球動作的傳感器,以實現(xiàn)通過跟蹤眼睛控制計算機的目的。
AR 技術應用
近年來,增強現(xiàn)實技術被應用廣泛應用于工業(yè)維修、影視娛樂、醫(yī)療手術、教育培訓等多個領域,并逐漸成為下一代人機交互技術發(fā)展的主要方向。
工業(yè)制造與維修領域
在工業(yè)領域,制造與維修流程一般較為復雜,往往包含成百甚至上千個步驟。操作過程一旦發(fā)生錯誤,將會造成巨大的損失。增強現(xiàn)實技術能夠將已知的數(shù)據(jù)信息正確的發(fā)送給流水線上的工人,如在用戶指向某一部位時系統(tǒng)顯示該部位的名稱、功能等,從而減少錯誤的發(fā)生,提高生產(chǎn)與維修效率。
在工廠中,增強現(xiàn)實系統(tǒng)還能從工業(yè)系統(tǒng)中捕獲信息,獲得每臺設備與操作流程的檢測和診斷數(shù)據(jù)并可視化,幫助維修人員找到可能出現(xiàn)問題的源頭,并提醒工人進行預防式維修,減少因設備損壞導致停工帶來的損失。Iconics公司將增強現(xiàn)實技術引入工業(yè)自動軟件上,通過在理想位置投射相關信息,提高檢測設備或流程的效率。
市場營銷和銷售領域
增強現(xiàn)實技術重新定義了產(chǎn)品展廳和演示的概念,并且完全顛覆了傳統(tǒng)的客戶體驗。在購買之前,用戶可以看到虛擬產(chǎn)品在真實環(huán)境下的狀態(tài),促使他們做出更符合實際預期的購買決策,進而提升客戶的滿意度。
EasyAR與汽車之家聯(lián)合推出了AR看車軟件,用戶可以通過手機App將虛擬的車輛放置在真實場景中,在購車之前預覽其在道路上奔馳的效果(圖6)。瑞典宜家集團推出了一款名為IKEA Place的家具類應用,用戶可以選擇自己喜歡的家具疊加上現(xiàn)實場景中,避免在裝修過程中出現(xiàn)的家具尺寸不合適,風格不統(tǒng)一等問題(圖7)。

“AR看車”手機應用軟件效果

“IKEA Place”手機應用軟件效果
醫(yī)療領域
醫(yī)學手術導航是增強現(xiàn)實技術的重要應用之一。由于很多醫(yī)學手術具有較高的風險,任何小操作誤差都可能帶來嚴重的后果。增強現(xiàn)實技術對CT或醫(yī)學磁共振成像(MRI)進行三維建模,并通過將構建的模型與病人身體精確的配準,為醫(yī)生提供現(xiàn)實與虛擬疊加的影像,進而實現(xiàn)對醫(yī)療手術的導航作用。
Surgiceye公司在很多外科手術案例中引入了增強現(xiàn)實技術,如在外科手術中,醫(yī)生可以直接通過增強現(xiàn)實技術“查看”病人身體內部、骨骼等信息。在實際應用中,將增強現(xiàn)實與常規(guī)診斷的顯示方式相結合,幫助醫(yī)生精確的找到病理位置。
軍事領域
由于增強現(xiàn)實技術可以將真實世界與虛擬世界融合起來,同時允許用戶實時交互,其被應用于軍事領域的多個方面,在數(shù)字化戰(zhàn)場上發(fā)揮了巨大作用。
在戰(zhàn)場上,增強現(xiàn)實技術能夠增強戰(zhàn)場環(huán)境信息。根據(jù)輸入的部隊位置信息,增強現(xiàn)實系統(tǒng)不僅能向部隊顯示真實的戰(zhàn)場場景,同時能夠疊加額外的環(huán)境信息以及敵我雙方的隱藏力量,實現(xiàn)多種戰(zhàn)場信息的可視化。
在軍事訓練中,對戰(zhàn)場的真實性有很高的要求;同時,很多環(huán)節(jié)需要反復多次,對裝備消耗大。增強現(xiàn)實技術的引入不僅可以提供更為真實的戰(zhàn)場環(huán)境,達到實戰(zhàn)訓練的效果,還允許士兵在進行反復操作,增加訓練次數(shù)的同時減少對裝備的消耗。
此外,考慮戰(zhàn)場上指揮員對信息的掌握的重要性,引入增強現(xiàn)實技術可以使各級指揮官同時觀看戰(zhàn)場的實際情況以及疊加的各種信息,并與之進行交互,進而實現(xiàn)指揮中心與各級戰(zhàn)斗人員之間的信息的快讀傳輸與高度共享。指揮員在快速下達指揮命令的同時了解各個作戰(zhàn)單元的情況,將地理上分散的小組聯(lián)合成一個協(xié)同合作的整體。
影視、娛樂、游戲領域
在電視、電影制作方面,增強現(xiàn)實技術可以在真實拍攝的場景上,加入現(xiàn)實中不存在的虛擬景象或人物,如汽車爆炸、恐龍、科幻世界等。這種基于增強現(xiàn)實的“所見即所得”的拍攝方式,大大簡化電視、電影制作中動畫特效帶來的工作量,降低制作成本。
在娛樂、游戲方面,增強現(xiàn)實技術可以用來提供各種體驗項目,如將遠古時代的恐龍、深海中的鯊魚等不可能出現(xiàn)的動物放置到現(xiàn)實場景中,滿足人們的好奇心;也可以將現(xiàn)實場景變身為戰(zhàn)場,使用戶能夠在虛實融合的世界里與別的玩家進行對抗。近年來最具代表性的就是任天堂公司開發(fā)的增強現(xiàn)實游戲Pokeman Go,打開攝像頭用戶就可以捕捉現(xiàn)實世界中出現(xiàn)的小精靈并進行戰(zhàn)斗。
教育領域
增強現(xiàn)實技術作為一種沉沒式的學習方式,可以將豐富的資源信息和其他數(shù)據(jù)整合到用戶能夠觀察到的現(xiàn)實場景中,為師生提供身臨其境的學習環(huán)境,激發(fā)學生的學習興趣,提升主觀積極性。同時,增強現(xiàn)實技術能夠構建目標對象的三維建模并顯示,學生可以通過從不同視角觀察模型,并與虛擬的模型進行交互,增強對目標對象的理解。此外,增強現(xiàn)實系統(tǒng)實時交互的特點削弱了位置、空間的限制,教師可以在課上或遠程指導學生,彌補了現(xiàn)實環(huán)境中設備的不足,實現(xiàn)資源共享。
美國Z-Space公司開發(fā)出了一系列面向普通教育的應用軟件,實現(xiàn)了老師、學生及三維場景之間的交互。
古跡復原與數(shù)字化遺產(chǎn)保護領域
增強現(xiàn)實技術的一個重要應用場景是室內博物館導覽,它通過在文物上疊加虛擬的文字、視頻信息,為游客提供更多的文物導覽解說。此外,增強現(xiàn)實技術還可以利用采集到的數(shù)據(jù)復原再現(xiàn)文物古跡,將極具真實感的虛擬影像展現(xiàn)在游客眼前,為游客提供身臨其境的視覺體驗。
Archeoguide 是一款基于增強現(xiàn)實的文物遺跡向導,通過GPS粗定位,能夠為游客展現(xiàn)古跡復原后的希臘奧林匹亞神廟。由北京理工大學王涌天課題組研究的基于增強現(xiàn)實的圓明園景觀數(shù)字重建技術將部分圓明園遺址做很好的還原,真實感很強,游客可以從圓明園廢墟前看到重建后的皇家園林。
結 論
近年來,增強現(xiàn)實技術受到了研究人員的廣泛關注。在計算機視覺與人工智能技術的推動下,增強現(xiàn)實技術表現(xiàn)出了強勁的發(fā)展勢頭,無論是跟蹤注冊精度、顯示設備性能,還是人機交互自然性上都有很大提高,但也可以看出,增強現(xiàn)實技術尚有許多問題有待解決。從跟蹤注冊技術上來說,目前的跟蹤注冊方法只能對場景中少量的信息加以利用,如特征點信息,這造成系統(tǒng)對環(huán)境的理解不完整;從顯示技術上來說,能夠為用戶提供高沉沒感的增強現(xiàn)實眼鏡在體積和價格上還不能滿足大眾的需求;從交互方式上來說,更為自然的、支持多用戶的增強現(xiàn)實交互技術仍有待研究。
雖然增強現(xiàn)實技術還有許多瓶頸,但大量的應用研究分析表明,它具有巨大的應用前景。在未來幾年里,增強現(xiàn)實技術的應用,特別是在移動智能終端上的應用,將會大量涌現(xiàn)。雖然與頭盔顯示設備相比,移動設備沉沒感不強,但其具有很高的普及性;同時,ARKit、ARCore開發(fā)平臺的推出,從技術上實現(xiàn)了增強現(xiàn)實與智能移動設備的結合。在未來的發(fā)展中,更能發(fā)揮增強現(xiàn)實技術優(yōu)勢的智能穿戴設備將為人類創(chuàng)造更為真實的虛實融合世界,人們可以通過更自然的人機交互方式與系統(tǒng)進行交互。未來增強現(xiàn)實技術將在很大程度上改變人類生活,是科技發(fā)展的必然趨勢。
(文章轉自科技導報)
