視線跟蹤技術(shù)在人機交互中的研究
摘要:人們在觀察外部世界時眼睛總是與其它人體活動自然協(xié)調(diào)地工作,并且眼動所需的認知負荷很低,人眼的注視包含著當前的任務狀況以及人的內(nèi)部狀態(tài)等信息,因此眼注視是一種非常好的能使人機對話變得簡便、自然的候選輸入通道.本文介紹了視線跟蹤的基本原理、方法,對視線跟蹤作為人機交互通道所具有的特點進行了討論,并指出了其在人機交互領(lǐng)域中的應用及前景.
關(guān)鍵詞:人機交互;視線跟蹤;多通道用戶界面
目前用戶界面所使用的任何人機交互技術(shù)幾乎都有視覺參與。早期的視線跟蹤技術(shù)首先應用于心理學研究(如閱讀研究),后被用于人機交互。眼動在人的視覺信息加工過程中,起著重要的作用。它有三種主要形式:跳動(Saccades), 注視(Fixations)和平滑尾隨跟蹤( Smooth Pursuit)。在正常的視覺觀察過程中,眼動表現(xiàn)為在被觀察目標上一系列的停留及在這停留點之間的飛速跳動,這些停留一般至少持續(xù)100ms以上,稱為注視。絕大多數(shù)信息只有在注視時才能獲得并進行加工。注視點間的飛速跳躍稱為眼跳動。眼跳動是一種聯(lián)合眼動(即雙眼同時移動),其大小為1到40 度視角,持續(xù)時間為30到120ms,最高運動速度為400-600度/秒。
視線跟蹤精度與在測量時對用戶的限制和干擾就是一對矛盾.在多通道用戶界面設(shè)計中,減少這種限制和干擾是非常重要的,視線作為交互裝置最直接的用處就是代替鼠標器作為一種指點裝置。
一、視線跟蹤的基本原理、方法
視線跟蹤技術(shù)及裝置有強迫式(intrusiveness)與非強迫式(non-intrusiveness)、穿戴式與非穿戴式、接觸式(如Eyeglass-mounted)與非接觸式(Remote)之分;其精度從0.1°至1°或2°不等,制造成本也有巨大差異。在價格、精度與方便性等因素之間作出權(quán)衡是一件困難的事情,例如視線跟蹤精度與對用戶的限制和干擾就是一對尖銳的矛盾。有關(guān)視覺輸入的人機界面研究主要涉及兩個方面:一是視線跟蹤原理和技術(shù)的研究;二是在使用這種交互方式后,人機界面的設(shè)計技術(shù)和原理的研究.
眼睛能平滑地追蹤運動速度為1到30度/秒的目標,這種緩慢、聯(lián)合追蹤眼動通常稱為平滑尾隨跟蹤。平滑尾隨跟蹤必須有一個緩慢移動的目標,在沒有目標的情況下,一般不能執(zhí)行這種眼動。在人機交互中,主要表現(xiàn)為跳動和注視兩種形式。而主要的視線跟蹤技術(shù)方法如圖所示:
六種主要的視線跟蹤技術(shù)
視覺追蹤法應用場合技術(shù)特點測量參照系
眼電圖(EOG)眼動力學高寬帶
精度低
對人干擾大
頭
虹膜-鞏膜邊緣眼動力學注視點高帶寬
垂直精度低
對人干擾大
頭具誤差大
頭具
角膜反射眼動力學注視點高帶寬
頭具誤差大
頭具
瞳孔-角膜反射向量注視點準確
頭具誤差小
對人無干擾
低寬帶
頭具或室內(nèi)
雙浦肯野象眼動力學
網(wǎng)模圖象穩(wěn)定
注視點
高精度
高帶寬
對人干擾大
室內(nèi)
接觸鏡眼動力學
微小的眼動
精度最高
高帶寬
對人干擾大
不舒適
頭
視線追蹤的基本工作原理是利用圖象處理技術(shù),使用能鎖定眼睛的特殊攝象機。通過攝入從人的眼角膜和瞳孔反射的紅外線連續(xù)地記錄視線變化,從而達到記錄分析視線追蹤過程的目的。在人機交互中對視線追蹤的基本要求是:(1)要保證一定的精度,滿足使用要求;(2) 對用戶基本無干擾;(3)定位校正簡單;(4) 可作為計算機的標準外設(shè)。
二、視線跟蹤技術(shù)在人機交互通道中的特點
人機交互通道中大部分具有一定形狀的物體或現(xiàn)象,可以通過多種途徑使用戶產(chǎn)生真實感很強的視覺感知。CRT顯示器、大屏幕投影、多方位電子墻、立體眼鏡、頭盔顯示器(HMD)等是VR系統(tǒng)中常見的顯示設(shè)備。不同的頭盔顯示器具有不同的顯示技術(shù),根據(jù)光學圖像被提供的方式,頭盔顯示設(shè)備可分為投影式和直視式。
能增強視線跟蹤真實感的立體顯示技術(shù),可以使用戶的左、右眼看到有視差的兩幅平面圖像,并在大腦中將它們合成并產(chǎn)生立體視覺感知。頭盔顯示器、立體眼鏡是兩種常見的立體顯示設(shè)備。目前,基于激光全息計算的立體顯示技術(shù)、用激光束直接在視網(wǎng)膜上成像的顯示技術(shù)正在研究之中。
從視線跟蹤裝置得到的原始數(shù)據(jù)必須經(jīng)過進一步的處理才能用于人機交互。數(shù)據(jù)處理的目的是從中濾除噪聲(filter noise),識別定位(recognize fixations)及局部校準與補償(compensate for calibration errors)等,最重要的是提取出用于人機交互所必需的眼睛定位坐標。但是由于眼動存在固有的抖動(jitter motion)以及眼睛眨動所造成的數(shù)據(jù)中斷,即使在定位這段數(shù)據(jù)段內(nèi),仍然存在許多干擾信號,這導致提取有意(intentional)眼動數(shù)據(jù)的困難,解決此問題的辦法之一是利用眼動的某種先驗模型加以彌補。
將視線應用于人機交互必須克服的另一個固有的困難是避免所謂的“米達斯接觸(Midas Touch)”問題。如果鼠標器光標總是隨著用戶的視線移動,可能會引起他的厭煩,因為用戶可能希望能隨便看著什么而不必非“意味著”什么.在理想情況下,應當在用戶希望發(fā)出控制時,界面及時地處理其視線輸入,而在相反的情況下則忽略其視線的移動。然而,這兩種情況一般不可能區(qū)分。
目前,美國Texas A&M大學使用裝有紅外發(fā)光二極管和光電管的眼鏡,根據(jù)進入光電管的光的強弱來決定眼睛的位置。ASL(Applied Science Lab)也已有較成熟的視線追蹤系統(tǒng)。
三、視線跟蹤技術(shù)在人機交互領(lǐng)域中的應用及前景
隨著計算機科學技術(shù)與產(chǎn)業(yè)的飛速發(fā)展,計算機日益進入普通用戶的工作和生活中。面對急劇增長的普通用戶,人機交互的自然性愈來愈為系統(tǒng)設(shè)計所重視,計算機系統(tǒng)的設(shè)計必須力圖使用戶不需要專門的計算機技能,而只是利用自己的自然技能就能夠使用計算機,虛擬現(xiàn)實正致力于這方面的研究。另一方面,多媒體技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展使計算機到用戶的通訊帶寬不斷提高,而目前的人機交互由于受傳統(tǒng)專業(yè)化的窄帶寬輸入界面的限制使得用戶到計算機的通訊帶寬仍停滯不前,嚴重阻礙了人向計算機的信息交流。此外,傳統(tǒng)人機交互的串行性和精確性在許多場合不必要地增加了用戶的作業(yè)負荷,降低了交互效率,破壞了自然性。為了賦予人機交互靈活性、健壯性、高帶寬性和類似于人與人交互中的自然性,人機交互必須打破常規(guī),走多通道的道路。
現(xiàn)在多通道界面的研究采用視線跟蹤、語音識別、唇讀和手勢輸入等新的交互技術(shù),允許用戶通過多個通道自然的并行和協(xié)作來進行人機交互,并可通過整合互補通道的模糊輸入來捕捉用戶交互意向。多通道界面的特點和目標給設(shè)計帶來了一些特殊問題,主要存在于三方面: