http://m.007sbw.cn 2011-05-26 17:14 來源:《周末畫報》
這不是夢想。
一場由自然用戶界面帶來的革命,
不僅改變我們和計算機(jī)交互的方式,
更將徹底變革計算機(jī)的未來。
想想當(dāng)你拿起鋼筆記筆記、拿起鉛筆畫素描、拿起刀刻下字母的時候,手里怎么握觸這些工具?微軟亞洲研究院的年輕研究員曹翔發(fā)現(xiàn)其中的差異很有門道,人們使用不同工具的握姿各不相同,有可能改變長期以來困擾計算機(jī)輸入的一個問題。
這位專門從事人機(jī)交互研究的小伙子制造了一個數(shù)字筆,上面附加了多點(diǎn)觸摸和方向感應(yīng),可以識別用戶握持筆的方式。于是,在用戶變換握持?jǐn)?shù)字筆的方式時,這支筆可以根據(jù)其手勢,自然而然地實(shí)現(xiàn)鋼筆、畫筆、素描鉛筆、刀和圓規(guī)等不同工具、不同功能之間的切換,無需切換按鈕,如同使用實(shí)際工具一樣自然。
在一年一度素有“計算機(jī)研究領(lǐng)域的盛宴”之稱的微軟技術(shù)節(jié)上,計算機(jī)領(lǐng)域內(nèi)的各路專家圍著曹翔這個簡單又巧妙的項(xiàng)目嘖嘖稱贊。曹翔則稱自己的點(diǎn)子來自人們的實(shí)際需求。盡管如曹自己坦承,這個被稱為“所握即所得的數(shù)字筆”的小項(xiàng)目尚不能被稱為“革命”,但是無數(shù)類似的,從人的本身需求出發(fā)、強(qiáng)調(diào)人與計算機(jī)進(jìn)行更自然互動的交互方式,正推動計算機(jī)科學(xué)處在一場徹底變革的前夕。
感同身受
“計算機(jī)領(lǐng)域的下一個重大趨勢和革命將會是自然用戶界面(Natural User Interface,簡稱NUI)。”微軟首席研究及戰(zhàn)略官Craig Mundie最近在清華大學(xué)發(fā)表演講時指出。Mundie所言的“自然用戶界面”,其宗旨是讓計算機(jī)用戶能夠綜合地使用語音、觸摸和手勢等行為與計算機(jī)進(jìn)行更自然的交互。
這確實(shí)是一場歷時長久的發(fā)展。計算機(jī)行業(yè)一直積極開發(fā)一種更加自然的用戶界面,來取代統(tǒng)治這個行業(yè)已十多年的圖形用戶界面(GUI)。在圖形界面時代,人們利用鍵盤和鼠標(biāo)實(shí)現(xiàn)與計算機(jī)間的互動。而在自然用戶界面時代,人們與計算機(jī)的互動,應(yīng)該像人與人打交道一樣親切而自然,可以是手勢、語音或者簡單的觸摸。
Mundie在清華大學(xué)演講時,現(xiàn)場布置了一臺演示樣機(jī)。Mundie通過樣機(jī)演示了在自然用戶界面下,未來的建筑設(shè)計師的工作界面:建筑設(shè)計圖紙投影在桌面,設(shè)計師可以用手隨意翻動投影在桌面的“圖紙”,用手撥動圖紙上的線條來改變設(shè)計,甚至可以隨手“拽取”部分?jǐn)?shù)據(jù),組成圖表,用三維的形式投影在工作臺上。一切宛如《少數(shù)派報告》里的場景。
盡管這臺樣機(jī)更多用于虛擬演示,但其中很多技術(shù)已經(jīng)得以實(shí)現(xiàn)。Mundie訪問中國前不久,微軟剛剛慶祝體感游戲設(shè)備Kinect銷售突破1000萬臺,成為微軟旗下新的一個銷售額超過10億美元的產(chǎn)品,也是迄今為止整個科技行業(yè)銷售速度最快的消費(fèi)類電子產(chǎn)品。
Kinect體感控制游戲(圖片來自網(wǎng)絡(luò))
這個產(chǎn)品突破了以往的游戲機(jī)都要求游戲人通過手柄控制游戲的模式,轉(zhuǎn)而讓游戲參與者通過簡單的手勢與動作參與游戲。例如,在賽車游戲中,游戲人只需模擬握著方向盤,做出相應(yīng)的轉(zhuǎn)動方向盤的動作,就可實(shí)現(xiàn)在游戲中操控汽車的轉(zhuǎn)向;在球類游戲中,游戲人只需做出撲地動作,便可以在游戲中救起排球,或揮動手臂,便可以在游戲中舉拍擊球。
利用手勢和語音這種自然的行為控制游戲機(jī),顯然已經(jīng)是人機(jī)互動一個巨大的突破。Kinect采用的自然用戶界面技術(shù)不僅能夠運(yùn)用到各種類型的產(chǎn)品中,而且也能實(shí)現(xiàn)計算機(jī)感知、互動和預(yù)測的新方式。
從“感”到“知”
讓計算機(jī)擁有像人類一樣的“感覺”,只是自然用戶界面需要解決的一部分內(nèi)容。更關(guān)鍵的,是計算機(jī)如何對從各種傳感器獲得的信息進(jìn)行分析,從而像人類一樣可以“識別”和“理解”各種信息。
“以Kinect為例,最困難的部分不是獲取3D圖像信息,而是如何處理這些信息,如何界定這些3D信息代表什么意思。”微軟高級副總裁、微軟研究院院長Rick Rashid對《周末畫報》說,“人們往往把目光集中到Kinect的3D攝像頭上,但這個攝像頭是不能獨(dú)立工作的。”在他看來,Kinect這種用手勢及體感與計算機(jī)交互的方式,實(shí)質(zhì)是一種實(shí)時3D計算機(jī)視覺技術(shù)。
幾年前,來自微軟Xbox游戲機(jī)產(chǎn)品組的同事找到Rashid。他們希望利用微軟研究院的一些技術(shù)雛形,把3D攝像頭投入使用,使之成為游戲控制器,開發(fā)一種新型的體感游戲機(jī)。但他們面對一個難題:如何將來自3D攝像頭的原始圖像信息轉(zhuǎn)化成可靠的控制器用于視頻游戲,而且下至兒童上至老人都能使用。
這其中的技術(shù)難點(diǎn)在于,如何界定這些3D信息:是誰站在3D信息系統(tǒng)之前?他身體的哪一部分在做何種動作?如果家里的小狗突然跳到游戲者面前,系統(tǒng)能否正確判斷它是不是游戲者身體的一部分?如果只考察其底層的3D信息,是無法區(qū)分各種情景的。“這實(shí)際上是一個非常復(fù)雜的機(jī)器學(xué)習(xí)問題。”Rashid介紹說,因?yàn)樗仨氉R別身體的不同部分、處于游戲場景中的玩家身份、連續(xù)不斷地實(shí)時跟蹤身體各個部位的運(yùn)動狀態(tài),并且不被其他物體干擾。
例如,微軟亞洲研究院在身份識別方面的技術(shù),讓3D攝像頭識別出游戲人成為可能。“其中不僅靠人臉來識別,我們還要考慮到穿著的衣服、身高等信息。”微軟亞洲研究院院長洪小文介紹說,目前正式發(fā)布的Kinect已經(jīng)可以在同一場景下識別出4個不同的游戲者,但實(shí)際上,微軟亞洲研究院的技術(shù)可以讓同一場景下識別8個不同人成為可能。
“我們大量運(yùn)用機(jī)器學(xué)習(xí)的技術(shù)才能讓Kinect如此成功。而也正是這些能夠讓計算機(jī)像人類一樣看得見、聽得到的技術(shù)讓計算機(jī)識別出不同的場景和情境,從而讓計算機(jī)擁有人類的感官,能夠像我們一樣互動和思考。”Rashid說。
“想”你所想
從“識別”和“感知”出發(fā),計算機(jī)除了能提供自然互動之外,微軟的研究團(tuán)隊希望走得更遠(yuǎn),讓計算機(jī)的角色越來越多地從“執(zhí)行你的命令”,轉(zhuǎn)變?yōu)?ldquo;代表你來工作”。
Eric Horvitz是微軟研究院從事人工智能研究的工程師,在他位于微軟總部雷德蒙的辦公室外有一個機(jī)器“助理”。那看上去是一臺顯示器,顯示的是一個3D模擬的女性形象——關(guān)鍵是,“她”可以和前來拜訪Horvitz博士的每個人自如對話,和你談?wù)撎鞖狻⒋_認(rèn)與Horvitz博士約定的會議是否準(zhǔn)時。更神奇的是,如果是多人一同到達(dá)前臺,“她”甚至可以從人們的行為舉止判斷出其中幾個人是否是同伴,把來客區(qū)分成不同的組別,依次問候并安排相應(yīng)的事務(wù)——這儼然具有人類的模糊判斷能力。
“很多人一談到自然用戶界面,就認(rèn)為他們需要明確地指示計算機(jī)去做某些事情,或者去控制什么設(shè)備。一直以來,計算機(jī)的主要任務(wù)是執(zhí)行人們的直接命令。”微軟高級副總裁Rashid說,“實(shí)際上,我們可以通過提高計算機(jī)對人類意圖的理解能力,使它們的行為更像人類的‘助手’,甚至接近人類本身——能夠了解人們的想法,預(yù)測人們的需求,并妥善執(zhí)行任務(wù)。”而這一切隨著計算機(jī)計算能力的極大提升,以及云計算和社交計算的普及而成為可能。
微軟亞洲研究院院長洪小文指出,計算機(jī)有可能從收集到的大量用戶行為、習(xí)慣信息和數(shù)據(jù)上進(jìn)行分析和判斷,從而識別出特定請求是在何種情境下提出的,并根據(jù)這種情境,預(yù)想到用戶的需要,做出適當(dāng)?shù)姆磻?yīng)。
“人機(jī)一體”正逐漸成為現(xiàn)實(shí)。微軟有一個研究小組專門考察人們的駕駛習(xí)慣。研究人員發(fā)給測試者GPS定位器,用于跟蹤他們駕駛汽車的動向等信息。在獲得這些信息的基礎(chǔ)上,研究人員開發(fā)出了一套系統(tǒng),當(dāng)用戶啟動車輛后,系統(tǒng)就能迅速推測出用戶想去的地方。其實(shí)原理并不復(fù)雜,就如同一對夫婦共乘一輛汽車,即便開車的丈夫不告訴乘車的妻子汽車開向何方,通過汽車經(jīng)過的橋梁、高速公路等標(biāo)志性地標(biāo),并結(jié)合丈夫的駕車習(xí)慣,妻子通??梢酝茰y出目的地是哪里。
研究人員開發(fā)的這套系統(tǒng)正是這樣,通過各種信息及用戶習(xí)慣判斷出用戶想去的地方。在分析出目的地這個關(guān)鍵信息之后,系統(tǒng)很容易根據(jù)實(shí)時交通信息,向駕駛者推薦最佳路線——在今天顯然是種非常成熟的應(yīng)用,但是對于主動判斷出目的地方向,則是一個極大的進(jìn)步。
在Rashid看來,“如果我們能夠讓系統(tǒng)更聰明地理解用戶,并建立良好的人類行為模型,系統(tǒng)就能夠更好地執(zhí)行使命,為人類服務(wù),這樣自然用戶界面也會有更顯著的現(xiàn)實(shí)意義。