日韩欧美视频一区二区三区,日本高清中文字幕一区二区三区,亚洲四虎在线,日本激情网

環(huán)球企業(yè)家:微笑有術(shù)

2011-01-26 12:05:04      徐冠群

  微笑有術(shù)

  10年前,索尼的機(jī)器數(shù)碼狗能辨認(rèn)出主人?,F(xiàn)在,它的數(shù)碼相機(jī)能自動(dòng)捕捉笑容。10年后呢?

  文 《環(huán)球企業(yè)家》記者 徐冠群

  想在人群擁擠的大型商場(chǎng)或車(chē)站渾水摸魚(yú)的人小心了:不久后,公共場(chǎng)所的監(jiān)控?cái)z像頭將能自動(dòng)識(shí)別并鎖定行為可疑者。開(kāi)車(chē)的人則可更放心,車(chē)載識(shí)別系統(tǒng)能迅速發(fā)現(xiàn)出沒(méi)在行車(chē)路線前方的人,并采取措施避免相撞。馬虎的人也能生活得更容易,鑰匙和門(mén)卡將成為歷史,面孔就是最好的通行證。

  這些看似簡(jiǎn)單卻尚未實(shí)現(xiàn)的未來(lái),不屬于科幻電影,而屬于索尼研究院。它們的共同特征是涉及對(duì)人的面部和姿態(tài)的識(shí)別。索尼研究院的大型計(jì)算機(jī)通過(guò)統(tǒng)計(jì)、分析收集到的海量人臉數(shù)據(jù),從數(shù)以千萬(wàn)計(jì)的樣本中找到人臉的共通特點(diǎn)。再將面部信息分解成各種特征元素集,構(gòu)建機(jī)器可識(shí)別的人臉特征量,通過(guò)大量數(shù)據(jù)演算以確定這是不是人臉。

  至少現(xiàn)在,索尼智能寵物AIBO機(jī)器狗已能從眾多面孔中識(shí)別出主人,像真正的寵物一樣只對(duì)他做出親密表示。從2007年開(kāi)始,“人臉識(shí)別”和“微笑快門(mén)”成為索尼Cyber-shot數(shù)碼相機(jī)的新功能。

  當(dāng)用戶用這種數(shù)碼相機(jī)取景時(shí),相機(jī)自帶的人臉識(shí)別算法會(huì)以從左上角到右下角的順序?qū)φ麄€(gè)畫(huà)面進(jìn)行全面掃描,并根據(jù)相機(jī)中存儲(chǔ)的標(biāo)準(zhǔn)人臉模板信息尋找與之匹配的圖形信息。這兩種功能不僅能識(shí)別出鏡頭中有幾張人臉、他們是否在笑,還能自動(dòng)捕捉下笑容最燦爛時(shí)的畫(huà)面。此外,用戶還可以自行設(shè)置不同的歡笑程度,以及優(yōu)先捕捉大人還是孩子的笑容等。在已高度同質(zhì)化的數(shù)碼相機(jī)中,這些功能為Cyber-shot贏得很多好評(píng)。

  僅此而已還不足夠激動(dòng)人心,畢竟由人來(lái)完成這樣的判斷只須瞥一眼,但這只是起點(diǎn)。索尼希望機(jī)器對(duì)人的識(shí)別能像人眼觀察一樣精準(zhǔn),這意味著機(jī)器能閱讀出你的喜怒哀樂(lè)和各種動(dòng)作語(yǔ)言。再加上機(jī)器遠(yuǎn)勝于人腦的信息存儲(chǔ)和運(yùn)算能力—同時(shí)分辨數(shù)千人的表情和姿態(tài)時(shí)機(jī)器的效率和準(zhǔn)確性遠(yuǎn)勝于人,真正的革命才剛剛開(kāi)始。

  實(shí)驗(yàn)室進(jìn)階

  索尼對(duì)機(jī)器識(shí)別人類(lèi)的興趣可追溯至1999年,當(dāng)時(shí)它推出機(jī)器狗“AIBO”。這個(gè)同時(shí)滿足了人們對(duì)機(jī)器人和寵物雙重愛(ài)好的產(chǎn)品能識(shí)別并追逐粉紅色的球體,但這顯然不夠。“我們希望AIBO至少能認(rèn)出主人的臉,根據(jù)主人的行動(dòng)有所反應(yīng),這樣才有更多更好的感情交流。”從事索尼人機(jī)交互技術(shù)開(kāi)發(fā)的智能系統(tǒng)研究室高級(jí)研究員大久保厚志對(duì)《環(huán)球企業(yè)家》說(shuō)。因此,從1999年開(kāi)始,大久保和一個(gè)不到10人的團(tuán)隊(duì)便為AIBO開(kāi)發(fā)人臉識(shí)別技術(shù)。這一決定的更深層原因是,當(dāng)時(shí)索尼研發(fā)的負(fù)責(zé)人相信未來(lái)會(huì)是機(jī)器人時(shí)代,屆時(shí)機(jī)器辨認(rèn)人是一切創(chuàng)造的基礎(chǔ),索尼必須盡早開(kāi)始累積相關(guān)技術(shù)。

  通常實(shí)驗(yàn)室研究都始于不存在的理想環(huán)境,然后漸漸加入更多真實(shí)環(huán)境中的變量,由簡(jiǎn)入難。但AIBO活動(dòng)于非常復(fù)雜的家庭環(huán)境,需要識(shí)別的人臉不是以做電影特效時(shí)常用的藍(lán)幕或綠幕做背景,而是混雜于各種家具和物品中,同時(shí)還有逆光和背光的問(wèn)題。而且,機(jī)器狗看人的角度是從下往上,這比平視的正面掃描識(shí)別更難。

  所以,從一開(kāi)始,大久保及其同事就面臨諸多意想不到的難點(diǎn)。他們?cè)趯?shí)驗(yàn)室中專(zhuān)門(mén)辟出一大塊空間,建了一個(gè)從燈光、裝修、布置等各種條件都和普通家庭一樣的模擬環(huán)境。這個(gè)仿真空間被稱(chēng)為“驚訝小屋”,大久保們?cè)谄渲凶隽舜罅繉?shí)驗(yàn)和數(shù)據(jù)采集工作。直到2003年,索尼的人臉檢測(cè)技術(shù)才真正在AIBO上取得比較完整的成功,它已經(jīng)能從許多不同面孔中識(shí)別出主人的樣貌。

  2006年索尼重組中為削減成本解散了AIBO團(tuán)隊(duì),但因它開(kāi)發(fā)的人臉識(shí)別技術(shù)卻在研究院中延續(xù)下來(lái)。盡管初期研發(fā)非常困難,一旦成功,索尼就能輕易將這一技術(shù)用于手機(jī)和照相機(jī)等各種消費(fèi)類(lèi)數(shù)碼產(chǎn)品,因?yàn)樽顝?fù)雜的背景辨識(shí)問(wèn)題一開(kāi)始就已解決。在識(shí)別人臉的技術(shù)基礎(chǔ)上,索尼推出笑臉識(shí)別技術(shù)。目前,其Cyber-Shot數(shù)碼相機(jī)、PlayStation游戲主機(jī)和PSP手持游戲機(jī)等產(chǎn)品線上都有基于人臉識(shí)別技術(shù)的功能。比如,PlayStation 3上存放的照片可以自動(dòng)按照嬰幼兒、年輕人、老年人等分類(lèi),也可按照有笑容、沒(méi)笑容等分類(lèi)。

  一個(gè)技術(shù)成熟后,進(jìn)階到下一步研發(fā)是最自然的選擇。2005年,索尼就開(kāi)始思考,除了讓機(jī)器知道“這是人臉”,還要在遠(yuǎn)處讓它們知道“這里有人”,并把人體識(shí)別從面部擴(kuò)展到整個(gè)人的姿態(tài)。這一步中,索尼中國(guó)研究院扮演了重要角色。

  姿態(tài)識(shí)別的原理和人臉識(shí)別相同,都是在海量樣本基礎(chǔ)上以統(tǒng)計(jì)學(xué)分析和大型計(jì)算機(jī)運(yùn)算建立標(biāo)準(zhǔn),再將目標(biāo)拆解成數(shù)據(jù)與標(biāo)準(zhǔn)核對(duì)。復(fù)雜之處在于,人的表情無(wú)論怎么變化,五官形狀和位置都相對(duì)固定,但整個(gè)人體不僅胖瘦、高矮等變量更多,單個(gè)人姿勢(shì)變化角度也更大。而且,在人流量大的公共場(chǎng)合等地,經(jīng)常出現(xiàn)人物彼此重疊的情況。當(dāng)人的身體被遮擋,機(jī)器和算法就很難判斷這是不是人。

  更復(fù)雜的情況意味著索尼中國(guó)研究院需要采用更多技術(shù),開(kāi)發(fā)出描述能力更強(qiáng)的模型。負(fù)責(zé)這一研究的索尼中國(guó)研究院研發(fā)部副總監(jiān)吳偉國(guó)博士對(duì)《環(huán)球企業(yè)家》表示,姿態(tài)識(shí)別中采用了描述能力更強(qiáng)的特征對(duì)人體進(jìn)行檢測(cè),即使是被遮擋的人體目標(biāo)一旦出現(xiàn),就能被抓取出來(lái),同時(shí)可以配合人臉識(shí)別技術(shù),對(duì)其進(jìn)行全程追蹤和識(shí)別。

  辨別“人”與“非人”的索尼姿態(tài)識(shí)別技術(shù)最早于2009年在面向游戲開(kāi)發(fā)者的大會(huì)CEDEC上發(fā)布。除了游戲,索尼還試圖將其用于安全防護(hù)領(lǐng)域。

  成為商品

  從人臉識(shí)別技術(shù)的研發(fā)不難看出,索尼研究院的應(yīng)用項(xiàng)目與其相關(guān)產(chǎn)品結(jié)合緊密。如果微軟的研究院樂(lè)于為某項(xiàng)技術(shù)發(fā)表一系列論文,索尼更愿意將這項(xiàng)技術(shù)用于它的數(shù)碼相機(jī)等消費(fèi)電子產(chǎn)品上。

  即便如此,大久保仍然認(rèn)為人臉識(shí)別中最困難的不是技術(shù)問(wèn)題,而是說(shuō)服產(chǎn)品部門(mén)接受他們的技術(shù)。2003年在AIBO上取得全面成功后,他們就希望將這一技術(shù)推廣到索尼其他產(chǎn)品,但到2005年索尼DVD錄像機(jī)首次采用人臉識(shí)別,已是兩年之后。

  大久保對(duì)《環(huán)球企業(yè)家》回憶道,其他部門(mén)也承認(rèn)他們的技術(shù)很酷,卻不知道應(yīng)該怎么用到自己的產(chǎn)品里。雙方認(rèn)知的落差之一在于,產(chǎn)品事業(yè)部對(duì)于識(shí)別技術(shù)最自然的聯(lián)想是應(yīng)該達(dá)到相當(dāng)高的精度,而不只是機(jī)器狗辨認(rèn)出主人而已。“但當(dāng)時(shí)技術(shù)做不到太高精度,更多考慮是如何識(shí)別出目標(biāo)。不用太高精度就可以為消費(fèi)者提供更有趣的娛樂(lè)方式,這有一定的容錯(cuò)率。”大久保說(shuō)道。

  事實(shí)證明這種意見(jiàn)的正確。在將人臉識(shí)別技術(shù)運(yùn)用于PlayStation 3時(shí),因?yàn)槲催_(dá)100%精確度,索尼擔(dān)心消費(fèi)者負(fù)面反饋而沒(méi)有在宣傳和介紹時(shí)提及這一技術(shù),只將其作為智能幻燈片的功能之一,比如可將某個(gè)人的照片自動(dòng)識(shí)別出來(lái)集中播放。但出乎意料的是,消費(fèi)者認(rèn)為這一功能識(shí)別非常準(zhǔn)確,甚至有人把識(shí)別的照片做成短片放在YouTube上。

  此外,技術(shù)應(yīng)用于產(chǎn)品時(shí),追求的不是單純的性能優(yōu)越,必須同時(shí)考慮實(shí)現(xiàn)性能所需的各種“成本”,比如需要消耗的內(nèi)存容量、計(jì)算能力、電量和新增的生產(chǎn)成本等。DVD錄像機(jī)和數(shù)碼相機(jī)這樣的小型數(shù)碼產(chǎn)品的存儲(chǔ)和運(yùn)算條件遠(yuǎn)不如實(shí)驗(yàn)室里的超級(jí)計(jì)算機(jī)。如果只是為了增加一項(xiàng)有趣的笑臉識(shí)別功能而使Cyber-shot數(shù)碼相機(jī)變得反應(yīng)遲緩、耗電量增加,當(dāng)然得不償失。

  因此,大久保等人需要從大量的識(shí)別特征量中挑選出既能準(zhǔn)確識(shí)別,又不會(huì)占用過(guò)多資源的那些。其中最大的挑戰(zhàn)是2007年人臉識(shí)別應(yīng)用于索尼愛(ài)立信手機(jī)上時(shí)。受限于體積、手機(jī)的運(yùn)算能力和電池容量都比其他電子產(chǎn)品更小,只要裝載過(guò)大的應(yīng)用程序,就可能運(yùn)行緩慢。為此,索尼研發(fā)團(tuán)隊(duì)放棄了能帶來(lái)更好識(shí)別精確度卻很消耗運(yùn)算能力的浮點(diǎn)運(yùn)算,盡可能以整數(shù)運(yùn)算建立算法模型。

  在經(jīng)歷種種波折后,現(xiàn)在人臉識(shí)別技術(shù)已經(jīng)成為索尼眾多產(chǎn)品必備功能之一。頗為明顯的轉(zhuǎn)變是,2003年索尼剛開(kāi)始“推銷(xiāo)”人臉識(shí)別技術(shù)時(shí),大久保等需要不斷與各個(gè)產(chǎn)品事業(yè)部反復(fù)溝通,講述使用這個(gè)技術(shù)的好處?,F(xiàn)在,他們已擺脫推銷(xiāo)員的身份,越來(lái)越多的產(chǎn)品在一開(kāi)始的醞釀和設(shè)計(jì)時(shí),就會(huì)主動(dòng)考慮怎么樣將人臉識(shí)別功能融合進(jìn)來(lái),并且做得更有趣。

相關(guān)閱讀