
人類很自然地就學會如何將他們在世界上的位置與他們從世界上收集到的信息聯(lián)系起來,并學習如何根據(jù)此類信息采取行動。例如,如果有人向另一個人扔球,而時間足夠的話,人類可以學會衡量他們與球的關系,并舉起手來接住球,該過程稱為“主動感知”(active perception),可讓人類根據(jù)感覺預測未來的動作。
人類的感覺系統(tǒng)和運動系統(tǒng)是統(tǒng)一的,意味著一個事件的記憶包含了此類信息的組合。另一方面,機器人和無人機等系統(tǒng)的攝像頭和運動是獨立的系統(tǒng),有獨立的數(shù)據(jù)流。如果能夠將此類數(shù)據(jù)結合,機器人和無人機就能夠創(chuàng)造自己的“記憶”,并能更有效地學習以模仿主動感知。
研究人員使用了iniLabs的DAVIS 240b DVS(動態(tài)視覺傳感器)和高通公司的 Flight Proboard。DAVIS 240b DVS只會對場景中的變化做出反應,類似于人類眼睛中的神經(jīng)元只在感受到光線變化時才會發(fā)出信號,而高通的 Flight Proboard安裝在一個四軸無人機上。
使用一種稱為多維二進制向量(HBV)的數(shù)據(jù)表現(xiàn)形式,無人機攝像頭的信息和無人機速度信息被存儲在相同的數(shù)據(jù)記錄中。然后,卷積神經(jīng)網(wǎng)絡(CNN)只有DVS的視覺記錄可作為參考,需要記住無人機采取的動作。卷積神經(jīng)網(wǎng)絡能夠通過參考攝像頭和速度數(shù)據(jù)結合產(chǎn)生的“記憶”,在所有的實驗中,都能100%地準確完成任務。
相比于兩個分開的數(shù)據(jù)流,該實驗的原理是可以讓機器視覺系統(tǒng)更快地參考事件和反應數(shù)據(jù),在捕捉到特定的視覺數(shù)據(jù)時,可讓機器人或自動駕駛汽車預測未來采取的動作,即基于輸入的感知數(shù)據(jù)預測動作。或者,更簡單地說,想象未來發(fā)生的事件,并提前思考好下一步動作。