DeepMind新論文:給側面照片,AI給你腦補出正面


用小立方體搭一個幾何體,使它的主檢視和俯檢視如圖所示,這樣的幾何體最多需要多少個小立方體?最少需要多少個小立方體?

DeepMind新論文:給側面照片,AI給你腦補出正面

大家在學生時代可能都面對過這些涉及空間想象的幾何題。從根本上,它們考驗的是2D影象和3D場景間的轉換能力。如今,人工智慧也成功打破了這種“次元壁”。

一手打造史上最強圍棋AI“阿爾法狗”的英國DeepMind團隊,宣佈其新開發的一種機器學習系統能在無人監督的情況下,從幾個角度“觀察”特定場景,然後生成該場景在其他角度上的樣子。

相關論文發表在北京時間6月15日凌晨的世界頂級學術期刊《科學》上。

DeepMind新論文:給側面照片,AI給你腦補出正面

人工智慧“看”到的2D幾何體圖片(左)和生成的3D幾何體(右)

具體來說,這個名為生成查詢網路(Generative Query Network, GQN)的系統分為兩個部分:表示網路和生成網路。表示網路負責從2D樣本影象中提取出一套用來表現場景的編碼,而生成網路則可以輸出該場景在新視角上的可能影象。在這個過程中,網路也會考慮到不確定因素,比如場景影象存在部分模糊。

Seyed Mohammadali Eslami團隊用電腦合成了虛擬的場景,其中包含不同物體和多個光源。他們用幾張不同角度的場景圖片訓練計算機後,系統就能夠生成該場景在任意角度上的影象。

甚至,當研究團隊去除、增加場景中的物體,或者更改部分物體的形狀或顏色後,系統依然能夠得出相應的結果,並不需要人類向計算機解釋“形狀”和“顏色”的概念。研究團隊認為,這表明人工智慧並不是僅僅是在“拼湊”場景。

現在的機器學習方法需要大量經人類標註的資料進行訓練,比如輸入成千上萬張貓的照片教會計算機識別出“貓”這個物種。而這種新的神經網路只需要少數幾張2D圖片,無需人類標註。這為未來人工智慧開闢了一條自主的新道路:人工智慧可以通過自身攜帶的感測器觀察並還原這個世界。

DeepMind新論文:給側面照片,AI給你腦補出正面

人工智慧通過虛擬迷宮不同地點的圖片,還原出相應場景。

比如,把這套系統應用在機械臂控制上的話,計算機只需要一個固定的攝像頭記錄2D影象,就能理解機械臂的運動情況。定位和控制機械臂所需採集的資料量就會大大減少。


Sharing is caring!

未经允许不得转载:壹头条 » DeepMind新論文:給側面照片,AI給你腦補出正面

赞 (0)