咨詢電話
021-80392549
Minecraft可能聽起來不像是一個支持高級人工智能研究的重要工具。畢竟,教一臺機(jī)器玩一個十多年前發(fā)布的沙盒游戲哪有如此重要?但基于OpenAI最近的努力,一個訓(xùn)練有素的Minecraft機(jī)器人與人工智能的進(jìn)步比大多數(shù)人可能意識到的更有關(guān)系。
OpenAI一直專注于造福人類的人工智能(AI)和機(jī)器學(xué)習(xí)的進(jìn)步。最近,該公司利用超過7萬小時的游戲視頻,成功地訓(xùn)練了一個機(jī)器人玩Minecraft。這一成就遠(yuǎn)遠(yuǎn)超出了機(jī)器人玩游戲的范疇,它標(biāo)志著使用觀察和模仿的先進(jìn)機(jī)器學(xué)習(xí)向前邁出了一大步。
OpenAI的機(jī)器人是模仿學(xué)習(xí)(也稱為"監(jiān)督學(xué)習(xí)")的一個優(yōu)秀范例。與強(qiáng)化學(xué)習(xí)不同的是,學(xué)習(xí)代理在通過試驗(yàn)和錯誤達(dá)到目標(biāo)后會得到獎勵,而模仿學(xué)習(xí)則是通過觀察人類完成特定任務(wù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。在這種情況下,OpenAI利用現(xiàn)有的游戲視頻和教程,教他們的機(jī)器人執(zhí)行復(fù)雜的游戲序列,這需要典型的玩家花大約24000個單獨(dú)的動作來實(shí)現(xiàn)。
模仿學(xué)習(xí)需要對視頻輸入進(jìn)行標(biāo)記,以提供動作和觀察結(jié)果的背景。不幸的是,這種方法可能是高度勞動密集型的,導(dǎo)致可用的數(shù)據(jù)集有限。這種可用數(shù)據(jù)集的短缺最終限制了代理人通過觀察學(xué)習(xí)的能力。
OpenAI的研究團(tuán)隊沒有通過廣泛的手工數(shù)據(jù)標(biāo)記工作,而是使用了一種特定的方法,即視頻預(yù)訓(xùn)練(VPT),以大大擴(kuò)展可用的標(biāo)記視頻的數(shù)量。研究人員最初捕獲了2000個小時的有注釋的Minecraft游戲,并使用它來訓(xùn)練一個代理將特定的行動與屏幕上的特定結(jié)果聯(lián)系起來。然后,所產(chǎn)生的模型被用來為網(wǎng)上現(xiàn)成的70000小時之前沒有標(biāo)簽的Minecraft內(nèi)容自動生成標(biāo)簽,為Minecraft機(jī)器人提供了一個更大的數(shù)據(jù)集來審查和模仿。
整個練習(xí)證明了可用視頻庫的潛在價值,如YouTube,作為人工智能訓(xùn)練資源。機(jī)器學(xué)習(xí)科學(xué)家可以利用現(xiàn)有的和適當(dāng)標(biāo)記的視頻來訓(xùn)練人工智能進(jìn)行特定的任務(wù),從簡單的網(wǎng)絡(luò)導(dǎo)航到幫助用戶滿足現(xiàn)實(shí)生活中的物理需求。