經(jīng)過7萬小時訓(xùn)練,OpenAI宣布做出了最強(qiáng)的《我的世界》AI

發(fā)布時間:2022-11-29 06:02:49
編輯:
來源:網(wǎng)易游戲
字體:

視頻是種潛力巨大的培訓(xùn)資源。

Open AI最近公布了一項他們在人工智能領(lǐng)域的最新成果——最擅長玩《我的世界》的AI。

厲害到什么程度?無論是建造地堡、金字塔這些復(fù)雜的建筑,跟游戲里的惡龍戰(zhàn)斗,亦或是“白手起家”,制造出稀有的鉆石工具都不在話下,這些任務(wù)即使是交給熟練的人類玩家來做,往往也需要數(shù)十分鐘的流程以及上萬個點擊操作。


(相關(guān)資料圖)

AI學(xué)會自己建造傳送門

而該AI在經(jīng)過訓(xùn)練后,則可以在沒有任何外力輔助的情況下自主完成這一系列事件,這是此前其他AI都無法做到的。根據(jù)Open AI的介紹,能夠?qū)崿F(xiàn)這一成果,依靠的是在模仿學(xué)習(xí)(imitation learning)技術(shù)上的新突破。

在這項技術(shù)中,AI會被訓(xùn)練成通過觀察并模仿人類的行為來完成相應(yīng)的任務(wù),此前很多效果都運用到了類似的原理,比如控制機(jī)械手臂或者駕駛汽車。

既然AI需要觀察模仿,那么就勢必需要一定量的素材,而單就“熟練操作《我的世界》”而言,各大視頻網(wǎng)站上的學(xué)習(xí)素材其實已經(jīng)非常多,完全能夠滿足AI的學(xué)習(xí)需要。

但問題是,還需要另一項額外的工作,即“讓AI準(zhǔn)確理解視頻里的內(nèi)容”。

《我的世界》是一款沒有明確目標(biāo)的游戲,雖然網(wǎng)上素材繁多,可并不能直接拿來當(dāng)作學(xué)習(xí)資料,因為視頻里的每個動作和操作,其實都需要人類為其貼上“標(biāo)簽”,也就是做出相應(yīng)的注釋,才能AI明白操作的含義。

如果每個動作都需要人工注釋,那效率自然會降低,為了解決這個問題,研究人員想出了一項新方法——訓(xùn)練能夠自動為視頻操作貼標(biāo)簽的AI。

他們先是召集了一批志愿者玩家來操作游戲,并保留了玩家們的按鍵記錄,在得到2000個小時的游戲數(shù)據(jù)后,研究人員訓(xùn)練了一個新的模型,并人工將按鍵操作與游戲里的效果一一對應(yīng),比如在什么情況下點擊鼠標(biāo)會讓人物揮動斧頭。

下一步便是用這個模型來處理網(wǎng)上海量的《我的世界》視頻,為他們貼上讓AI能夠理解的標(biāo)簽。根據(jù)公布的數(shù)據(jù),為了得到理想的效果,科研人員提供的視頻素材長達(dá)70000個小時。

而這確實也獲得了一定的成果,比如像開頭說的那樣,AI已經(jīng)學(xué)會了如何自己制作鉆石工具。而Open AI的負(fù)責(zé)人Bowen Baker表示:“我們覺得《我的世界》是一個很好的研究領(lǐng)域?!?/p>

由于《我的世界》沒有明確的輸贏且自由度極高,所以研究人員可以訓(xùn)練AI執(zhí)行更多復(fù)雜的任務(wù),而他們認(rèn)為這些工作最終可以反哺到現(xiàn)實——如果AI能在游戲里設(shè)計一張桌子,那么在現(xiàn)實里沒準(zhǔn)也行。

標(biāo)簽: 我的世界 研究人員 鉆石工具

   原標(biāo)題:經(jīng)過7萬小時訓(xùn)練,OpenAI宣布做出了最強(qiáng)的《我的世界》AI

>更多相關(guān)文章
最近更新