NPC有望自主思考？研究者用25個智能體創(chuàng)造出一座虛擬小鎮(zhèn)

發(fā)布時間：2023-04-11 21:11:46

編輯:

來源:網(wǎng)易游戲

字體：大中小

NPC是游戲中必要的組成部分，相應(yīng)地，玩家也經(jīng)常吐槽NPC們像是復(fù)讀機，只能簡單重復(fù)固定的對話或演出，在一些極端狀況下，NPC演出與劇情不匹配甚至?xí)o人帶來割裂感。

要改變這種情況，以前需要開發(fā)者們投入更多時間、精力，設(shè)計更復(fù)雜的腳本和更多對話。盡管隨著技術(shù)發(fā)展，這類情況整體來說有所改善，但很難從根源上解決問題，哪怕是前段時間頗受關(guān)注的“AI編劇寫作工具”，也僅是幫助編劇從AI生成的對話和場景中做出選擇，并不能真正賦予NPC自主行動和交流的能力。偶爾，我們也會暢想“當(dāng)玩家不在的時候，NPC們都會做些什么”，但我們也知道，那是一種藝術(shù)上的想象，并非真實。

然而，假如這個構(gòu)想也能成真，讓虛擬角色擁有思考、記憶等等能力，讓他們像個活人一樣在虛擬世界里生活、工作、社交，又會變成什么樣？

(資料圖)

不久前，美國斯坦福大學(xué)和Google Research的研究者們發(fā)表了一篇相關(guān)論文，很快引起了關(guān)注。按照論文的描述，研究者們在一個類似沙盒游戲的場景中成功構(gòu)建了一個小鎮(zhèn)，小鎮(zhèn)里有25個生成式智能體（Generative Agent）。在論文附上的Demo中，智能體們能通過基于ChatGPT 3.5的大型語言模型生成可信的行為，在小鎮(zhèn)中模擬人類的生活方式，自主完成基本的日?；顒雍蜕缃唬踔凉餐瑓⑴c了一個情人節(jié)派對。

研究者給生成式智能體的定義是：他們能對自己、其他智能體和他們身處的環(huán)境進行多樣化的推斷；他們能制訂反映自身特征和經(jīng)驗的日常計劃，執(zhí)行這些計劃，作出反應(yīng)，并在合適的狀況下重整計劃；在終端用戶（在論文中即為研究者與測試者）改變他們的環(huán)境或用自然語言下達命令時作出反應(yīng)。

25位生成式智能體開始了他們的一天

為了方便理解，也更貼近游戲的語境，我們暫時將這些智能體稱為NPC。

論文中提及的小鎮(zhèn)由幾幢功能完備的住房和一些社交場所組成，包括咖啡館、酒吧、學(xué)校、宿舍和房屋。每個建筑內(nèi)都有相應(yīng)的可互動物品，比如爐子、水池、衣柜、書桌等。

研究者會賦予每個NPC一個基礎(chǔ)人設(shè)，他們的日常行為都圍繞這個基礎(chǔ)人設(shè)進行。比如Abigail Chen是一名藝術(shù)家，正在為一個動畫項目工作，旨在激發(fā)低收入人群的創(chuàng)造力。所以，她除了花大量時間進行動畫制作外，還會與擅長寫作的另一位NPC討論合作事宜，也會與其他NPC交流如何更有效地推廣她的理念。除了基礎(chǔ)人設(shè)外，這些對話和關(guān)系的構(gòu)建均由NPC自主生成。

終端用戶也能用自然語言直接控制小鎮(zhèn)中的場景和人物行為。比如，研究者可以設(shè)定兩位NPC互相愛慕，并要求另一位NPC舉辦派對。研究者也可以讓房屋中的某個用品損壞，觀察NPC的反應(yīng)。

每個NPC對當(dāng)天的生活都有自己的規(guī)劃

在論文中，研究者從兩個方面對這些NPC的行為進行觀察和記錄，并對這些行為的合理性作出評估。

第一，評估他們是否能在獨自行動時作出可信的行為，比如模擬人類每天早上起床做早飯、洗漱、吃飯，然后換衣服出門的過程。

第二，評估他們能否在一定時間內(nèi)（研究者取用了小鎮(zhèn)中2天的時間）與周圍的其他NPC和環(huán)境進行合理交互，甚至彼此合作，構(gòu)建新的關(guān)系。比如，洗手間被占用時NPC會在一旁等待，發(fā)現(xiàn)水龍頭漏水時NPC會嘗試維修。在對話當(dāng)中，NPC應(yīng)當(dāng)根據(jù)自己被設(shè)定的基礎(chǔ)人設(shè)對答，并且記住在此前的對話、互動中獲得過的信息，在行為上具有連貫性。

其中，保證行為的連貫性這一點比較困難。因為NPC并不存在真正的“記憶”，可能會忘記基礎(chǔ)人設(shè)之外的環(huán)境給自己帶來的改變。所以，研究者構(gòu)建了一個“記憶—計劃—反思”的框架模型。

準確地搜索和調(diào)取記憶流中的數(shù)據(jù)是件很有技術(shù)含量的事

在這個模型中，“記憶”指的是NPC在感知到環(huán)境后，會把環(huán)境特征記錄在記憶流中。在面臨新狀況時，NPC會對記憶流中的數(shù)據(jù)進行檢索，根據(jù)檢索到的結(jié)果進行推理，再決定如何反饋。

模型中的“計劃”是指，NPC會先把當(dāng)天的大致計劃（比如起床、上課、完成作業(yè)、睡覺）儲存在記憶流中，再把計劃分解成各種細化的行為，以便根據(jù)實時狀況調(diào)整計劃。

“反思”則是一種更高級的記憶，促使NPC通過已知數(shù)據(jù)推斷，形成更高級的思維。用以反思的數(shù)據(jù)不僅可以來自當(dāng)事NPC自己的觀察，也可以來自其他NPC的觀察。

具體來說就是，首先，研究者需要讓NPC確定反思的內(nèi)容。舉個例子，研究者在Demo中用大型語言模型查詢記憶流中的100條最新記錄，其中包含“Klaus Mueller正在閱讀一本關(guān)于城市化的書”“Klaus Mueller正在與圖書管理員談?wù)撍难芯宽椖俊薄?圖書館的桌子目前沒人在用”等數(shù)據(jù)。

接下來，NPC需要思考根據(jù)這些信息能問出哪些比較高級的問題，比如：“Klaus Mueller對什么話題充滿熱情？” “Klaus Mueller和Maria Lopez之間的關(guān)系是什么？”最終，NPC也許會在反思后得出結(jié)論，認為Klaus Mueller正在致力于他對城市化的研究。這相當(dāng)于這名NPC對Klaus Mueller產(chǎn)生了新的認識，今后他們也許會圍繞這一認識在與Klaus Mueller的交往中作出反應(yīng)。

“反思”能讓NPC通過已有數(shù)據(jù)得出一些更高級的結(jié)論

總之，這篇論文和Demo用沙盒地圖和ChatGPT中的語言模型，構(gòu)筑了一個看起來像模像樣的虛擬小鎮(zhèn)以及當(dāng)中的虛擬居民。雖然居民的活動范圍不大，生成的交互類型與事件也比較簡單，但人們已經(jīng)能通過它看到虛擬人物自主生活、自主交往的雛形。在Demo中，NPC們的種種反饋都是由基本的尋路移動和文字形式給出的，效果還比較簡陋，但它展示出的可能性顯然難以估量。

按照這個邏輯發(fā)展下去，我們很難不聯(lián)想到一些科幻片式的問題，諸如“創(chuàng)造一個全部由AI組成的虛擬世界，成熟后與真實世界對接”“《失控玩家》或者《西部世界》里的游戲世界會不會成真”“這算不算高維生命創(chuàng)造了低維生命”之類的——在此之前，其實已經(jīng)有許多藝術(shù)作品討論過類似的東西了，也沿著這些思路虛構(gòu)和想象了一些情節(jié)和場景，有喜有憂。一旦這樣的想象成為現(xiàn)實，真正的發(fā)展方向目前其實還很難輕易判斷。

不過，這些應(yīng)用對游戲開發(fā)者和玩家們來說是相當(dāng)熟悉的。這篇論文展示出的前景可以讓未來的開發(fā)者們更加智能、更加真實地生成游戲中NPC的行為。假如相關(guān)技術(shù)再成熟一些，開發(fā)者也許就可以像論文中的研究者一樣，只需要用自然語言輸入一系列設(shè)定，NPC們就能自動根據(jù)玩家的行為以及玩家對周遭環(huán)境的改變作出反饋。

這篇論文發(fā)表后得到了大量的關(guān)注，也許從側(cè)面上說明了人們對這種活生生擺在眼前的虛擬樂園的贊嘆與驚詫。更何況，論文中使用的是ChatGPT 3.5語言模型，隨著版本迭代更新，未來還有很大進步空間。至少在游戲領(lǐng)域，人們對更生動、更豐富的虛擬角色的交互始終有著旺盛的需求，甚至可以說有一種浪漫化的、真情實感的憧憬——這篇論文中的實驗也許是一個好的開始。

最后附上論文和Demo的具體網(wǎng)址，論文中對如何實現(xiàn)這些功能有相當(dāng)詳細的描述，有興趣的讀者可以進一步自行研究。

標簽：

　　 原標題：NPC有望自主思考？研究者用25個智能體創(chuàng)造出一座虛擬小鎮(zhèn)