• 降噪 | denoise
  • Posts
  • EP09 - AI 加值遊戲產業與用 GPT-4o 寫了一個俄羅斯方塊

EP09 - AI 加值遊戲產業與用 GPT-4o 寫了一個俄羅斯方塊

Copilot | Gameing | GPT-4o | Stable Diffusion

歡迎來到降噪,一起消除雜訊洞察價值

OVERVIEW
本期重點

  • 為何我看好生成式 AI 加值遊戲產業

  • 只用了兩步驟就用 GPT-4o 寫了一個俄羅斯方塊

  • Stable Diffusion 的新玩法

SHAREING
為何我看好生成式 AI 加值遊戲產業

上週 Microsoft Build 大會上公開了一個相當有潛力的 AI 應用,那就是 Minecraft Copilot。

Minecraft 是銷售超過三億套的沙盒式建造遊戲,玩家可以在隨機生成的世界中生存、建造以及探索。

在展示影片中,當使用者打開 Minecraft 遊玩時。

Copilot 馬上透過你分享給它的畫面認出你正在玩 Minecraft,並且可以透過與 Copilot 交談的方式協助玩家打造裝備。

看起來只是很普通的 Screen share + LLM 為什麼我會覺得 Minecraft copilot 很有發展性?

▋ Neuro-sama the AI Vtuber

本身不是 Vtuber 的觀眾,因為研究的關係偶然得知了這個作品,如說明有誤請指正。

Neuro-sama 是由 Jack Vedal 於 2018 起所開發的一個 AI Vtuber ,起初只是訓練這個模型來玩超高速的音樂遊戲並搭載一個基礎的語音模型來說話。

經過幾年技術的累積 Neuro-sama 於 2022 年底開始在 Twitch 平台走紅,並擁有超過十萬追隨。

近幾年因為生成式 AI 的興起,Jack Vedal 強化了 Neuro-sama 的各項能力。

現在 Neuro-sama 能在 Jack Vedal 玩 Minecraft 時吐槽他玩的真糟糕,也能夠讀取觀眾的留言即時回覆增加頻道的娛樂性。

它還有擁有記憶與學習的能力,能夠記得觀眾所說的話並學習。

更特別的是 Neuro-sama 可以外借給其他的 Vtuber,與其他的 Vtuber 開台直播。( 是不是很像 Her? )

▋ 虛擬遊戲角色與代理人

Microsoft Copilot 是基於 GPT- 4o 所驅動的,可以想見未來的能力將會與 OpenAI 發佈會上所展示的能力相差無幾。

共通點是由 AI 驅動的 Copilot、Agent 本質上還是透過畫面、文字或聲音的輸入來識別使用者的情境。

是用 Top Down 的方式來包裹。

另一方面,前陣子在 GTC 大會上 Convai 與 NVIDIA 合作推出了一款廣為人知的 Demo。

其中玩家可以與 AI 拉麵廚師 NPC 進行自然的語音對話,並即時生成對話和匹配的面部表情。

更不得不提斯坦福大學博士生 Joon Sung Park 所創建的實驗沙盒遊戲,將 25 個設定各異的 LLM 放入遊戲中並觀察他們的行為。

最後這些 AIs 不只舉辦了情人節派對,共同出席的對象也是它們自己透過對話或其他互動行為邀請來的。

我認為這種方式是 Bottom Up 的方式來建構體驗。

▋ 兩者的交會點

不管是 Copilot、AI NPC 還是 AI Vtuber,我觀察到一個趨勢正在形成。

即這兩者終將交會在一個點上。

從 Top Down 的角度來看,GPT 的能力與記憶是很容易嵌入到遊戲中的。

雖然現在是透過圖像輸入來達成理解的目的,但若是遊戲的開發者能為 GPT 開發指令接收的接口 ( function calling )。

GPT 內嵌到遊戲中也是有機會看到的,甚至可以跟你組隊一起闖關。

透過訓練 GPT 遊戲的認知能力,再外借給其他玩家組隊賺錢?

而從 Bottom Up 的方式來看, 虛擬遊戲角色最終也會突破遊戲的框架跑出來現實中與玩家互動。

而這其實也不是新鮮事,打從遊戲角色 IP 化後,各大廠商無不想方設法的將虛擬角色帶到現實。

透過聯名、二創、電影化等手段虛擬角色也逐漸廣為大眾接受 ( 馬莉歐電影版創下 13 億美金票房 )

再經由 AI 的加持,虛擬角色能更簡單的透過性格綁定與 RAG 的方式,建立專屬的角色樣板。

之後再透過分發的方式滲透到各個應用場景。

試想戰神克雷多斯除了跟你一起玩遊戲,遊戲外還同時擔任你的健身助理 ( 或是教你數學 !? )。

完成遊戲外的任務,它還能把這個記憶帶回遊戲中觸發更多的額外內容。

光想的就覺得很有趣!

▋ 目前遇到的困難

理想總是美好的,以現今的技術搭建上述的功能完全是沒問題的。

困難點在於,大規模且全天候的即時 AI 互動會需要極大的運算成本。

斯坦福大學的研究指出,光是運行 25 個 AIs 兩天的時間就花費他們數千美元的預算。

為了有效地擴展,研究人員需要找到將模型工作負載轉移到終端設備的方法,但這需要時間。

或是找到一個有利可圖的商業模式將這筆運算的帳單付清。

▋ 總結

Sam Altman 在前幾週的訪談中提出一個新的概念,他認為每個人擁有的算力資源應被當成有效的資產。

在未來這些算力可用來取代金錢等貨幣,作爲提供「全民基本收入(UBI)」的一種方式。

讓每個公民皆能分享 AI 大模型的一部分算力,允許他們像貨幣一樣自由使用這些運算能力,包括交易、出租、捐贈等方式。

這或許會是解方之一。

再次回到 Microsoft Build 大會上所 Demo 的場景與個人化的輔助 Agent,不難窺見光是讓 LLM 擁有視覺辨認得能力就能衍生出無數應用場景。

相當期這個能力無所不在的應用到各個領域與原生 AI 遊戲的到來。

SHARING
只用了兩步驟就用 GPT-4o 寫了一個俄羅斯方塊

Almost zero shot!

下面分享是如何做到的。

▊ 第一步驟:先跟 GPT 討論 Spec

如同一般的產品開發,我們必須先讓彼此的目標一致才能確保最終的內容是正確的。

因此我先請 GPT 列出俄羅斯方塊的 Spec (PRD)

下面是 Prompt (我覺得你可以中文甚至 free style,不用拘泥形式)

Describe Tetris in a way to include all the specs needed to design the game.

可以在這邊來回討論,看你想添加或刪除功能。​

▊ 第二步驟:生成程式碼

接下來就請 GPT 根據 Spec 來生成俄羅斯方塊的遊戲。

我這邊有請它用 Pygame 來寫,你可以指定你想用的資料庫。

具體的 Prompt 如下

Creating a fully functional Tetris game in Python requires using the library like Pygame, which provides functionality for handling graphics audio and user input. Advanced features and full- fledged visual/audio design are outside the scope of this initial implementation but can be added later.

第一次生成的結果就蠻驚豔的,大概有 90% 以上的正確度,當然還有一些小 Bug 要修正。

▊ 第三步驟:測試與除錯

如果你 PRD 寫得好,這部分應該會快很多 (既視感)。

我覺得比較酷的地方是,我幾乎都是用自然語言要 GPT 修改問題,不需要轉換成開發的語言? (既視感)。

甚至可以指著 PRD 的第幾項問它怎麼沒包進去 (既視感)。

程式最後無誤地跑起來還是蠻有成就感的 (既視感)。

▊ 結論

之前在 YouTube 看到大家生成的大多是貪食蛇,比較少看到生成俄羅斯方塊這款遊戲。

實際操作過一次還是感覺蠻有趣的。

人家說打球很吃球感,追求的是人球合一的狀態。

透過與這些模型的 Co-work 無形之中也在增加彼此的 "語感"。

4o 確實蠻好的,可以很口語可以很直接。

無形中也在建立某種程度的壁壘。

當你習慣之後,面對其它需要複雜 Prompting 的模型就會覺得 "嘎~面倒臭い"

HOTNEWS
Stable Diffusion 的新玩法

在 X 上看到超有趣的 AI 合成應用。
只要 Control Net + Lora 就可以玩出超多變化

拆解一下這個影片用到的模型:

  • AnimateDiff:生成連續動畫

  • IPAdapter:鎖定生成內容

  • Inpainting:描繪遮罩

  • ControlNet-depth:生成深度

  • Openpose:控制手部骨架

UI flow 應該是使用 ComfyUI,影片應該是用 After Effect 後製

雖然是個概念影片,不過如果能在 Vision Pro 或 Quest 3 上實現一定很好玩。

大家覺得還有什麼有趣的點子?

Reply

or to participate.