- 降噪 | denoise
- Posts
- EP25 - AI 是如何學會一門知識的底層邏輯
EP25 - AI 是如何學會一門知識的底層邏輯
鼓勵,別教。Founder mode。Runway 推出 API 服務
歡迎來到降噪,一起消除雜訊洞察價值
OVERVIEW
本期重點
OpenAI 是如何突破學習瓶頸的?
我開了 AI 學習社群
Runway 推出 API 服務
SHARING
OpenAI 是如何突破學習瓶頸的?
學會一門知識的底層邏輯
上周末看了 OpenAI AI Researcher, Hyung Won Chung 在MIT 的分享,深受啟發。主要解釋了 OpenAI 如何讓 AI 學會事情並擁有智慧。講者幽默的在開頭說:我們人類對自己如何學習都還沒有個共識,但現在居然要跳出來教 AI 怎麼學習。
接著他分享了一張圖片,並用這一張圖片來說明為何 AI 可以突破學習的極限

結構式的學習更容易碰觸到瓶頸
結構式學習與激勵式學習
在 Transformer 模型問世之前,AI 大多透過結構式資料來學習。亦即,研究員要先準備好大量結構化的資料給電腦,好讓電腦去分辨這些資料並找到關聯性。這種學習方式在初期可以有很好的效果,現在先進的辨識模型只需要幾張圖片就能做到高準確率的分辨。
但,這種方式會有瓶頸。瓶頸不來自如何準備大量結構化的資料,而是研究員自己。因為研究員無法列舉所有想要 AI 學會的事。
我怎麼教我自己也不會的知識?
這問題困擾許久,讓過去 50 年間 AI 科學的發展緩慢且難以進入大眾眼簾。直到 Transformar 模型發表,研究員得以用不同方式來理解學習的底層邏輯。

Transformar 模型與其最關鍵的注意力機制
時間回到 OpenAI 在訓練 Chat-gpt 2 模型的時候。研究員試著把結構式的框架去除,改用激勵式的演算法,自由的讓 Transformar 模型拼湊數據的關聯性。
初期,表現相當差,甚至說不好完整的語句。但隨著匯入訓練的資料量越來越多,與激勵模型的調整,模型開始湧現他們非預期的成果。
這成果直接超越過去 AI 的所有研究。他們也因此找到突破學習瓶頸的方法。
鼓勵,別教。
導航與漫遊
這兩個學習方式這剛好連結自身的經驗。
我們都知道 Google 導航很方便,在旅遊或到陌生環境的時候非常有用。可以讓你瞬間成為在地人,遊走在陌生的環境。假若新的城市是一個抽象的學習的空間,導航讓我們可以擷取 A 到 B 點的捷徑,只需要知道在什麼地方直走、轉彎,加速我們到達的時間。
相反,漫遊則不同。
漫遊需要倚賴大量的試錯,因為路上每個東西看起來都不懂也不熟悉。不只容易遇到死巷窄弄,更常常在交叉路口上猶豫不決不知該往哪走。選擇漫遊的方式,你可能幸運的到達目的地,也有可能迷路浪費大量時間。
漫遊才能真正的學會一門知識
我到陌生環境或旅遊時,一定會安排一個時間讓自己漫游。只需要記得出發的位置剩下的就交由感官來帶路。
怎麼能倚靠感官?陌生環境很危險吧?
因為生物有個本能,在陌生環境感到不安全、恐懼時,會把全身的注意力打開。就像貓到新環境時需要鄧大眼睛躡手躡腳的把整個環境掃描一遍一樣,來確認自己安全。
人類也一樣,在陌生、不習慣的環境時,會打開全身的感官來記憶。這也是為什麼旅遊容易帶來新的體驗,因為身體會自然的放大所有的感官來記憶每個細節。

我常利用特別的招牌或字體來記憶方位
善用這個天賦,漫遊時路上的招牌、盆栽、小販的吆喝聲甚至氣味都會自然成為你的指引。最後當你要從 A 到 B 或甚至到 C 點,都可以像自帶導航的方式一樣,透過自己連結的標示到達目的地。
這也是為什麼有領域經驗的人還是相當有價值的,雖然現在 AI 可以快速生成程式碼與內容,但是透過長時間漫游學習的人早就練就一身觸類旁通的 " 怪招 ",與 AI 搭配後將連結更多可能性。
這種怪招不會寫在履歷表上,更不可能透過導航來學習。
Founder Mode
同樣是近期熱門的討論話題。這個話題源自 Paul graham ( YC創辦人 ) 最新的 Blog 文章。主要是在討論創辦人與專業經理人誰比較適合帶領企業成長。
Paul 舉了 Airbnb 的例子,他認為 Airbnb 能持續正向成長來自於創辦人擁有 Founder Mode 的特質。但隨即被許多人回應,說像是 AMD 的蘇姿丰與微軟的納德拉都不是創辦人也同樣把公司經營的有聲有色。
Paul 的文章雖然沒有明確的說明 Founder Mode 的定義,但我自己延伸理解創辦人之所以與經理人不同,是因為他們擁有大量的漫游經驗。
在初創時,創辦人需要尋找任何能讓事業存活下去的方式。在這個模式下,他們會把感官拉到最大以求生存。過程中他會不斷的學習與重組,並連結任何能讓公司活下去的方式。
因為這個過程需要耗費大量的時間與精力,因此能熬到突破瓶頸的人很少。( 要熬到湧現 ) 但能熬過去的都有機會成為領域的 Alpha。
創辦人的這種漫游經歷很難結構化的在課堂中學習, Paypal 早期拒絕僱用商學院的人來當經理人也是出自這個原因。同時也說明很多企業成功的方法是無法複製的,而且歷程聽起來都相當不可思議。( Airbnb 初創時靠賣玉米片維生 )
VC 更喜歡投連續創業的創辦人,甚至只聽到他要開公司就捧著資金來投資,因為那些創業者的漫遊經驗太獨特以至於難以複製。
你可以全都要
這篇文章並不是要鼓吹任何一種方法,而是從不同的角度來理解並連結不同的議題。如同這篇文章從 AI 訓練連結到了導航,再由導航連結到 Founder Mode。
Hyung Won Chung 在分享中提到,他共事過最優秀的同事並不是技術最強的。而是能從不同的觀點出發,找到最有價值的問題來挑戰。所以重點還是找到最有價值的問題來挑戰,無關你是 Founder 還是 Manager。
另外,結構式學習與激勵式學習並不是互斥的。最新的 o1 preview 已經展示他們可以透過思維鍊 ( COT ) 的技術,生成高品質的問答。爾後再使用這些問答來訓練新的小模型。這說明結構式學習的瓶頸也被突破 ( 無限高品質內容 ),同時還保留初期高速成長的特性。
回到自身的學習也一樣,一邊隨時保持高敏蒐集所有資訊,一邊快速吸收別人或 AI 整理好的內容。
自己贊助自己
我開了 AI 學習社群
有追蹤臉書的朋友應該知道我研究 Make 自動化系統有一段時間了。如果 Chat-GPT 是個不會喊累的博士,工作流則是能讓一群博士不分日夜地,像流水線般自動化的為您工作的系統。
相信大家也聽我介紹很多 AI 工具,常常有種怎麼也學不完的挫敗感。但 Make 這個工具是我今年投入時間學習後獲得最大成效的工具。因為它可以把我先前介紹過的工具黏合起來變成全新的物種,就像樂高一樣。
👇 可以參考最新的教學影片理解工作流是如何運作的
期待在社群中見到你。
HOTNEWS
Runway 推出 API 服務

1 秒鐘 AI 影片只要 2 元新台幣
這一服務不僅使開發者和企業能夠將 Runway 的 AI 模型整合到他們的應用和服務中,還可能重塑各行各業的影片內容創作方式。
( 👆 分享 2024 Runway AI 電影節收入的作品 Get Me Out - Daniel Antebi )
讓我們來看看這次的 API 提供了什麼。
Runway API 概述
Runway 的 API 目前正處於有限訪問的階段,開發者需要加入等候名單才能獲得使用權限。這個 API 目前提供一個模型:Gen-3 Alpha Turbo,這是一個速度更快、但功能較有限的版本。
使用者可以選擇兩種計劃,分別是 "Build" 計劃(主要面向個人和小型團隊)和 "Enterprise" 計劃(專為大型組織設計)。根據不同計劃,用戶可獲取用於整合模型的接口,而計費模式以每秒扣除 5 個點數(一點等於一美分,一秒等於五美分)。
值得注意的是,任何使用該 API 的應用程式必須強制顯示一個 “Powered by Runway” 的標籤,該標籤將連結到 Runway 的官方網站,幫助於用戶理解應用背後的技術。(順便打廣告)
這項服務已經吸引了一些 “可信任的戰略夥伴”,例如市場營銷集團 Omnicom,他們已經開始使用這一 API,展示了其在實際應用中的潛力。
儘管市場反應熱絡,但競爭如影隨形。
與其他公司的競爭
儘管 Runway 在 AI 影片生成領域的有著舉足輕重的地位,但它並非遙遙領先。在生成影片技術的競爭中,Runway 面對來自 OpenAI、Google 以及 Adobe 等科技巨頭的挑戰。
例如,OpenAI 即將推出的影片生成模型 Sora;Google 也已整合 Deepmind 團隊的 Veo 到 Youtube 中,更不用說其他新創公司如 Luma Labs 也在持續改進其技術。
此外,Runway 的生成模型必須透過大量影片來訓練,以學習影片中的模式來生成新的畫面。但 Runway 對訓練數據的來源仍然保持沉默,這引發了有關知識產權的法律問題。隨著服務使用 API 擴散,這些問題顯得尤為重要,尤其是在涉及版權的情況下。
不過,除了上面的問題,或許更該關注的是對產業的影響。
對產業的影響與前景
根據 2024 年由好萊塢動畫工會委託的一項研究。75% 採用 AI 技術的電影製作公司在整合技術後已經減少、整合或消除了部分工作崗位。該研究預測,到 2026 年,美國娛樂行業將會受到超過 10 萬個工作崗位的影響。
這一增長勢頭昭示著 AI 生成影片工具可能顛覆我們熟悉的電影和電視行業。而這個 API pricing ( 1s/0.05$ ) 也會成為未來相似服務的基準點。便宜於否就交由產業人士來判斷。
而我目前能想到的大概就是 30 秒以內的短影音內容會有很好的驗證機會。利用 o1 preview 強大的思維鍊生成腳本再 Auto prompt 到 FLUX 生成關鍵影格。
最後到 Runway 串成影片。
不說了,我先來研究看看
Reply