EP39 - 對 Deepseek 的一些看法

Deepseek。AGI。Nvidia project digits

歡迎來到降噪,一起消除雜訊洞察價值

OVERVIEW
本期重點

  • 對 Deepseek 的一些看法

  • 我開了 AI 學習社群

SHARING
對 Deepseek 的一些看法

一句話總結,Deepseek 對大廠的威脅不大,但對平凡老百姓的威脅很大。

家事告一段落,年節期間看著大家風風雨雨的討論著 Deepseek。爬了好多文章跟影片,趁著空檔記錄一下我的觀察與思考。我認為所有說法中,Meta 的首席 AI 科學家 Yann LeCun 說的最正確:

這是「開源陣營的一次勝利」

Yann LeCun 認為 DeepSeek 的誕生是開源的大勝利

Deepseek 的誕生是必然

為什麼我會特別指出 Yann LeCun 所說的這句話呢?

作為開源基礎模型,LLaMA 不僅催生了 Deepseek,還孕育出阿里雲的 Qwen、聯發科的 Breeze 等特色模型。這完全符合 Meta 的開源戰略:借助全球優秀團隊的創新力量來優化模型,同時汲取各方經驗反饋到自身的大模型研發中。

因此對 Meta 來說,技術突破是必然發生的事件,只是他們無法猜到是哪個團隊以及在什麼時間點發生。今天可能是 Deepseek,明天可能就是聯發科。

Deepseek 的成功是偶然

有趣的是,Deepseek 最初專注於加密貨幣挖礦和量化交易。他們聲稱 V3 模型其實是個 Side Project。有些人對這個說法不以為意,但我個人是蠻同意這個說法的。如同上一段所說,每家有在微調 LLaMA 模型的公司本業都不是做 AI 的,但都是透過 LLaMA 這個開源模型來實驗新的方法。所以 Deepseek 也只是跟眾多 AI 模型實驗室一樣,在偶然中實驗出高效的方案。

以下是我個人猜測。早期搞挖礦的團隊應該是累積了大量技術知識來優化 GPU 的叢集運算。有新聞指出他們甚至寫 PTX ( 比 Cuda 還低階的語言 ) 來優化性能,更別說要調和多重精度、MoE 以及多重注意力機制。這次的成果還是十分驚艷的。

有人問說為啥搞量化交易的公司要研究 AI 模型?我不清楚他們的動機,但如果有個 AI 能夠幫我自動分析全球的交易市場,找到有利可圖的機會,我想有資源的公司不會拒絕開發這種 AI 的機會。

Deepseek 帶來的影響

Deepseek 所帶來的價格破壞是巨大的,這意味著 AI 模型公司要只透過單一大模型的 API 來賺取收入的商業模式需要調整。若 Deepseek 的方案有效,大廠可以根據這個方案推出細分領域的小模型來降低 API 費用,例如:客服專用的小模型、法律顧問的小模型或是醫療問診( 單一科別 )專用的小模型,而不用每次都調用一個超巨大的模型來回答問題。

如果大家還有印象,OpenAI 在去年聖誕節 12 天的特別活動中就有計畫推出 reinforcement fine-tuning 的產品。讓大家可以用很少很少的示例,就可以微調一個專門領域的模型。當時我就有個預感,2025 年會是各行各業都能低成本的微調模型的一年,只是沒想到 Deepseek 讓訓練模型的門檻也急速下降。

reinforcement fine-tuning

之後大家就要開始煩惱,到底是練一個模型好,還是微調一個模型快?

好消息說完了,壞消息是...

Deepseek 這次的實驗告訴我們,除了 Scaling Law 之外,還可以有很多方法可以來增加模型的性能,甚至降低訓練的成本。有些人擔心這會不會讓 AI 大廠的優勢不再?我反而覺得這個事件對大廠來說是個超級大利多,因為他們手上的算力可能在幾天之內就可以復刻 Deepseek 整個模型,一個小團隊就可以再差分一個新的領域。甚至一般規模的公司也可以自建/租算力,透過 Deepseek R1 的 Playbook 搞一個會推理的 AI 模型( 幾個學生團隊已成功 )。

這聽起來是好消息啊,為什麼是壞消息?

當訓練以及部署的門檻驟降,會有更多的公司/團隊/個人投入訓練細分領域的模型,個人可能要開始面對專業知識被 AI 模型一一破解的狀況。對企業來說更是緊急,面對其他公司的競爭,內部導入 AI 的腳步要更加迅速。因為這是一次全體被迫升級的事件,先搞懂的企業將有先行優勢。

如同圖片生成領域的大煉丹時代即將開始 source: civitai.com

一言以蔽之,AI 將開始取代部分工作。

除了工作被 AI 取代,另一個更糟的消息是。這次 Deepseek R1 模型的對齊的功能做的很差。只要有一些背景知識要突破他的限制是相當容易的,這代表有心人士要利用這個模型來做非法的犯罪將會更加的容易( 會深度推理的詐騙、殺傷性武器的配方?想到就暈倒 )。Deepseek 就像一把無法收回的無主之火,它有機會創造萬物,也可能造成一發不可收拾的燎原之火。

未來請大家保持警覺,謹慎的過濾你接收到的任何訊息。

結論

雖然有部分很悲觀,但從長遠來看 Deepseek 讓人類通往 AGI 的路又加快一些。若 AGI 是必然,那該面對的問題橫豎都是得面對,只是時間早晚的問題。各種技術的民主化本就是一把雙刃劍,它既能加速創新,也可能加劇社會分化。在邁向 AGI 的征程上,如何降低 AI 帶來的副作用將不只是學者的口中的提醒,而是每個人必須共同面對的問題。

有趣的是,吳恩達博士 Andrew Ng 也頻繁的這幾天在推文中強調「這是發現與創造的黃金時刻」。創造與破壞,我們每個人都是這場轉型的見證者和參與者。期待看到更多令人驚豔的突破,也期待我們能在這個過程中找到更明智的前進方向。

最後,說一下為什麼我要放 Nvidia project digits 的圖片?因為種綜上所述,我感覺這個產品會是每家公司的標配,一台抵一個工作。

Nvidia project digits 擁有 128GB 的 Ram,可以順跑 70B 左右的 LLM。

自己贊助自己
我開了 AI 學習社群

有追蹤臉書的朋友應該知道我研究 Make 自動化系統有一段時間了。如果 Chat-GPT 是個不會喊累的博士,工作流則是能讓一群博士不分日夜地,像流水線般自動化的為您工作的系統。

相信大家也聽我介紹很多 AI 工具,常常有種怎麼也學不完的挫敗感。但 Make 這個工具是我今年投入時間學習後獲得最大成效的工具。因為它可以把我先前介紹過的工具黏合起來變成全新的物種,就像樂高一樣。

👇 可以參考最新的教學影片理解工作流是如何運作的

期待在社群中見到你。

Reply

or to participate.