降噪 | denoise
Posts
EP39 - 對 Deepseek 的一些看法

EP39 - 對 Deepseek 的一些看法

Deepseek。AGI。Nvidia project digits

Winston
February 05, 2025

歡迎來到降噪，一起消除雜訊洞察價值

OVERVIEW
本期重點

對 Deepseek 的一些看法
我開了 AI 學習社群

SHARING
對 Deepseek 的一些看法

一句話總結，Deepseek 對大廠的威脅不大，但對平凡老百姓的威脅很大。

家事告一段落，年節期間看著大家風風雨雨的討論著 Deepseek。爬了好多文章跟影片，趁著空檔記錄一下我的觀察與思考。我認為所有說法中，Meta 的首席 AI 科學家 Yann LeCun 說的最正確：

這是「開源陣營的一次勝利」

Yann LeCun 認為 DeepSeek 的誕生是開源的大勝利

Deepseek 的誕生是必然

為什麼我會特別指出 Yann LeCun 所說的這句話呢？

作為開源基礎模型，LLaMA 不僅催生了 Deepseek，還孕育出阿里雲的 Qwen、聯發科的 Breeze 等特色模型。這完全符合 Meta 的開源戰略：借助全球優秀團隊的創新力量來優化模型，同時汲取各方經驗反饋到自身的大模型研發中。

因此對 Meta 來說，技術突破是必然發生的事件，只是他們無法猜到是哪個團隊以及在什麼時間點發生。今天可能是 Deepseek，明天可能就是聯發科。

Deepseek 的成功是偶然

有趣的是，Deepseek 最初專注於加密貨幣挖礦和量化交易。他們聲稱 V3 模型其實是個 Side Project。有些人對這個說法不以為意，但我個人是蠻同意這個說法的。如同上一段所說，每家有在微調 LLaMA 模型的公司本業都不是做 AI 的，但都是透過 LLaMA 這個開源模型來實驗新的方法。所以 Deepseek 也只是跟眾多 AI 模型實驗室一樣，在偶然中實驗出高效的方案。

以下是我個人猜測。早期搞挖礦的團隊應該是累積了大量技術知識來優化 GPU 的叢集運算。有新聞指出他們甚至寫 PTX ( 比 Cuda 還低階的語言 ) 來優化性能，更別說要調和多重精度、MoE 以及多重注意力機制。這次的成果還是十分驚艷的。

有人問說為啥搞量化交易的公司要研究 AI 模型？我不清楚他們的動機，但如果有個 AI 能夠幫我自動分析全球的交易市場，找到有利可圖的機會，我想有資源的公司不會拒絕開發這種 AI 的機會。

Deepseek 帶來的影響

Deepseek 所帶來的價格破壞是巨大的，這意味著 AI 模型公司要只透過單一大模型的 API 來賺取收入的商業模式需要調整。若 Deepseek 的方案有效，大廠可以根據這個方案推出細分領域的小模型來降低 API 費用，例如：客服專用的小模型、法律顧問的小模型或是醫療問診（單一科別）專用的小模型，而不用每次都調用一個超巨大的模型來回答問題。

如果大家還有印象，OpenAI 在去年聖誕節 12 天的特別活動中就有計畫推出 reinforcement fine-tuning 的產品。讓大家可以用很少很少的示例，就可以微調一個專門領域的模型。當時我就有個預感，2025 年會是各行各業都能低成本的微調模型的一年，只是沒想到 Deepseek 讓訓練模型的門檻也急速下降。

reinforcement fine-tuning

之後大家就要開始煩惱，到底是練一個模型好，還是微調一個模型快？

好消息說完了，壞消息是...

Deepseek 這次的實驗告訴我們，除了 Scaling Law 之外，還可以有很多方法可以來增加模型的性能，甚至降低訓練的成本。有些人擔心這會不會讓 AI 大廠的優勢不再？我反而覺得這個事件對大廠來說是個超級大利多，因為他們手上的算力可能在幾天之內就可以復刻 Deepseek 整個模型，一個小團隊就可以再差分一個新的領域。甚至一般規模的公司也可以自建/租算力，透過 Deepseek R1 的 Playbook 搞一個會推理的 AI 模型（幾個學生團隊已成功）。

這聽起來是好消息啊，為什麼是壞消息？

當訓練以及部署的門檻驟降，會有更多的公司/團隊/個人投入訓練細分領域的模型，個人可能要開始面對專業知識被 AI 模型一一破解的狀況。對企業來說更是緊急，面對其他公司的競爭，內部導入 AI 的腳步要更加迅速。因為這是一次全體被迫升級的事件，先搞懂的企業將有先行優勢。

如同圖片生成領域的大煉丹時代即將開始 source: civitai.com

一言以蔽之，AI 將開始取代部分工作。

除了工作被 AI 取代，另一個更糟的消息是。這次 Deepseek R1 模型的對齊的功能做的很差。只要有一些背景知識要突破他的限制是相當容易的，這代表有心人士要利用這個模型來做非法的犯罪將會更加的容易（會深度推理的詐騙、殺傷性武器的配方？想到就暈倒）。Deepseek 就像一把無法收回的無主之火，它有機會創造萬物，也可能造成一發不可收拾的燎原之火。

未來請大家保持警覺，謹慎的過濾你接收到的任何訊息。

結論

雖然有部分很悲觀，但從長遠來看 Deepseek 讓人類通往 AGI 的路又加快一些。若 AGI 是必然，那該面對的問題橫豎都是得面對，只是時間早晚的問題。各種技術的民主化本就是一把雙刃劍，它既能加速創新，也可能加劇社會分化。在邁向 AGI 的征程上，如何降低 AI 帶來的副作用將不只是學者的口中的提醒，而是每個人必須共同面對的問題。

有趣的是，吳恩達博士 Andrew Ng 也頻繁的這幾天在推文中強調「這是發現與創造的黃金時刻」。創造與破壞，我們每個人都是這場轉型的見證者和參與者。期待看到更多令人驚豔的突破，也期待我們能在這個過程中找到更明智的前進方向。

最後，說一下為什麼我要放 Nvidia project digits 的圖片？因為種綜上所述，我感覺這個產品會是每家公司的標配，一台抵一個工作。

Nvidia project digits 擁有 128GB 的 Ram，可以順跑 70B 左右的 LLM。

自己贊助自己
我開了 AI 學習社群

AI 10倍速工作流 | Winston

如果您對生成式 AI 有極大的興趣，這個社群將為您提供不公平的競爭優勢。加入並一起打造世界上最有價值的技能組合💎

www.skool.com/ai10x

有追蹤臉書的朋友應該知道我研究 Make 自動化系統有一段時間了。如果 Chat-GPT 是個不會喊累的博士，工作流則是能讓一群博士不分日夜地，像流水線般自動化的為您工作的系統。

相信大家也聽我介紹很多 AI 工具，常常有種怎麼也學不完的挫敗感。但 Make 這個工具是我今年投入時間學習後獲得最大成效的工具。因為它可以把我先前介紹過的工具黏合起來變成全新的物種，就像樂高一樣。

👇 可以參考最新的教學影片理解工作流是如何運作的

期待在社群中見到你。

Reply

or to participate.