• 降噪 | denoise
  • Posts
  • EP04 - AI 語音裝置大爆發、Tesla 數據飛輪與 Krita

EP04 - AI 語音裝置大爆發、Tesla 數據飛輪與 Krita

Limitless | Tesla FSD | Krita

歡迎來到降噪,一起消除雜訊洞察價值

OVERVIEW
本期重點

  • 為何我看好 AI 語音裝置

  • Tesla 正在將 Grok 結合 FSD

  • Krita 免費開源的繪圖軟體

SHARING
為何我看好 AI 語音裝置

source: 地平線-西域禁地

── 即將進入混戰的關鍵市場

就在 Humane AI Pin review 大暴死的幾天後,又有一家新創公司推出最新的 AI 語音輸入裝置。

Rewind 改名為 Limitless 推出一款 99 美金的 AI 語音輸入裝置,對比 AI Pin 的 699 美金,可說是親民了許多。

source: Limitless

結至目前,四家新創公司 AI Pin、Rabbit R1、01 Light 以及 Limitless 各自推出不同的產品。

到底這些矽谷的新創公司看到了什麼機會?前撲後繼的投入這個市場?

我個人也十分看好這個領域,相信未來應該會有數百家公司做這類的產品,在還記得這些名字前,做個重點紀錄。

下面分享我的觀察

▋ 脫離巨頭掌握的豪賭

做硬體是一件吃力不討好的事情,尤其是對擅長軟體創新的矽谷公司。

若又牽扯到軟硬整合,那就會看到兩者都陷入泥沼的狀態。

(自身慘痛經歷,新創要做軟硬整合要求會更高)

但,到底為什麼這些公司都想推出專用裝置,而不是寫一個 App ,方便接觸到廣大的手機用戶?

因為,他們的目標就是要脫離 IOS/Android 的掌握,也只有這個敘事能獲得 VC 的支持。

自己有待過 HTC / Oneplus / Oppo 的產品開發,剛好可以來說明這件事有多重要。

▋ 數據掌握與使用者體驗

大家應該都有聽過 Google 每年支付 10 億美金給 Apple,就是為了搶下 IOS 瀏覽器默認的搜尋引擎。

相同的事情也發生在 Android 手機,根據你的出貨量,Google 每年也會支付 5-10 億美金給 Android 手機的品牌商,目的就是置入 Google 一系列的 app (地圖、相簿、聯絡人、日曆... 等)

這是一個惡魔的合約。

因為手機廠商養團隊自行開發品牌的基礎應用很難帶來任何的直接的獲利,更多是為了建立品牌的獨特使用者體驗,目的是讓手機賣的更好。

而只透過硬體獲利的模式,只要遇到銷售逆風,龐大的軟體研發與營運費用就會引誘天平倒向另一邊。

成本突然變成獲利

(更令人頭皮發麻的是,Google 還有可能借鑑你辛苦研發的成果,更新到下一版的 Android,直接幫所有的 Android 敵對品牌升級)

一旦你與 Google 簽下了合約,品牌對這部分數據掌握力就會下降。

其他應用的服務也會開始斷鏈,大大的影響使用者體驗。

試想,手機品牌廠都在面臨數據的競爭,遑論第三方的外部開發商?

因此,這些 AI 語音裝置不得不走自己的路,若不這麼做連要做 "Call mam" 都會跳出安全警告

【要授權 XXX 裝置取得聯絡人資料嗎?】是 / 取消

【要授權 XXX 裝置取得麥克風權限嗎?】是 / 取消

【要授權 XXX 裝置撥打 XXXXXXXXXX 電話嗎?】是 / 取消

▋ 數據飛輪

Google 的 Gemini 1.5 pro 模型已經可以支持最多 8 小時的語音輸入,並從中整理出重點。

上一篇文章【Tesla 正在實驗他的數據飛輪】中提到,Tesla 正在利用 FSD 所拍攝到的影像來訓練自家的 Grok 語言模型。

也有研究機構表明,到了 2026 年,大型語言模型將耗盡所有在網路上所能獲得的資料。

因此,如何在這個期限之前建立持續的數據輸入就相當重要

( Google 每年支付 6000 萬美元買 Reddit 持續產出的文章。)

同時我也認為,聲音的價值目前還沒有被完全體現出來。

從生物學的角度來說,聽覺給人的共鳴比視覺來的大也深刻。

這也是為什麼音樂與演講可以直指人心,讓人產生澎湃的感受。

因為我們哺乳類動物在視覺成形之前,可是透過母親的心跳聲來理解世界。

從資料科學的角度來說,聲音足夠創建整個世界。

視障的朋友可只透過聲音來完成一天大大小小的事,包含搭車、購物甚至使用手機自拍。

也就是說圍繞在身邊的聲音資訊,足夠創建整個環境狀態。

若是有大量的數據輸入模型來訓練,要定位用戶在哪裡是可以做到的,同時也可以補足 GPS 垂直定位的問題。

試想一下,進入便利商店【叮咚】的聲音,讓你正在聆聽的 Podcast 突然話鋒一轉,根據你聆聽的段落內容,完美的承接上下文,自動生成一則商品推薦。

可以延伸超多的場景。

如同 Tesla 透過大量的載具來建立數據流水線,這些 AI 語音裝置如同 FSD,也在透過感測器,建構自己的即時聲音數據流水線。

理想很豐滿,但現實很骨感,說了這麼多看好的內容是時候來平衡一下。

▋ 房間裡的大象與 Action button

上面提到的三個大議題,對新創來說是亟欲攻克的難題,但對 Apple 來說則是它的優勢。

雖然大家都在批評 Apple 在這次的生成式 AI 的競爭中落後了,但 Apple 也確實有底氣摘下最後的果實。

先從硬體來說,

Apple 早在賈伯斯時代就開始研發自己的電腦晶片,過去十多年所累積的晶片設計技術,不只使用在自家的手機、PC、音響甚至小到耳機都用上自家設計的晶片。

source: Apple airpods pro 2

Air pods pro 的降噪能力就是藉由內置的晶片及時運算所達成的,它甚至可以辨識周遭環境的狀態自適應調整混合強度,讓你只聽到該聽的聲音 (人聲) 。

而從 iPhone 8 開始搭載的 A11 晶片就已經導入 Neural Engine 的運算核心,若是今年 Apple 要做一次系統升級來支持 AI ,它的使用者覆蓋率是無人能及的 (Android 陣營的硬體破碎化一直是升級的最大問題)

再來,M 系列晶片的 Fusion Ram 架構在推出之時被批評毫無擴充性,現在反而變成跑大型語言模型最划算的方案。

今天剛開源的 Llama 3 70B 能本地跑的也只有配置 M3 Max 的機器

接著說軟體,

【Siri 幫我計時五分鐘】

我想這是最多人的使用情境,也完整地呈現語音指令可以簡化多少操作。

用過這樣直覺得操作應該很少人會再打開 App 去做計時。

這其實就是目前 LLM 所主打的功能之一 Function calling。

意思是,可以透過 LLM 來直接獲取 App 裡的操作的能力,而不需要打開 App。

只需要透過 API 的授權來交換兩個應用之間需要的資訊。

過往,很少應用會主動限授權給 Siri 來使用 (辛辛苦苦尻個 App 結果都不點開來看廣告嗎?),但我認為接下來適應 LLM 的 Function calling 將會是每個 App 要去開闢的路徑。

我也相信 Apple 會在開發者端去推廣 Siri + Function calling,像是 Xcode、Swift 簡單的調用,更甚至在 App store 上去加強有這功能 App 的曝光。

另外,不得不再提一次的還有個人資訊的訪問能力,像是聯絡人、筆記、相簿、Apple pay... 等等。

綜合上述的這些能力就是我認為 Apple 有底氣能從後追上的關鍵,也是這些初創公司要面對的大 Boss,在這裡祈禱他們都能成功。

source: apple watch ultra 2

Oh~ 對了,還有那個在 iPhone 15 pro & max /apple watch ultra 上的 Action button,不用多說應該也知道會拿來做什麼了。

Tim cook : It's something only Apple can do.

See you in WWDC, Tim.

HOTNEWS
Tesla 正在將 Grok 結合 FSD

Guys, 這次我們真的該繫好安全帶了

今早,Nvidia AI 研究員 @DrJimFan,在 X 發布一則推文,說明 Tesla 正在實驗將 Grok-1.5V 結合 FSD。

FSD V13 的版本將有機會看到兩個 AI 模型所迸發出的成果。

( Grok-1.5V 是由 X.com 所發布的開源大型語言模型,主打什麼都敢講比其他模型更幽默。 )

Tesla 近期發布的自駕系統 FSD V12.3 取得驚人的成果,相較於上個版本有著質的飛越。

許多北美車主實際使用過後,無不驚嘆它發揮的能力。

而 Elon Musk 也表明將在今年的八月八日發布 Robot Taxi ── 一款由 Tesla FSD 系統所支持的機器人計程車平台。

之所以讓 @DrJimFan 如此的振奮,原因來自於,這兩者的結合能在自動駕駛領域解決許多邊緣問題。

什麼是邊緣問題?

邊緣問題來自道路上某些罕見的情形,像是突然衝出的行人或是施工路段掉落的危險物品。

這些場景在自動駕駛領域因為數據不足或模擬不夠充分而未能百分之百的解決。

DrJimFan 提到,Grok-1.5V 可以用 FSD 所拍攝到的畫面來產生無數的情境問句。

如圖所示,一張由 FSD 拍攝的畫面並用 Grok-1.5V 來生成問句以及選項。

最終,透過 FSD 的判斷來驗證這些選項那些是可行的,再反饋給 Grok-1.5V 來做訓練。

若是兩者能完美的結合,FSD 與 Grok 就能自顧自的互相訓練,Grok 也能成為 FSD 運作行為的解釋引擎。

想像一下,我們往後都可以在某個車禍現場,讀取自駕系統的事故原因自白。

這份如同飛機黑盒子的自白系統,我認為有機會成為未來安全合規的依據。

從像素 -> 像素對應行為 -> 語言解釋 -> 執行

這一連串的機制將使 FSD 與 Grok 超越現有所有的模型。

DrJimFan 也認為這個數據飛輪若能實現, Grok 將會是超越 GPT-4V 和 Gemini 的存在。

這則貼文也引來 Elon Musk 回復。

source: x.com

Musk 說:這兩個者的結合能創造無限的數據。synthetic data (用 AI 生成的資料來訓練 AI 的技術) ,有著這個生成出來的資料是否正確的問題。但使用真實世界的影像沒有這個問題。

這也說明目前大型語言模型的困境,如何獲取大量正確的資料來訓練更好的模型。

盤點一下 Musk 可以調用的資料就不難猜想誰有機會在這個競爭中勝出。

Tesla、SpaceX、X.com

SOFTWARE
Krita 免費開源的繪圖軟體

source: generated by Winston

今天跟大家介紹一個免費開源的繪圖軟體 Krita。

之所以不說它是一個 AI 軟體因為它的 AI 功能是外掛上去的。

因為開源的特性,有開發者就替 Krita 寫了一個外掛套件,讓 Krita 瞬間擁有 AI 的能力。

再搭配上原有的基礎繪圖功能,讓 Krita 這個軟體跟著水漲船高。

有想使用的朋友可以參考這則 Youtube 影片

設定完成後若想要生成我上面這張圖可以按以下步驟

  1. 選擇 1.5 Cinematic Photo (XL) 模型

  2. 到設定中選擇 1.5 realisticVisonV51 的 VAE

  3. Civi.ai 下載 Add detail Lora 模型

  4. 在設定中選擇 Add detail Lora

  5. 輸入反向提示詞
    deformed iris, deformed pupils, cgi, 3d, render, sketch, cartoon, drawing, anime:1.4), text, cropped, out of frame, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, look at camera

  6. 設定

  7. 輸入提示詞
    Japan, in the night, Portrait photo by Petra Collins depicts a messy brown hair woman in oversized collared shirt, Straight nose, perfect pale skin, sitting on the bed at night, with her eyes gazing at the empty room, gentle, city neon lights shining through the windows, the neon lights casting purple and blue colors on her, the woman's hair flowing down her back, and a lonely expression on her face, captured on Kodak Portra 400 film, with bokeh effect --ar 16:9 --style raw <lora:add-detail-xl:2>

有任何的問題都可在臉書提問,我能幫上忙的地方都會盡量回答。

Reply

or to participate.