EP08 - OpenAI 開大決對抗 Google I/O 發佈會

GPT-4o | Gemini Pro 1.5 | Project Astra | Veo | Trillium | SynthID

歡迎來到降噪,一起消除雜訊洞察價值

OVERVIEW
本期重點

  • OpenAI 春季發佈會三個重點

  • Google I/O 總整理

  • 5個 Google I/O 不要錯過的發佈影片

HOTNEWS
OpenAI 春季發佈會三個重點

Introducing GPT-4o

5 月 14 日 OpenAI 舉辦春季發表會,我整理了幾個重要消息以及影片:

▋推出最新模型 GPT-4o

GPT-4o 的 o 代表 “Omni” ,代表多模態可以讀 / 寫文字、讀 / 畫圖、可聽 / 說。

在中文的語意中有隱含 “完整” “圓滿” 的概念,與 Nvidia 的 Omniverse 取用同樣的意思。

同時也強調 4o “for all“ 給全部人用的精神。

這個模型同時也是前陣子在幾個模型評測平台屠榜的 Chat-gpt2

source: William Fedus form x.com

▋GPT-4o 快又好

這是 OpneAI 第一個原生多模態模型,先前的模型如果要使用文字以外的能力就必須把資料 Pass 給其他模型,這無形中拖慢了反應速度。

因此本次的 4o 模型幾乎可以做到即時反應,以往輸入資料進去要等待一段時間才能得到回覆的時光已不再。

GPT-4o 可以做到即時的語音交談。

在官方的說明中有提到,他的反應速度是上一代 Turbo 的兩倍。

但在綜合能力評比與 Turbo 大約只有 5%~10% 的進步,因此可以歸納這次的 4o 最重要的的躍升就是整合多模態後產生的綜效。

▋GPT-4o 更自然

身為一個產品設計師與產品經理,我最在意的就是人們如何用最自然的方式與科技互動。

這也是我推廣 Conversational User Interface 與為何我看好 AI 語音裝置的原因。

這次 GPT-4o 在人機體驗上下足了功夫,整個發佈會不只使用 Live Demo,更在後續的介紹影片中把 GPT-4o 當成一個真實存在的智慧體。

不只語音的聲調非常自然,回復的內容也是非常符合當下的情境。

我們可以用最直覺的方式與模型溝通,可以用最少的描述來命令。

似乎 “她” 存在一樣。

非常推薦觀看下面這兩個 Live Demo,可以明顯地感受到這次的進化是在使用者體驗。

▋ 總結

GPT-4o 透過多模態的整合實現了效率上的優化,伴隨著效率優化的副作用就是體驗的提升與更多應用的場景。

因此,從根本來看這次的升級就是一次的資源整合的重構。

從訓練、微調到輸出都是包含文字、圖像、語音以及影像,相信這也會成為業界的標準。

不過,因為 OpenAI 目前都還沒有公開他們是如何整合如此大的資料訓練模型的技術,其他競爭者要追上恐怕還需要一些時間。

台大的李弘毅教授倒是給我們一個思考的方向,對 GPT-4o 模型背後的訓練機制有興趣的朋友不妨看看。

HOTNEWS
Google I/O 重點整理

十分鐘看完 Google I/O 2024

趁周末整理了這次 Google I/O 所發布的內容以及心得觀察。

今年的 Google I/O 一共推出了一百多項產品更新,下面擷取一些重點。

▋ Gemini Pro 1.5 整合到旗下產品

  • Workspace:讀取 Gmail、Meet、Docs、Drive、Slides…的內容,並使用 Gemini Pro 能輸出更長與更優異的內容,讓工作更方便。

  • Ask Photos:能使用 Gemini 搜尋相簿裡的回憶,並整理成方便回顧的錦集。

  • Search:提出「生成式搜尋體驗」搜索功能整合 Gemini ,搜尋後返饋更豐富細緻的內容與來源。

  • Android:Gemini 成為最上層,可以在使用手機的時候呼叫 Gemini 協助解決問題。

▋ Gemini 模型整體升級

  • Gemini 1.5 Pro :提升了程式碼、邏輯推理、多回合對話、聲音和圖像理解等能力,並且可以遵循更複雜的指令,以及更精細地控制模型回應。上下文窗口從 100 萬提升到 200 萬 Tokens。

  • Gemini 1.5 Flash:比 Gemini 1.5 Pro 更輕量化的模型, 以速度和效率為目標,適合大規模、高頻率的任務。 Gemini 1.5 Flash 通過知識蒸餾從 1.5 Pro 獲得了最重要的知識和技能,以實現更快更高效的服務。支援上下文窗口 100 萬 Tokens。

  • PaliGemma :開源的視覺語言模型,能夠處理圖片和文字的多模態數據

  • Gemma 2 :下一代開放模型 Gemma 2 將於六月推出,Gemma 2 將使用新的架構,旨在突破性能和效率。

▋ 新 AI 與硬體產品

  • Project Astra:由 Deepmind 團隊開發,目標是創造能夠像人類一樣理解和回應日常生活中的複雜和動態世界的通用 AI 助手。這些助手能夠進行快速的對話交互,並且在視覺和聽覺上有更自然的語音表現。

  • Veo:由 Deepmind 團隊開發,最新的文字生成影片模型。能夠產生一分鐘以上 1080p 解析度的影片。運用了新的擴散轉換器技術 GQN、DVD-GAN、Imagen-Video 等模型,實現視覺一致性。

  • Labs.google推出 VideoFX 並更新 ImageFX 和 MusicFX。新工具現在 110 多個國家開放和支援 37 種語言。

  • Trillium:Trillium 是 Google 目前性能最強、效率最高的 TPU,相較於上一代 TPU v5e,每顆晶片的計算性能提升了 4.7 倍。

▋ 安全性

  • SynthID:Google 強調,所有 AI 生成的內容都會自帶一個數位浮水印 SynthID ,方便所有人識別 AI 生成的內容。

  • Android:推出手機本地運行的反詐騙功能,能辨識通話過程中的可疑對話,及時跳出警告通知。

▋ 總結

我認為這次的 Google I/O 可以歸納為五個重點。

  1. GAI 的前沿進展:Google 通過 Gemini 模型展示了 AI 在多模態和長上下文理解方面的突破,這表示了 AI 在理解和處理複雜信息方面的進步。

  2. 產品整合:Google 正在將 Gemini 整合到其核心產品中,從而提升用戶體驗,例如在 Search 和 Photos 中提供更加智慧的搜索和互動能力。

  3. 基礎設施創新:Google 推出了新一代的 TPU 芯片 Trillium,這是一個重大的基礎設施升級,有助於支持未來 AI 計算的需求並提升自主性。

  4. 負責任的 AI 使用:Google 在 AI 的負責任使用方面也在進步,包括開發新的安全技術和工具來確保 AI 的透明度和可追溯性。

  5. 開發者和生態系統的支持:Google 致力於為開發者和生態系統提供強大的工具和平台,以促進 AI 創新和應用的發展。

這五個能力就是 Google 可以一戰的證明,也是競爭者難以望其項背的巨大優勢。

告別去年雜亂且各自為政的發表,今年的 Google I/O 展現了 Gemini 以貫之的方向。

有條不紊的從前沿、後端與應用全線挺進,可以說一雪上次 Bard 尷尬發布會的前恥。

有種被 OpenAI 捅了一個馬蜂窩,傾巢而出的既視感。

雖然會前被 GPT-4o 搶走了不少風采,但 Google 穩步向前的步調也確實讓人感到安心,也符合大眾的需求。

截至今日,發布會一周後股價上漲 +6.38% ,可見市場肯定。

SHARING
5個 Google I/O 不要錯過的發佈影片

google developer

Google I/O 是個面向開發者的發佈會,除了主秀的 Keynote ,其他的小型發佈會也是看點之一。

若你也是開發者或是對技術背後的知識有興趣,強烈建議觀看我精選的影片。

  • Material Design ( 貫穿Google產品的設計系統 )

  • Visual Blocks ( NoCode 工具 )

  • 在瀏覽器跑 LLM 應用

  • 如何微調 Gemini

  • 用 Gemini 打造應用

還有很多與開發者相關的影片,有興趣的可以前往 Google for Developers 的頻道觀看更多。

Reply

or to participate.