降噪 | denoise
Posts
EP18 - Facebook 開源「分割一切」第二代、用 GPT 打擊詐騙

EP18 - Facebook 開源「分割一切」第二代、用 GPT 打擊詐騙

SAM2 | Meta | Make | GreenLight

Winston
August 06, 2024

歡迎來到降噪，一起消除雜訊洞察價值

OVERVIEW
本期重點

繼 Llama3 之後 Meta 又開源 SAM2
用 Chat-GPT 來識別詐騙留言
Google 推出「Project Green Light」

HOTNEWS
繼 Llama3 之後 Meta 又開源 SAM2

Meta SAM2

Meta 在上週成功推出 Llama3.1 後，這週回到電腦視覺的舞台，推出了 SAM2 模型。

你或許有聽過電腦視覺的訓練仰賴大量的人工標註，SAM 模型目的就是要用 AI 來自動標註圖片。

讓我們從第一代聊起

回顧一下，去年的時候 Meta 推出了SAM，這是「Segment Anything Model」的縮寫。

Meta SAM

模型的理念是，使用者可以透過模型對圖片進行分組識別，模型可以自主學習來分類，不僅僅局限於已經訓練好的物體。

傳統的分類模型和物體檢測模型多數是針對特定的類別進行訓練，例如可以準確分割汽車或人。

但 SAM 模型的創新之處在於，它允許用戶透過提供範例來提示模型進行分類，這樣就不需要大量的訓練數據，特別是當要分割的物體比較特殊，且沒有現成的模型可用時。

SAM2

現在我們來到 SAM2，這個新模型的發布可謂是將整個技術推向了更高的層次。舊版的 SAM 架構相對複雜，而現在的 SAM2 則大大簡化了設計。

拜新架構所賜，SAM2 不僅能夠處理靜態圖像，還可以用於動態影片中。它能夠以每秒最多 44 幀的速度進行推斷！

另一個令人興奮的功能是，SAM2 提高分割精度，還加速數據集的創建，讓物體檢測模型訓練變得更加容易。
( 辨識的解析度更高，且速度不減反增 )

舉個例子，用戶可以輕鬆地通過選擇區域來標註所需跟蹤的物體，甚至可以選擇不跟蹤某些部分，這在許多應用場景中都是非常實用。
( 想像一個物流公司每天要識別上萬件物品，自動駕駛公司要及時識別物件 )

除此另外，Meta 還隨著 SAM2 發布了一個數據集。

這個數據集中包含了 51,000 個影片和超過 600,000 個所謂的「Masklets SA-V Dataset」，這些都是小型的時空遮罩。

SA-V | Meta AI Research

SA-V is a dataset designed for training general-purpose object segmentation models from open world videos. The dataset was introduced in our paper...

數據集

什麼是時空遮罩？

還記得 OpenAI 推出 Sora 時大家還搞不懂什麼叫做 Spacetime Patches。

Spacetime Patches 就是以序列的方式把每個像素拆解成連續的 Tokens

簡單來說就是一組去背後的連續影像，再把這些連續影像透過 Diffusion model 切分成像素化的網格。每個切分出來的網格再 Embedding 成 Token，存到向量資料庫。

每個噪點就是一個Token，先拆散再排列組合，看起來就像”降噪”的過程

這樣就可以把影像轉換成 Transformer 看的懂的資料元，實現 Diffusion model 與 Transformer model 混用的方法。

( 只要你能夠把資訊的格式 Token 化，你就可以順著這個模式用 LLM 來生成任何東西。現在看到的文字、圖片、音樂以及影像都是以這個架構去訓練的，大家在拚的其實都是誰的資料源更好，誰的 AI 標註更快、更準確 )

回到主題，也就是說 META 分享了 600,000 個「遮罩 masklets」，讓你可以直接拿回去訓練一個小 Sora。
( 前提是你有巨量的 GPU )

不得不說 Meta 真佛心。

開源

最令人驚奇的是 Meta 還將程式碼和模型權重一併釋出，並使用 Apache 2.0 授權。反映出祖克柏近期一直談到的願景

—— 希望將 AI 模型免費提供給更多人使用。

這對於那些一直試圖將這類技術商業化並使用限制性授權的公司來說，無疑是一個巨大的挑戰。

Facebook research segment-anything 2

SAM 2 開源模型

總的來說，隨著 SAM2 的推出，這個模型不僅在性能上有了飛躍性的進步。

更為開發者和研究者提供了更強大的工具，讓他們在電腦視覺領域能夠有更多的創新與探索。

Meta Segment Anything Model 2

官網

SHARING
用 Chat-GPT 來識別詐騙留言

BOT 十分猖獗

江湖傳言臉書粉專IEObserve 國際經濟觀察的雕大深受詐騙留言所苦，想說到底有多糟糕，就簡單弄個爬蟲爬一下雕大貼文的留言。不爬還好，一爬才知道真的災情慘重，100 則留言中有 51 則都是詐騙訊息。

驚嘆之餘，突然靈光一閃。

乾脆把這些詐騙訊息手動標註出來，然後丟進去微軟開源的 GraphRag Tune 一個 DataSet 好了。再用這個 DataSet 來辨識詐騙留言進而刪除它。

然後就開始上 YT 找影片來看要怎麼搞。看了幾個以後覺得好麻煩，現在對還要 Pip install 的"生code 流程" 沒啥耐性 QQ。

正當要放棄的時候，又突然想到。GPTs 的 Asistent 可以直接吃 pdf. json. 的資料來做成 vector database。乾脆直接把蒐集到詐騙訊息轉成 Json 餵到 GPTs 當成它的判斷參考。

再給他一個 System prompt：
====
You are a helpful Bot message identifier.
我將會提供 BOT 文字的範例在 Bot message.json 中。你將會根據提供的 Json File 裡的示範，來判斷輸入的文字是否是Bot。
只需要輸出"是" or "不是"嚴禁輸出其他文字。
====

設定一個 GPTs

就這樣，完成 Asistent 的設定。

測試

實在沒啥把握 51 則的資料集足夠讓 GPTs 來辨識詐騙訊息，抱著忐忑的心情在 Playground 輸入第一則詐騙訊息。

Me：
可以看一下金股會，他的觀點真的很不錯！
Chat-GPT：
是

Bot busters！

Yooooooooooooo，I don't know why but it works.

後續又測試好幾十條，全部準確判斷，真的太神了。

我再寫一個 Asistent 自動化生成 50 條詐騙訊息
( 到底誰才是詐騙仔？ )

再把這 50 條訊息丟給它來識別。結果識別率是百分百！
( 我用同個 DataSet 所以可能會有問題，但這個測試成果還不錯 )

GPTs 判斷並自動打勾

測試完後信心大增，難道這樣可以一戰？

實戰

簡單用 Make 寫了一個時時爬雕大貼文留言的工作流，串上設定好的 GPTs 來做判斷，判斷完再把結果存到 Airtable。

不得不說，實戰成果還是很驚人的，100 則留言識別了 37 則詐騙訊息，只有一則識別錯誤，辨識成功率為 99%。

辨識成功率為 99%

特別去找那則貼文，發現是留言的格式很像詐騙留言，後面都會有三個表情符號。

日幣升值熱錢回流日本，全球股市就難漲了！
( 識別錯誤的留言 )

但，瑕不掩瑜，51 個 Items 就可以抓到規律，再餵更多資料給它應該可以進步更多。

成本

兩天玩下來包含測試和實戰總共用了 452,679 個 Tokens，使用 GPT-4o Mini 總價為 0.07 美元，大約 2 塊台幣。最大宗的花費在 Input Tonkens，Output Tonkens 只佔 4,300 左右。

我在猜是因為每次 Request 都要去訪問 Vector database，因此會產生相應的花費。我有嘗試在 System prompt 寫範例給它參考，但發現效果還是沒有用數據集判斷的精準。

這邊還有蠻多優化空間的，理想上辨識+刪除的成本要能小於詐騙訊息的成本。這樣才有機會讓這門生意無利可圖。

留到後續研究。

感想

對於能在短時間內做出一個可驗證的 MVP 還是蠻驚奇的。

驚奇的點在於，我本身不是工程師背景，但已經可以用現有的 No-code tools 搭建可視化的成果。

回想第一時間想要用 GraphRag 只覺得好笑，殺雞焉用牛刀？有時候簡單的路徑反而可以更快的看到成果。先有成果後，再根據數據來做調整。

還是要強力譴責那些詐騙團體，沒有這次的實驗很難想像他們是這麼的猖獗。( 雕大的貼文一出詐騙 Bot 馬上蜂擁而上 )還要感謝雕大吸引砲火，讓我可以獲得珍貴的"生Data"。

最後，雖然無法像潮男 Zuckerberg 一樣有辦法開源 LLM。但秉持著消除詐騙的人類共同目標，所有的資料都放在下面的 Airtable 中。有需要的朋友可以循著這個路徑搭建一個 GPTs 來試試看。

Airtable | Everyone's app platform

Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.

airtable.com/appYQOQkuPHO1IZvf/shruwMMUYSS8A51sY

Make 的工作流也一併分享

	Bot Busters_make.json37.62 KB • JSON File

( 工作流再加一個刪除留言就可以自動刪除留言，有需要的朋友可以自行添加，這樣就不用手動去刪詐騙留言 )

期待有高手搞出一個更好的方法，讓詐騙銷聲匿跡。

HOTNEWS
Google 推出「Project Green Light」

Project Green Light

小時候家庭出遊遇到塞車的時候，總是幻想有個超級厲害的電腦能夠自動分析所有的車輛，讓所有人都一路綠燈到達目的地。長大後才知道要總統才有這種魔法，讓號誌一路順行。

現在，每個人都有機會體驗一路順行的暢快感。Google 推出 AI 驅動的專案「Project Green Light」。

旨在優化交通流量，讓駕駛能夠享受「一路綠燈」的暢快體驗，同時大幅降低燃油排放。這項創新技術不僅能提升道路通行效率，更為環保事業貢獻一份力量。

專案核心：智慧交通管理

「Project Green Light」的核心在於利用 Google Maps 的海量駕駛數據，透過 AI 分析優化交通號誌的時間安排。這套系統的最大優勢在於：

城市無需投資新的硬體或軟體，即可快速且輕鬆地實施優化方案，大大降低了推廣門檻。

目前，「Project Green Light」已在全球 13 個城市的 70 多個路口投入使用，涵蓋以色列海法、印度班加羅爾和德國漢堡等地。每月約有 3000 萬車次受惠，不僅節省燃料，更有效降低排放。

擴大應用範圍

Google 團隊規劃在未來幾年內，將「Green Light」系統擴展至數百個城市的成千上萬個路口，進一步擴大其影響力。

系統特色與優勢

AI 驅動的交通優化：透過分析交通流量數據，識別最佳化交通號誌時間的機會，減少車輛頻繁停止和啟動。
簡單執行：城市無需添購新設備或軟體，只需根據系統建議調整現有交通號誌設置即可。
快速見效：城市工程師能在短短幾分鐘內實施優化建議，充分利用現有基礎設施。
顯著減少停車次數：能將停車次數減少高達 30%，大幅提升交通流暢度。
有效降低排放：在路口處降低高達 10% 的排放量，改善空氣品質。
廣泛應用：已在全球多個城市進行測試，包括里約熱內盧、西雅圖、班加羅爾和波士頓等。

運作原理

理解路口狀況：
透過長期的全球城市地圖繪製工作，系統能推斷現有交通號誌的各項參數，如週期長度、轉換時間、綠燈分配時間等。
測量交通趨勢：
建立路口交通流量模型，識別典型交通模式，包括車輛啟動和停止的模式、平均等待時間、相鄰路口之間的協調情況等。
為城市提供建議：
運用 AI 技術識別潛在的交通號誌時間調整方案，並將這些建議分享給城市交通工程師。工程師審核批准後，可在短短 5 分鐘內實施優化方案。
分析影響：
評估實施建議後為駕駛節省的停車次數及其對交通模式的影響，並計算這些變化的環境影響。持續監測並與合作城市分享結果，以便進行必要的調整。

未來

「Project Green Light」的推出，說明 AI 技術在智慧城市中的實際應用。透過優化交通流量，不僅能為駕駛提供更愉悅的駕駛體驗，更能有效減少碳排放，為環境保護貢獻力量。

想像未來，智慧電動車與智慧城市緊密合作。我們或許就不需要在深夜無人無車的時段，為了等紅燈而停下。

Green Light: Reduce Traffic Emissions with AI - Google Research

Discover how Green Light utilizes AI to optimize traffic light timing, reduce vehicle emissions in cities, and improve traffic flow.

sites.research.google/greenlight

Reply

or to participate.