開發者自述
關於 OceanRAG 的誕生與 AI 時代的深刻觀察
我的背景與觀察
高中念資料處理、大學念資管,我回想過去和一位夥伴曾在車上暢聊,覺得 AI 不可能這麼厲害,現在無論過去我的背景,還是獲得過的獎項,放到現在幾乎都已經 過時了。
我對應用軟體的嘗試和學習熱情一直都很高,陸續在 2022 年開始學習最基礎的 bert 和大數據分析等等,但在那時候 AI 都還只是一個被過度包裝而華而不實的代名詞,但它的 崛起速度與發展 甚至讓我幾乎每個月都在學習新的東西。
AI 課程? AI 顧問? 當一種新技術快到一個月就出現新突破時,本質上 "履歷" 已經無法向多數公司描述自己的價值。
在 AI 時代下,你的公司不應該買軟體,而是找一位能做任何軟體、魔改軟體的 AI 應用人才,這個時代的工業 5.0 發展的劇變太快了,我們活在一個資訊飛速的時代裡,但轉眼間,一種你從未能想像的新一代競爭者都會是使用 AI 這類型的公司。無論他是否真的創新,能使用 AI 本身就是一種 產能數十倍提升。
講講專案:OceanRAG
OceanRAG 的概念其實很多主流 AI 應用廠商都已經導入,但這種專案特點在於 純地端、輕量、開源萬用、彈性高 等等,最低價格只需要 2 萬買一台 mac mini,你就有一位 24 小時的員工(雖然他目前沒有 MCP 或 agent 動手能力 XD)坐在公司發揮不少的能力。
RAG 或許再過幾個月就不是什麼新技術,目前最新的是 gemini 推出的 embedding 模型,去研究了一下概念,圖片轉換 在 OceanRAG 也能做。現在 v4.4-v5.0 之間還有不少小毛病,但幾乎可以證明,單人去模擬那些大公司把工具做出來的路徑是 完全可行且瘋狂的。
過程很有趣,也很有挑戰,vibe code 很大程度縮短了這些能力路徑,但也很吃架構設計跟底子。
最後或許你聽過 openclaw,他出圈的速度很快,但也被過度行銷和包裝,實際上它是一種幾乎沒有煞車設定的野馬,外行人忽略模型智性、駭客問題,造成不少損失。OceanRAG 設置 多層權限,目前也還沒手腳(MPC、agent),AI 不能自己幹事情,所以實際上沒什麼風險。但我相信或許在給我多一點時間,確實可以用比大公司更小的資源造出一個更有趣的功能。
核心思考:開源與在地化
關於台灣 AI 模型的問題,為了追求運行 零成本,每一個環節的模型都是開源可商用,但台灣並沒有這樣的開源模型在 RAG 3.0可使用。台灣目前將資源都投入走專精模型這條路徑是正確的,畢竟規模和資源都很有限,這項專案你需要知道一個不可避免的接受使用來自中國的AI模型
關於我推薦的 AI 模型都是來自中國的 北京人工智能研究所(BAAI):語料華語、模型領先、蒸餾技術、模型夠小,重點是 開源可商用,不必害怕資料被偷走,因為模型本身是不存在連網能力的。
文化差異問題,我採用 OpenCC 去做語料轉換、中繼站等等的方式處理,精度、輸出文法損失非常小,也符合台灣用語和輸出結果。