開發者自述
關於 OceanRAG 的誕生與 AI 時代的深刻觀察
我的背景與觀察
高中念資料處理、大學念資管,我回想過去和一位夥伴曾在車上暢聊,覺得 AI 不可能這麼厲害,現在無論過去我的背景,還是獲得過的獎項,放到現在幾乎都已經 過時了。
我對應用軟體的嘗試和學習熱情一直都很高,陸續在 2022 年開始學習最基礎的 bert 和大數據分析等等,但在那時候 AI 都還只是一個被過度包裝而華而不實的代名詞,但它的 崛起速度與發展 甚至讓我幾乎每個月都在學習新的東西。
AI 課程? AI 顧問? 當一種新技術快到一個月就出現新突破時,本質上 "履歷" 已經無法向多數公司描述自己的價值。
在 AI 時代下,你的公司不應該買軟體,而是找一位能做任何軟體、魔改軟體的 AI 應用人才,這個時代的工業 5.0 發展的劇變太快了,我們活在一個資訊飛速的時代裡,但轉眼間,一種你從未能想像的新一代競爭者都會是使用 AI 這類型的公司。無論他是否真的創新,能使用 AI 本身就是一種 產能數十倍提升。
講講專案:OceanRAG
OceanRAG 的概念其實很多主流 AI 應用廠商都已經導入,但這種專案特點在於 純地端、輕量、開源萬用、彈性高 等等,最推薦的方式是買一台最新升級版的 Mac Mini(約兩萬台幣起),你就有一位 24 小時的員工坐在公司發揮不少的能力。v0.6 已完成六子系統重構 (S1-S6),包含 CRAG 三級路由、Source Grounding 來源溯源、SWIP 語意增強等核心功能。
RAG 或許再過幾個月就不是什麼新技術,各家廠商持續推出更強的 embedding 模型,圖片轉換 在 OceanRAG 也能做。v0.6 已通過 1,903 項測試、97% 覆蓋率,幾乎可以證明,單人去模擬那些大公司把工具做出來的路徑是 完全可行且瘋狂的。
過程很有趣,也很有挑戰,vibe code 很大程度縮短了這些能力路徑,但也很吃架構設計跟底子。
最後或許你聽過 OpenClaw,它出圈的速度很快,但也被過度行銷和包裝,實際上是一種幾乎沒有煞車設定的野馬,外行人忽略模型智性、駭客問題,造成不少損失。OceanRAG 設置 多層權限,未來將加入 MCP 伺服器與技能系統,讓 AI 在受控範圍內執行更多任務。我相信在給我多一點時間,確實可以用比大公司更小的資源造出更有趣的功能。
核心思考:開源與在地化
關於台灣 AI 模型的問題,為了追求運行 零成本,每一個環節的模型都是開源可商用,但台灣並沒有這樣的開源模型在企業 RAG 系統中可使用。台灣目前將資源都投入走專精模型這條路徑是正確的,畢竟規模和資源都很有限,這項專案你需要知道一個不可避免的接受使用來自中國的AI模型
關於我推薦的 AI 模型都是來自中國的 北京人工智能研究所(BAAI):語料華語、模型領先、蒸餾技術、模型夠小,重點是 開源可商用,不必害怕資料被偷走,因為模型本身是不存在連網能力的。
文化差異問題,我採用 OpenCC 去做語料轉換、中繼站等等的方式處理,精度、輸出文法損失非常小,也符合台灣用語和輸出結果。