開發者自述

關於 OceanRAG 的誕生與 AI 時代的深刻觀察

我的背景與觀察

高中念資料處理、大學念資管,我回想過去和一位夥伴曾在車上暢聊,覺得 AI 不可能這麼厲害,現在無論過去我的背景,還是獲得過的獎項,放到現在幾乎都已經 過時了

我對應用軟體的嘗試和學習熱情一直都很高,陸續在 2022 年開始學習最基礎的 bert 和大數據分析等等,但在那時候 AI 都還只是一個被過度包裝而華而不實的代名詞,但它的 崛起速度與發展 甚至讓我幾乎每個月都在學習新的東西。

「我無法向你證明我對 AI 有多熟悉,但我可以向你證明 AI 在我身上,可以做很多你無法想像的事情。」

AI 課程? AI 顧問? 當一種新技術快到一個月就出現新突破時,本質上 "履歷" 已經無法向多數公司描述自己的價值。

在 AI 時代下,你的公司不應該買軟體,而是找一位能做任何軟體、魔改軟體的 AI 應用人才,這個時代的工業 5.0 發展的劇變太快了,我們活在一個資訊飛速的時代裡,但轉眼間,一種你從未能想像的新一代競爭者都會是使用 AI 這類型的公司。無論他是否真的創新,能使用 AI 本身就是一種 產能數十倍提升

講講專案:OceanRAG

OceanRAG 的概念其實很多主流 AI 應用廠商都已經導入,但這種專案特點在於 純地端、輕量、開源萬用、彈性高 等等,最低價格只需要 2 萬買一台 mac mini,你就有一位 24 小時的員工(雖然他目前沒有 MCP 或 agent 動手能力 XD)坐在公司發揮不少的能力。

RAG 或許再過幾個月就不是什麼新技術,目前最新的是 gemini 推出的 embedding 模型,去研究了一下概念,圖片轉換 在 OceanRAG 也能做。現在 v4.4-v5.0 之間還有不少小毛病,但幾乎可以證明,單人去模擬那些大公司把工具做出來的路徑是 完全可行且瘋狂的

過程很有趣,也很有挑戰,vibe code 很大程度縮短了這些能力路徑,但也很吃架構設計跟底子。

最後或許你聽過 openclaw,他出圈的速度很快,但也被過度行銷和包裝,實際上它是一種幾乎沒有煞車設定的野馬,外行人忽略模型智性、駭客問題,造成不少損失。OceanRAG 設置 多層權限,目前也還沒手腳(MPC、agent),AI 不能自己幹事情,所以實際上沒什麼風險。但我相信或許在給我多一點時間,確實可以用比大公司更小的資源造出一個更有趣的功能。

核心思考:開源與在地化

關於台灣 AI 模型的問題,為了追求運行 零成本,每一個環節的模型都是開源可商用,但台灣並沒有這樣的開源模型在 RAG 3.0可使用。台灣目前將資源都投入走專精模型這條路徑是正確的,畢竟規模和資源都很有限,這項專案你需要知道一個不可避免的接受使用來自中國的AI模型

關於我推薦的 AI 模型都是來自中國的 北京人工智能研究所(BAAI):語料華語、模型領先、蒸餾技術、模型夠小,重點是 開源可商用,不必害怕資料被偷走,因為模型本身是不存在連網能力的。

文化差異問題,我採用 OpenCC 去做語料轉換、中繼站等等的方式處理,精度、輸出文法損失非常小,也符合台灣用語和輸出結果。

@MackinHung / 黃精豪