首頁/AI 期刊/15
從 Bernini 智能影片編修到 Claude Code 自動化交易,AI 正從工具轉為可控助手
15· 2026-06-09

從 Bernini 智能影片編修到 Claude Code 自動化交易,AI 正從工具轉為可控助手

AI 正在變成更聰明、也更貼近生活的工具

AI 的發展速度快得驚人。幾乎每隔一段時間,就會有新的模型或功能出現,讓人重新想像它在工作與創作中的角色。它不再只是回答問題的聊天機器人,而是逐漸變成能協助思考、處理內容,甚至接手部分流程的副駕駛與協作者。更重要的是,這些能力正在從雲端走向個人裝置,讓過去只有大型團隊才能使用的工具,變得更容易取得。

這樣的變化,也讓 AI 的進化重點不再只是速度更快、規模更大,而是能不能真正融入日常工作。當創作流程變得更順、重複性任務能被自動化,複雜問題也能被拆解時,AI 才算真正走進使用者的場景。以下幾個最新進展,正清楚展現這個方向。

AI 正在成為創意流程中的副駕駛

最明顯的變化之一,是 AI 開始更像創意流程裡的夥伴,而不是一次性輸出結果的工具。過去,人們習慣先下提示詞,再等待模型給出答案;現在,重點變成互動是否足夠即時、控制是否足夠細緻。

以影片創作為例,很多內容創作者都遇過同樣的情況:想把一段素材改得更完整,卻被繁瑣的剪輯流程拖慢節奏。字節跳動推出的 Bernini 就是在這樣的需求下出現。這個影片模型可以接受文字、圖片,甚至另一段影片作為參考,接著對原始內容進行重新塑造。無論是加入角色、調整光線,還是替換背景,它都能以更直覺的方式完成。它也能理解上下文,讓同一角色在不同畫面中維持一致,對需要精細控制的影片編修來說,這種能力特別實用。

圖片生成也往同樣的方向前進。像 Reve 2Ideogram v4 這類模型,不只追求畫面好看,也更重視可編輯性。它們會先建立一個結構化的中間表示,再進行最終渲染,讓圖片能像分層設計一樣被處理。實際上,這表示使用者可以先做出清楚的構圖,再針對某個物件或文字做局部修改,而不必擔心整張圖被破壞。對設計師或行銷人員來說,這種工作方式能把時間從反覆修圖,轉回到概念發想與版面調整上。

如果說圖片和影片的變化讓創作更有效率,那麼音樂領域的進展,則讓 AI 更接近即時協作。Google 的 Magenta Real-Time 2 並不只是用來生成旋律,而是被設計成可以被「演奏」的模型。透過 MIDI 輸入、音訊參考與文字提示,使用者能即時控制它,且延遲時間低到約 200 毫秒。對音樂人來說,這意味著 AI 不再只是後製階段的輔助,而是可以直接參與現場創作的工具。

同樣地,語音技術也正變得更自然、更有控制感。字節跳動的 WaveTTS 只要幾秒鐘音訊,就能複製出特定聲音,並讓它朗讀任意文字;Higgs Audio v3 則進一步加入 inline tags,讓使用者能直接在提示中指定語氣、速度、音高,甚至加入音效。這讓旁白、個人化音訊內容,以及各種需要細膩聲音表現的應用,都有了更大的想像空間。

另一個值得注意的方向,是影片生成開始原生整合音訊。百度 Ernie 團隊推出的 NAVA,把聲音、動作與時間軸放在同一套生成流程中處理,不再只是把音訊當成影片的附加元素。這種同步生成的方式,讓畫面與聲音之間的對齊更自然,也讓短故事、簡報或行銷影片更容易呈現完整感。

AI 也正在變成智能代理人與自動化助手

當創意工具變得更精細之後,AI 的另一個重點,也開始轉向資訊管理、任務規劃與流程自動化。這正是代理式 AI 系統真正發揮價值的地方。

首先改變的,是記憶與上下文的理解方式。OpenAI 正在用名為 Dreaming 的技術升級 ChatGPT 的記憶系統,不再只是簡單記住幾條靜態筆記,而是會在背景中整合過去對話。這讓 AI 更能理解使用者長期變化的需求。舉例來說,如果你前幾天提到要去新加坡旅行,之後又問起外帶餐廳建議,它就能推斷你可能已經回到日常情境,而不會一直停留在旅行脈絡裡。這種動態記憶,讓 AI 更像一位會隨著時間熟悉你的長期助手。

更進一步的,是能處理多步驟任務的代理模型。阿里巴巴的 Qwen 3.7 Plus 是一個多模態代理模型,可以理解文字、圖片和影片,並針對長週期任務進行推理。這類任務往往不是一次完成,而是要反覆觀察、測試與修正。它可以在較長時間內持續推進複雜工作,例如編寫應用程式、根據畫面進行測試,再視結果調整內容。對獨立開發者或小團隊而言,這代表某些原本需要多人協作的流程,現在有機會由 AI 先完成雛形。

MiniMax 推出的 MiniMax M3 也朝著相同方向前進。作為開源模型,它強調代理式程式生成能力,並提供高達 100 萬個 token 的上下文視窗,足以讓模型一次理解龐大的程式碼庫與專案脈絡。再加上它能讀取桌面視覺資訊,這類模型不只是寫程式,更能接手部分操作與驗證流程。NVIDIA 的 Nemotron 3 Ultra 則以混合專家架構切入,專為規劃、工具呼叫、檔案讀取與多輪驗證等複雜任務設計,顯示代理型 AI 已經不再只是概念,而是逐步進入實際工作流程。

這些能力也開始出現在更接近商業需求的產品裡。AutoCoder.cc 就是一個例子。使用者只要給出簡單想法,它就能生成前端、後端、資料庫、儀表板與角色權限等完整系統。對一位想建立市集或預訂平台的創業者來說,這意味著不必先組出完整工程團隊,也能快速看到可運作的版本。這類工具的價值,不只是節省時間,更是讓產品想法能更快被驗證。

在專業領域中,AI 的自動化能力則更直接影響日常工作。將 Claude CodeTradingView 結合後,交易者就能用 AI 協助建立盤前掃描器、設定策略條件,甚至回測流程。AI 可以處理 Pine Script 或 Python 腳本,篩選符合條件的股票,檢查跳空、波動與成交量,並根據新聞催化劑發送提醒。這並不代表 AI 能替人做出所有判斷,但它確實能把最耗時的資料整理與監控工作先完成,讓使用者把注意力放在真正的決策上。

本地 AI 和專用硬體正在加速普及

另一個明顯的趨勢,是越來越多強大模型開始能在消費級硬體上運行。這不只減少對雲端的依賴,也讓隱私、速度與控制權變得更重要。

Google 的 Gemma 4 12B 就是這樣的例子。它的設計目標之一,就是把代理式 AI 的能力帶到筆電等裝置上。這個多模態模型可以處理文字、圖片和音訊,並採用無編碼器架構,直接將原始輸入送入模型中,減少前處理帶來的記憶體與延遲負擔。對只有 16GB VRAM 或統一記憶體的裝置來說,這代表本地運行更大型的 AI 工具變得可行。使用者可以在沒有網路的情況下,依然享有分析圖片、理解語音與協助推理的能力。

NVIDIA 也在推動這個方向。RTX Spark 的定位就是筆電與小型桌機,透過整合 AI 與圖形處理,並提供最高 128GB 的統一記憶體,來解決本地模型常見的記憶體限制。對許多中型模型來說,真正的瓶頸往往不是算力,而是能否裝得下。當硬體開始為這件事設計,更多圖片生成器、影片模型與大型語言模型就能更輕鬆地在本地運行。

除了個人裝置,NVIDIA 也把焦點放到實體 AI。Cosmos 3 這類基礎模型,會結合文字、圖片、影片、音訊與動作,幫助系統理解和預測真實世界場景。它可以用來生成駕駛影片,也能模擬機器人如何與物體互動。這類模型的重要性,在於它們能生成大量合成訓練資料,而這正是自動駕駛與機器人領域長期面臨的核心問題之一。

類似的方向也出現在 Deja ViewPaGeR 這些專案中。前者可以從多張圖片重建 3D 場景,後者則能從全景圖推測周圍空間的幾何結構。它們所提供的,不只是視覺上的重建能力,更是讓 AI 更理解空間與環境的基礎。對擴增實境、數位分身,以及需要真實世界上下文的系統來說,這些技術都是重要的底層拼圖。

AI 也正在加速科學發現

如果說前面的變化,主要影響的是內容創作與工作流程,那麼更進一步的影響,就是 AI 開始參與科學研究本身。微軟在 Majorana 2 上的研究,提供了一個很清楚的例子。

在這個案例裡,AI 不只是研究工具,而是直接參與研發流程的一部分。微軟使用發現型 AI 系統,協助管理工作流程、自動化測量、找出缺陷,並提出可能的解法,讓量子運算晶片的開發更有效率。這種方式不只是節省時間,也讓晶片的可靠性有顯著提升,進一步縮短了通往可擴展量子電腦的路徑。它顯示 AI 的角色,已經從「幫忙分析資料」往前一步,變成能協助人類處理高度複雜研發任務的元工具。

這代表什麼

整體來看,AI 正在變得更精細,也更像真正能被使用者掌握的工具。它不再只是規模龐大的雲端服務,而是逐漸轉向可控制、可整合、也可在本地運行的模型與系統。這種轉變的重點,不只是能力更強,而是讓更多人能夠直接使用這些能力。

這也改變了 AI 的分配方式。過去,複雜的創作、分析與自動化工具往往只存在於資源充足的大型團隊中;現在,獨立創業者可以更快做出原型,創作者可以在更順的流程中工作,專業人士也能把重複性任務交給 AI,專注在策略與判斷上。當 AI 更容易取得,整個生態系也會從少數大型平台,逐步走向更多專精、開源且高效率的模型組合。

結論

AI 創新的速度依然很快,但真正值得注意的,不只是新模型一個接一個出現,而是它們的設計方式正在改變。AI 越來越像一組可以被調整、被控制、也能真正融入工作流程的工具,而不是一個遙遠的黑盒子。尤其當這些能力開始落到個人裝置上時,人與 AI 的協作關係也會變得更自然。

接下來,值得持續關注的是本地與開源 AI 生態系,特別是那些同時具備代理性與多模態能力的模型。這些工具不一定會立刻改變所有人,但它們正在重新定義「可用的 AI」究竟是什麼。對使用者來說,真正的關鍵也許不只是使用 AI,而是開始思考,如何把它放進自己的流程裡,解決眼前的問題,並創造新的可能性。

← 回到期刊列表最後更新:2026-06-09