cacaFly 聖洋科技剖析生成式 AI 挑戰與突破:從靜態圖像走向動態影音的進化之路
- Rachel Tan
- 6小时前
- 讀畢需時 2 分鐘
在 Media Tech 活動中,cacaFly 聖洋科技雲端智能中心技術副總 CH Wu 以「用魔法駕馭魔法:解鎖廣告素材新生機」為題,分享生成式 AI 在創意製作上的應用觀察。他指出,從圖像到影音,生成式 AI 面臨的核心挑戰是:「如何讓 AI 理解人類語言」,牽動指令設計、模型選擇、運算資源與應用效率。

一個指令,各自表述:生成式 AI 與人類想像的落差
CH Wu 說明,用戶平均需輸入 15 至 30 次提示詞才能得到理想結果,即便是具備經驗的專業創作者,也往往需要反覆嘗試 5 至 10 次。相較文字生成,圖像與影音的試錯成本高出三倍,顯示 Prompt 工程已成為影響內容品質與創作效率的關鍵環節。
AI 仰賴提示詞細節進行運算,對未描述部分會自行補全,導致生成結果與人類期待落差甚大。即使相同提示詞,在不同模型或反覆輸入下,仍難產出一致成果。cacaFly 團隊透過用戶問卷發現,常見問題包括結果不符預期、缺乏創意、圖像用途不明等,顯示目前門檻仍高,影響商用信心。
為改善語意落差,cacaFly 自研 Alchemy 導入 Autoprompt 技術,能自動偵測語意並轉換為 AI 能理解的語法與參數。使用者僅需自然語言表達,系統即可優化提示詞,簡化操作流程並提升品質。
圖像客製化進化:擺脫模型微調依賴
在過往需透過 LoRA 技術進行模型微調才能實現指定風格,門檻高、成本大。隨著技術演進,未來僅需輸入參考圖像,即可客製化人物或商品風格,結合 LLM 語意理解,大幅提升效率。

動態影音生成:多模態 AI 解構腳本邏輯
影片生成需處理動作、鏡頭與場景轉換,對缺乏剪輯經驗者挑戰更大。cacaFly 應用多模態 AI 技術,能分析影片腳本語意與鏡頭邏輯,自動產出具有品質的影片內容,並實際用於廣告產業,提升產出速度與創意表現。
與我們聯繫,邁向 AI 創作新時代
生成式 AI 的潛力巨大,cacaFly 持續優化提示詞、語意轉換與影音腳本處理,讓 AI 更懂人,創作更高效。歡迎與我們聯繫,共創 AI 驅動的內容革新旅程。