本文件針對 iPAS 人工智慧應用工程師(初級與中級)考試,彙整了近期產業最熱門、最常成為考題的 AI 新興應用。內容涵蓋影片生成、音樂生成、AI 代理及 AI 程式設計四大主題,並以專業且易於吸收的方式呈現,協助您掌握關鍵趨勢,順利取得高分!
AI 影片生成技術,特別是 「文生影」(Text-to-Video),是目前生成式 AI 領域的焦點。這類技術的核心是讓模型理解自然語言描述的場景、物體、動作與風格,並將其轉化為連貫、高品質的影片。考試中,考生需理解其背後的核心技術與代表性工具的差異。
關鍵技術:這類模型通常結合了擴散模型 (Diffusion Model) 與變形金剛架構 (Transformer Architecture)。前者擅長生成高品質圖像,後者則精於處理序列資料(如文字和時間序列的影片幀),兩者結合實現了對動態世界的模擬。例如 Sora 就是一個 Diffusion Transformer 模型。
| 應用工具 | 開發者 | 核心特色與考試重點 |
|---|---|---|
| Sora | OpenAI |
|
| Pika | Pika Labs |
|
| Runway ML | Runway |
|
AI 音樂生成技術讓任何人都能透過簡單的文字描述 (Prompt) 創作出包含人聲、伴奏、歌詞的完整歌曲。這項技術的突破在於模型能夠同時理解音樂理論(和弦、節奏、曲式)與語意(歌詞、風格、情緒),並將其結合。
關鍵技術:目前的模型大多採用類似大型語言模型 (LLM) 的架構,將音樂視為一種「語言」。它們將音訊壓縮成離散的標記 (Tokens),然後訓練模型預測下一個標記,從而生成連貫的音樂片段。
| 應用工具 | 開發者 | 核心特色與考試重點 |
|---|---|---|
| Suno AI | Suno |
|
| Udio | Udio (前 Google DeepMind 員工創立) |
|
| MusicFX |
|
AI 代理是當前 AI 發展的終極目標之一。它不僅僅是像 ChatGPT 一樣的問答工具,而是一個能夠感知環境、自主規劃、拆解任務、使用工具並採取行動以達成複雜目標的系統。這是從「被動回應」邁向「主動執行」的關鍵一步。
關鍵概念:一個基本的 AI 代理循環包含規劃 (Planning)、記憶 (Memory) 和工具使用 (Tool Use)。模型首先制定達成目標的計畫,利用記憶儲存進度與學習經驗,並呼叫外部工具(如瀏覽器、計算機、API)來執行任務。
| 應用/框架 | 類型 | 核心特色與考試重點 |
|---|---|---|
| Devin | AI 軟體工程師代理 |
|
| Auto-GPT / BabyAGI | 開源實驗性代理 |
|
| LangChain / LlamaIndex | 代理開發框架 |
|
AI 程式設計輔助工具已成為現代軟體開發不可或缺的一環。這些工具透過整合在整合式開發環境 (IDE) 中,提供程式碼自動補全、函式生成、錯誤修正、單元測試撰寫等功能,旨在提升開發者生產力,而非完全取代。
關鍵技術:核心是基於 LLM 的程式碼生成與理解能力。模型在海量的開源程式碼上進行訓練(如 GitHub 上的公開專案),從而學習到各種程式語言的語法、模式和最佳實踐。代表性底層模型為 OpenAI 的 Codex。
| 應用工具 | 開發者/公司 | 核心特色與考試重點 |
|---|---|---|
| GitHub Copilot | GitHub / Microsoft |
|
| Cursor | Cursor |
|
| Codeium | Exafunction |
|