iPAS AI應用規劃師(初級)

謝邦彥、蘇志雄上課講義之重點整理
主題分類
1
L111 人工智慧概念
(5)
2
L112 資料處理與分析概念
(5)
3
L113 機器學習基本原理
(6)
4
L114 鑑別式與生成式AI
(5)
5
L121 No Code/Low Code
(3)
6
L122 生成式AI應用與工具
(5)
7
L123 生成式AI導入與規劃
(6)
#1
★★★★★
人工智慧機器學習深度學習的關係
核心概念
理解三者間的層次與包含關係
  • 人工智慧 (AI): 最廣泛的領域,目標是讓機器模仿人類智慧以解決問題。
  • 機器學習 (ML): 實現AI的一種主要方法,核心是設計演算法,讓機器從資料中自動學習模式與規律。
  • 深度學習 (DL): ML 的一個強大分支,使用多層神經網路模擬人腦進行學習,特別擅長從複雜的非結構化資料中識別模式。
#2
★★★★
弱AI vs. 強AI
核心概念
  • 弱AI (Weak AI) / 狹義AI (Narrow AI): 專注於執行單一或特定任務的AI,是目前所有AI應用的現實。例如:Siri、AlphaGo、人臉辨識。
  • 強AI (Strong AI) / 通用AI (AGI): 具備與人類同等或超越人類的通用智慧,能理解、學習並應用智慧於任何領域的問題,仍是理論與研究階段
#3
★★★★★
負責任的AI (Responsible AI) 與倫理
核心概念
這是目前產業極度重視的議題,旨在確保AI系統的開發與使用是安全、可信賴且符合倫理的。核心原則包括:
  • Fairness (公平性): 避免演算法偏見,確保AI系統不會對特定群體(如性別、種族)產生系統性歧視。
  • Accountability (當責性): 責任歸屬要明確,當AI系統出錯時,能夠追溯並確定由誰負責。
  • Transparency (透明度): AI的決策過程應可被理解和檢視,也就是可解釋性AI(XAI)。
  • Privacy & Security (隱私與安全): 在AI生命週期中,保護用戶數據不被洩漏,並防禦惡意攻擊。
#4
★★★★★
歐盟人工智慧法 (EU AI Act)
核心概念:風險金字塔模型
全球首個針對AI的全面性法規,採用以風險為基礎的方法進行監管。風險等級由高至低分為四層:
  • Unacceptable Risk (不可接受的風險): 全面禁止。如:政府的社會評分系統、剝削弱勢群體的AI、無差別的人臉辨識。
  • High Risk (高風險): 需嚴格監管。如:關鍵基礎設施、醫療設備、招募、信貸評分等AI系統。上市前需通過嚴格的合規評估
  • Limited Risk (有限風險): 需履行透明度義務。如:聊天機器人、Deepfake。必須告知用戶正在與AI互動
  • Minimal Risk (微小/無風險): 不需額外管制,鼓勵遵守自願行為準則。如:垃圾郵件過濾器、AI電玩。
#5
★★★
AI發展簡史與三波浪潮
核心概念
  • 第一波 (1950s-80s): 符號主義。基於邏輯和規則的專家系統,但知識獲取困難缺乏彈性無法處理不確定性
  • 第二波 (1980s-2010s): 機器學習。基於統計模型,從數據中學習,如支持向量機(SVM)。
  • 第三波 (2010s-至今): 深度學習。三大驅動力:演算法突破(如反向傳播)、大數據(Big Data)的普及、硬體算力(GPU)的飛躍。
#6
★★★★★
資料的類型
核心概念
  • 結構化資料: 高度組織化,有固定欄位和格式,如Excel表格、資料庫。
  • 半結構化資料: 有一些組織結構,但不像結構化資料那樣嚴格,透過標籤(tags)來分隔,如JSONXML
  • 非結構化資料: 沒有預定義的格式,佔數據的大宗(約80%)。如文章、圖片、音檔、影片。
#7
★★★★
大數據的5V特性
核心概念
  • Volume (巨量): 資料規模極大,從TBPBEB
  • Velocity (高速): 資料生成和處理速度快,強調即時性
  • Variety (多樣): 資料類型多樣,包含上述三種資料類型。
  • Veracity (真實性): 資料的品質、可信度和準確性。是分析結果是否可信的基礎。
  • Value (價值): 能從中提煉出有價值的資訊,但密度通常很低。
#8
★★★★★
資料前處理 (Data Preprocessing)
核心概念
Garbage In, Garbage Out。這是模型成功的關鍵,佔據AI專案大量時間。主要步驟包括:
  • 資料清理: 處理缺失值(Missing Values)(可刪除或填補)、異常值(Outliers)、不一致的資料。
  • 資料轉換: 標準化(Standardization)與正規化(Normalization),使不同單位的特徵能公平比較。
  • 特徵工程 (Feature Engineering): 創造新的特徵或選取最重要的特徵,以提升模型效能。
#9
★★★
資料倉儲 vs. 資料湖
核心概念
  • 資料倉儲 (Data Warehouse): 儲存經過處理、整合、結構化的資料,主要用於商業智慧(BI)和報表
  • 資料湖 (Data Lake): 以原始格式儲存所有類型(結構化、非結構化)的資料,提供高度彈性給資料科學家進行探索。
#10
★★★★
資料隱私與個資法
核心概念
瞭解個人資料保護法的基本要求,在資料處理過程中需採取的保護措施,如去識別化匿名化加密等,以保護個人隱私。特別是個人可識別資訊 (PII) 的處理需非常謹慎。
#11
★★★★★
機器學習的三大類型
核心概念
  • Supervised Learning (監督式學習): 資料有標籤 (答案)。演算法學習輸入與輸出間的映射關係。用於分類(Classification)和迴歸(Regression)。
  • Unsupervised Learning (非監督式學習): 資料無標籤。演算法自行探索資料中的內在結構。用於分群(Clustering)和關聯分析(Association)。
  • Reinforcement Learning (強化學習): 智能體(Agent)透過與環境互動,從獎勵/懲罰(回饋)中學習達成目標的最佳策略。
#12
★★★★★
模型評估指標 (Classification)
核心概念:混淆矩陣
混淆矩陣 (Confusion Matrix) 是評估分類模型的基礎。
  • Accuracy (準確率): (TP+TN)/總數。整體預測正確的比例,但在資料不平衡時有誤導性
  • Precision (精確率): TP/(TP+FP)。預測為正的樣本中,實際為正的比例 (預測的準)。
  • Recall (召回率): TP/(TP+FN)。實際為正的樣本中,被成功預測為正的比例 (找得全)。
  • F1-Score: PrecisionRecall調和平均數,是個綜合指標。
#13
★★★★
Overfitting vs. Underfitting
核心概念
  • Overfitting (過度擬合): 模型對訓練資料學習得太好,連雜訊都學進去,導致在測試資料上表現差,泛化能力低。
  • Underfitting (擬合不足): 模型過於簡單,無法捕捉資料的趨勢,在訓練和測試資料上表現都不佳
解決方法:交叉驗證、正規化、增加數據、調整模型複雜度等。
#14
★★★★
訓練、驗證、測試集
核心概念
  • 訓練集 (Training Set): 用於訓練模型,讓模型學習資料中的模式。
  • 驗證集 (Validation Set): 用於在訓練過程中調整模型的超參數(如學習率),並初步評估模型效能,避免過度擬合。
  • 測試集 (Test Set): 模型訓練完成後,用來最終評估模型泛化能力從未見過的資料。
#15
★★★★
Cross-Validation (交叉驗證)
核心概念
一種更穩健的模型評估方法,特別是在數據量有限時。最常見的 K-fold Cross-Validation 將資料分成K份,輪流將其中一份作為測試集,其餘K-1份作為訓練集,重複K次後取平均性能指標。這能有效避免因單次數據劃分造成的偶然性
#16
★★★
常見ML演算法
核心概念
  • 監督式: 線性/邏輯迴歸決策樹隨機森林SVM
  • 非監督式: K-Means分群主成分分析(PCA)。
#17
★★★★★
鑑別式AI vs. 生成式AI
核心概念
  • 鑑別式AI (Discriminative AI): 學習不同類別之間的邊界 P(Y|X)。目標是做判斷、分類、預測。問的是 "這是A還是B?"。
  • 生成式AI (Generative AI): 學習數據的聯合機率分佈 P(X,Y)。目標是創造新的、相似的內容。問的是 "A是什麼樣子?"。
#18
★★★★
生成式AI的核心技術
核心概念
  • 生成對抗網路 (GAN): 包含一個生成器和一個判別器,兩者互相对弈,常用於圖像生成。
  • Transformer: 注意力機制(Attention Mechanism)是其核心,能處理長序列數據,是當前大型語言模型的基礎架構
  • 大型語言模型 (LLM): 基於Transformer,在海量文本上預訓練而成。
#19
★★★★★
生成式AI的風險與挑戰
核心概念
  • Hallucination (幻覺): 模型捏造看似真實但不正確的資訊
  • Bias (偏見): 訓練資料中的偏見會被模型學習並放大。
  • Copyright (版權): 生成內容的版權歸屬問題。
  • Deepfake (深度偽造): 用於製造虛假影像或音訊,帶來倫理和安全風險。
  • Data Privacy (資料隱私): 用戶輸入的提示詞可能被用於再訓練。
#20
★★★★★
RAG vs. Fine-tuning
核心概念
兩種讓LLM具備特定知識的方法:
  • Fine-tuning (微調): 用自有資料對模型進行二次訓練,改變模型權重。成本高,適合學習特定風格或語氣
  • RAG (Retrieval-Augmented Generation): 不改變模型,而是在提問時從外部知識庫中檢索相關資訊,一併提供給模型作為參考。成本較低,適合需要即時、準確知識的場景,且可追溯來源
#21
★★★
多模態AI (Multimodal AI)
核心概念
指能夠同時理解和處理多種不同類型資料(如文字、圖像、聲音)的AI模型。例如,可以看一張圖,並用文字描述圖中內容。這是當前AI發展的重要方向。
#22
★★★★★
No-Code vs. Low-Code
核心概念
  • No-Code: 完全不需要寫程式碼,透過視覺化拖拉介面建構應用。目標用戶是業務人員公民開發者
  • Low-Code: 需要少量程式碼來客製化功能或整合,提供比No-Code更高的彈性。目標用戶是IT專業人員開發者,用以加速開發。
#23
★★★★
公民開發者 (Citizen Developer)
核心概念
企業中非IT部門的員工,他們利用No-Code/Low-Code平台來為自己或團隊開發業務應用程式,以解決實際工作中的問題。這是賦能員工、推動數位轉型的關鍵角色。
#24
★★★
平台的優勢與限制
核心概念
  • 優勢: 開發速度快、降低技術門檻、賦能業務人員、促進創新
  • 限制: 客製化能力有限、可能有效能瓶頸、安全性與治理問題、被平台綁定
#25
★★★★★
提示工程 (Prompt Engineering)
核心概念
與LLM溝通的藝術。這不是簡單的提問,而是設計結構化、清晰、包含足夠上下文的提示,以引導模型產生最佳輸出。常用技巧包括:
  • Zero-shot Prompting: 直接提問。
  • Few-shot Prompting: 在提示中提供幾個範例,讓模型學習輸出格式。
  • Chain of Thought (CoT): 要求模型分步思考,引導其進行複雜推理。
#26
★★★★
常見生成式AI工具
核心概念
  • 文本生成: ChatGPT, Google Gemini, Claude
  • 圖像生成: Midjourney, Stable Diffusion, DALL-E
  • 程式碼輔助: GitHub Copilot
#27
★★★★
企業級應用場景
核心概念
  • 知識管理: 建立企業內部知識庫的智能問答系統 (RAG應用)。
  • 客戶服務: 打造更自然的對話式AI客服。
  • 行銷文案: 自動生成廣告詞、社群貼文、電子郵件。
  • 軟體開發: 輔助程式碼撰寫、除錯、產生測試案例。
  • 數據分析: 輔助生成SQL查詢、製作報表摘要。
#28
★★★
AI Agent (AI代理人)
核心概念
不僅僅是問答,AI Agent是能自主理解目標、規劃步驟、並執行一系列任務的系統。例如,用戶說“幫我規劃一趟去東京的五日遊”,Agent會自動上網查機票、訂飯店、安排行程。這是LLM應用的下一步發展方向。
#29
★★★★
AIGC (AI-Generated Content)
核心概念
指由人工智慧技術自動生成的內容,是生成式AI的直接產物。涵蓋文本、圖像、音訊、影片和程式碼等多種類型。AIGC正在改變內容創作的生態。
#30
★★★★★
AI專案生命週期 (CRISP-DM)
核心概念
跨產業資料探勘標準流程,是一個高度迭代的過程:
  1. Business Understanding (商業理解): 定義要解決的問題和成功指標
  2. Data Understanding (資料理解): 探索與評估現有資料。
  3. Data Preparation (資料準備): 清理、整合、格式化資料 (最耗時)。
  4. Modeling (模型建立): 選擇、訓練和評估模型。
  5. Evaluation (評估): 從業務角度評估模型是否滿足需求。
  6. Deployment (部署): 將模型整合到現有系統中。
#31
★★★★★
導入AI的評估框架
核心概念
在決定導入AI前,需從四個方面進行評估:
  • 需求分析: 要解決的痛點是什麼?AI是最佳解法嗎?
  • 可行性評估: 技術上可行嗎?有足夠且品質好的資料嗎?有對應的人才嗎?
  • 成本效益分析: 投入成本(開發、維護、算力)和預期回報(ROI)是否合理?
  • 風險評估: 有哪些技術、資料、倫理、法律風險?
#32
★★★★
選擇Build, Buy, or Ally
核心概念
企業導入AI的策略:
  • Build (自建): 完全自己開發。掌控度最高,但成本和技術門檻也最高。
  • Buy (購買): 直接採購成熟的AI服務或產品。導入快速,但彈性較低。
  • Ally (合作): 與外部AI公司或顧問合作。結合外部專業與內部知識,是常見模式。
#33
★★★★
AI專案團隊的關鍵角色
核心概念
  • 領域專家 (Domain Expert): 提供業務知識,定義問題和需求。
  • 資料科學家 (Data Scientist): 負責資料分析、模型開發與評估
  • 資料工程師 (Data Engineer): 負責建立和維護資料管道(Data Pipeline)。
  • 機器學習工程師 (ML Engineer): 負責將模型產品化、部署與維運(MLOps)。
#34
★★★★
POC, POV, MVP
核心概念
AI專案導入的驗證階段:
  • POC (Proof of Concept): 概念驗證。證明某個想法或技術是可行的
  • POV (Proof of Value): 價值驗證。證明這個可行的技術能帶來商業價值
  • MVP (Minimum Viable Product): 最小可行性產品。用最少的功能和資源開發出一個可用的產品版本,快速投入市場以獲取用戶反饋。
#35
★★★★
機器學習運維 (MLOps)
核心概念
結合機器學習開發(Dev)與維運(Ops)的實踐。目標是自動化和簡化機器學習模型的整個生命週期,從資料準備、模型訓練、部署到監控,實現持續整合、持續交付(CI/CD),確保模型的品質與可靠性。