iPAS AI應用規劃師謝邦彥、蘇志雄上課講義之重點整理)

#1

★★★★★

人工智慧、機器學習與深度學習的關係

核心概念

理解三者間的層次與包含關係。

人工智慧 (AI): 最廣泛的領域，目標是讓機器模仿人類智慧以解決問題。
機器學習 (ML): 實現AI的一種主要方法，核心是設計演算法，讓機器從資料中自動學習模式與規律。
深度學習 (DL): ML 的一個強大分支，使用多層神經網路模擬人腦進行學習，特別擅長從複雜的非結構化資料中識別模式。

#2

★★★★

弱AI vs. 強AI

核心概念

弱AI (Weak AI) / 狹義AI (Narrow AI): 專注於執行單一或特定任務的AI，是目前所有AI應用的現實。例如：Siri、AlphaGo、人臉辨識。
強AI (Strong AI) / 通用AI (AGI): 具備與人類同等或超越人類的通用智慧，能理解、學習並應用智慧於任何領域的問題，仍是理論與研究階段。

#3

★★★★★

負責任的AI (Responsible AI) 與倫理

核心概念

這是目前產業極度重視的議題，旨在確保AI系統的開發與使用是安全、可信賴且符合倫理的。核心原則包括：

Fairness (公平性): 避免演算法偏見，確保AI系統不會對特定群體(如性別、種族)產生系統性歧視。
Accountability (當責性): 責任歸屬要明確，當AI系統出錯時，能夠追溯並確定由誰負責。
Transparency (透明度): AI的決策過程應可被理解和檢視，也就是可解釋性AI(XAI)。
Privacy & Security (隱私與安全): 在AI生命週期中，保護用戶數據不被洩漏，並防禦惡意攻擊。

#4

★★★★★

歐盟人工智慧法 (EU AI Act)

核心概念：風險金字塔模型

全球首個針對AI的全面性法規，採用以風險為基礎的方法進行監管。風險等級由高至低分為四層：

Unacceptable Risk (不可接受的風險): 全面禁止。如：政府的社會評分系統、剝削弱勢群體的AI、無差別的人臉辨識。
High Risk (高風險): 需嚴格監管。如：關鍵基礎設施、醫療設備、招募、信貸評分等AI系統。上市前需通過嚴格的合規評估。
Limited Risk (有限風險): 需履行透明度義務。如：聊天機器人、Deepfake。必須告知用戶正在與AI互動。
Minimal Risk (微小/無風險): 不需額外管制，鼓勵遵守自願行為準則。如：垃圾郵件過濾器、AI電玩。

#5

★★★

AI發展簡史與三波浪潮

核心概念

第一波 (1950s-80s): 符號主義。基於邏輯和規則的專家系統，但知識獲取困難、缺乏彈性、無法處理不確定性。
第二波 (1980s-2010s): 機器學習。基於統計模型，從數據中學習，如支持向量機(SVM)。
第三波 (2010s-至今): 深度學習。三大驅動力：演算法突破(如反向傳播)、大數據(Big Data)的普及、硬體算力(GPU)的飛躍。

#6

★★★★★

資料的類型

核心概念

結構化資料: 高度組織化，有固定欄位和格式，如Excel表格、資料庫。
半結構化資料: 有一些組織結構，但不像結構化資料那樣嚴格，透過標籤(tags)來分隔，如JSON、XML。
非結構化資料: 沒有預定義的格式，佔數據的大宗(約80%)。如文章、圖片、音檔、影片。

#7

★★★★

大數據的5V特性

核心概念

Volume (巨量): 資料規模極大，從TB到PB、EB。
Velocity (高速): 資料生成和處理速度快，強調即時性。
Variety (多樣): 資料類型多樣，包含上述三種資料類型。
Veracity (真實性): 資料的品質、可信度和準確性。是分析結果是否可信的基礎。
Value (價值): 能從中提煉出有價值的資訊，但密度通常很低。

#8

★★★★★

資料前處理 (Data Preprocessing)

核心概念

Garbage In, Garbage Out。這是模型成功的關鍵，佔據AI專案大量時間。主要步驟包括：

資料清理: 處理缺失值(Missing Values)（可刪除或填補）、異常值(Outliers)、不一致的資料。
資料轉換: 標準化(Standardization)與正規化(Normalization)，使不同單位的特徵能公平比較。
特徵工程 (Feature Engineering): 創造新的特徵或選取最重要的特徵，以提升模型效能。

#9

★★★

資料倉儲 vs. 資料湖

核心概念

資料倉儲 (Data Warehouse): 儲存經過處理、整合、結構化的資料，主要用於商業智慧(BI)和報表。
資料湖 (Data Lake): 以原始格式儲存所有類型(結構化、非結構化)的資料，提供高度彈性給資料科學家進行探索。

#10

★★★★

資料隱私與個資法

核心概念

瞭解個人資料保護法的基本要求，在資料處理過程中需採取的保護措施，如去識別化、匿名化、加密等，以保護個人隱私。特別是個人可識別資訊 (PII) 的處理需非常謹慎。

#11

★★★★★

機器學習的三大類型

核心概念

Supervised Learning (監督式學習): 資料有標籤 (答案)。演算法學習輸入與輸出間的映射關係。用於分類(Classification)和迴歸(Regression)。
Unsupervised Learning (非監督式學習): 資料無標籤。演算法自行探索資料中的內在結構。用於分群(Clustering)和關聯分析(Association)。
Reinforcement Learning (強化學習): 智能體(Agent)透過與環境互動，從獎勵/懲罰(回饋)中學習達成目標的最佳策略。

#12

★★★★★

模型評估指標 (Classification)

核心概念：混淆矩陣

混淆矩陣 (Confusion Matrix) 是評估分類模型的基礎。

Accuracy (準確率): (TP+TN)/總數。整體預測正確的比例，但在資料不平衡時有誤導性。
Precision (精確率): TP/(TP+FP)。預測為正的樣本中，實際為正的比例 (預測的準)。
Recall (召回率): TP/(TP+FN)。實際為正的樣本中，被成功預測為正的比例 (找得全)。
F1-Score: Precision 和 Recall 的調和平均數，是個綜合指標。

#13

★★★★

Overfitting vs. Underfitting

核心概念

Overfitting (過度擬合): 模型對訓練資料學習得太好，連雜訊都學進去，導致在測試資料上表現差，泛化能力低。
Underfitting (擬合不足): 模型過於簡單，無法捕捉資料的趨勢，在訓練和測試資料上表現都不佳。

解決方法：交叉驗證、正規化、增加數據、調整模型複雜度等。

#14

★★★★

訓練、驗證、測試集

核心概念

訓練集 (Training Set): 用於訓練模型，讓模型學習資料中的模式。
驗證集 (Validation Set): 用於在訓練過程中調整模型的超參數(如學習率)，並初步評估模型效能，避免過度擬合。
測試集 (Test Set): 模型訓練完成後，用來最終評估模型泛化能力的從未見過的資料。

#15

★★★★

Cross-Validation (交叉驗證)

核心概念

一種更穩健的模型評估方法，特別是在數據量有限時。最常見的 K-fold Cross-Validation 將資料分成K份，輪流將其中一份作為測試集，其餘K-1份作為訓練集，重複K次後取平均性能指標。這能有效避免因單次數據劃分造成的偶然性。

#16

★★★

常見ML演算法

核心概念

監督式: 線性/邏輯迴歸、決策樹、隨機森林、SVM。
非監督式: K-Means分群、主成分分析(PCA)。

#17

★★★★★

鑑別式AI vs. 生成式AI

核心概念

鑑別式AI (Discriminative AI): 學習不同類別之間的邊界 P(Y|X)。目標是做判斷、分類、預測。問的是 "這是A還是B?"。
生成式AI (Generative AI): 學習數據的聯合機率分佈 P(X,Y)。目標是創造新的、相似的內容。問的是 "A是什麼樣子?"。

#18

★★★★

生成式AI的核心技術

核心概念

生成對抗網路 (GAN): 包含一個生成器和一個判別器，兩者互相对弈，常用於圖像生成。
Transformer: 注意力機制(Attention Mechanism)是其核心，能處理長序列數據，是當前大型語言模型的基礎架構。
大型語言模型 (LLM): 基於Transformer，在海量文本上預訓練而成。

#19

★★★★★

生成式AI的風險與挑戰

核心概念

Hallucination (幻覺): 模型捏造看似真實但不正確的資訊。
Bias (偏見): 訓練資料中的偏見會被模型學習並放大。
Copyright (版權): 生成內容的版權歸屬問題。
Deepfake (深度偽造): 用於製造虛假影像或音訊，帶來倫理和安全風險。
Data Privacy (資料隱私): 用戶輸入的提示詞可能被用於再訓練。

#20

★★★★★

RAG vs. Fine-tuning

核心概念

兩種讓LLM具備特定知識的方法：

Fine-tuning (微調): 用自有資料對模型進行二次訓練，改變模型權重。成本高，適合學習特定風格或語氣。
RAG (Retrieval-Augmented Generation): 不改變模型，而是在提問時從外部知識庫中檢索相關資訊，一併提供給模型作為參考。成本較低，適合需要即時、準確知識的場景，且可追溯來源。

#21

★★★

多模態AI (Multimodal AI)

核心概念

指能夠同時理解和處理多種不同類型資料（如文字、圖像、聲音）的AI模型。例如，可以看一張圖，並用文字描述圖中內容。這是當前AI發展的重要方向。

#22

★★★★★

No-Code vs. Low-Code

核心概念

No-Code: 完全不需要寫程式碼，透過視覺化拖拉介面建構應用。目標用戶是業務人員、公民開發者。
Low-Code: 需要少量程式碼來客製化功能或整合，提供比No-Code更高的彈性。目標用戶是IT專業人員或開發者，用以加速開發。

#23

★★★★

公民開發者 (Citizen Developer)

核心概念

指企業中非IT部門的員工，他們利用No-Code/Low-Code平台來為自己或團隊開發業務應用程式，以解決實際工作中的問題。這是賦能員工、推動數位轉型的關鍵角色。

#24

★★★

平台的優勢與限制

核心概念

優勢: 開發速度快、降低技術門檻、賦能業務人員、促進創新。
限制: 客製化能力有限、可能有效能瓶頸、安全性與治理問題、被平台綁定。

#25

★★★★★

提示工程 (Prompt Engineering)

核心概念

與LLM溝通的藝術。這不是簡單的提問，而是設計結構化、清晰、包含足夠上下文的提示，以引導模型產生最佳輸出。常用技巧包括：

Zero-shot Prompting: 直接提問。
Few-shot Prompting: 在提示中提供幾個範例，讓模型學習輸出格式。
Chain of Thought (CoT): 要求模型分步思考，引導其進行複雜推理。

#26

★★★★

常見生成式AI工具

核心概念

文本生成: ChatGPT, Google Gemini, Claude
圖像生成: Midjourney, Stable Diffusion, DALL-E
程式碼輔助: GitHub Copilot

#27

★★★★

企業級應用場景

核心概念

知識管理: 建立企業內部知識庫的智能問答系統 (RAG應用)。
客戶服務: 打造更自然的對話式AI客服。
行銷文案: 自動生成廣告詞、社群貼文、電子郵件。
軟體開發: 輔助程式碼撰寫、除錯、產生測試案例。
數據分析: 輔助生成SQL查詢、製作報表摘要。

#28

★★★

AI Agent (AI代理人)

核心概念

不僅僅是問答，AI Agent是能自主理解目標、規劃步驟、並執行一系列任務的系統。例如，用戶說“幫我規劃一趟去東京的五日遊”，Agent會自動上網查機票、訂飯店、安排行程。這是LLM應用的下一步發展方向。

#29

★★★★

AIGC (AI-Generated Content)

核心概念

指由人工智慧技術自動生成的內容，是生成式AI的直接產物。涵蓋文本、圖像、音訊、影片和程式碼等多種類型。AIGC正在改變內容創作的生態。

#30

★★★★★

AI專案生命週期 (CRISP-DM)

核心概念

跨產業資料探勘標準流程，是一個高度迭代的過程：

Business Understanding (商業理解): 定義要解決的問題和成功指標。
Data Understanding (資料理解): 探索與評估現有資料。
Data Preparation (資料準備): 清理、整合、格式化資料 (最耗時)。
Modeling (模型建立): 選擇、訓練和評估模型。
Evaluation (評估): 從業務角度評估模型是否滿足需求。
Deployment (部署): 將模型整合到現有系統中。

#31

★★★★★

導入AI的評估框架

核心概念

在決定導入AI前，需從四個方面進行評估：

需求分析: 要解決的痛點是什麼？AI是最佳解法嗎？
可行性評估: 技術上可行嗎？有足夠且品質好的資料嗎？有對應的人才嗎？
成本效益分析: 投入成本(開發、維護、算力)和預期回報(ROI)是否合理？
風險評估: 有哪些技術、資料、倫理、法律風險？

#32

★★★★

選擇Build, Buy, or Ally

核心概念

企業導入AI的策略：

Build (自建): 完全自己開發。掌控度最高，但成本和技術門檻也最高。
Buy (購買): 直接採購成熟的AI服務或產品。導入快速，但彈性較低。
Ally (合作): 與外部AI公司或顧問合作。結合外部專業與內部知識，是常見模式。

#33

★★★★

AI專案團隊的關鍵角色

核心概念

領域專家 (Domain Expert): 提供業務知識，定義問題和需求。
資料科學家 (Data Scientist): 負責資料分析、模型開發與評估。
資料工程師 (Data Engineer): 負責建立和維護資料管道(Data Pipeline)。
機器學習工程師 (ML Engineer): 負責將模型產品化、部署與維運(MLOps)。

#34

★★★★

POC, POV, MVP

核心概念

AI專案導入的驗證階段：

POC (Proof of Concept): 概念驗證。證明某個想法或技術是可行的。
POV (Proof of Value): 價值驗證。證明這個可行的技術能帶來商業價值。
MVP (Minimum Viable Product): 最小可行性產品。用最少的功能和資源開發出一個可用的產品版本，快速投入市場以獲取用戶反饋。

#35

★★★★

機器學習運維 (MLOps)

核心概念

結合機器學習、開發(Dev)與維運(Ops)的實踐。目標是自動化和簡化機器學習模型的整個生命週期，從資料準備、模型訓練、部署到監控，實現持續整合、持續交付(CI/CD)，確保模型的品質與可靠性。

iPAS AI應用規劃師(初級)