iPAS AI應用規劃師 考試重點

L11202 資料整理與分析流程 (Data Preparation and Analysis Process)
主題分類
1
資料清理
2
資料轉換
3
資料整合
4
特徵工程
5
探索性資料分析
6
資料分析流程
#1
★★★★★
資料清理 (Data Cleaning / Cleansing) 的目的
核心概念
理解資料清理識別和修正(或移除)資料集中錯誤、不完整、不準確、不相關或重複資料的過程,目的是提高資料品質,為後續分析和模型訓練奠定基礎。 (對應能力 K11, S08)
#2
★★★★★
處理缺失值 (Missing Values)
核心概念
認識常見處理缺失值的方法:
  • 刪除 (Deletion):刪除含有缺失值的記錄或欄位(適用於缺失比例小或該欄位不重要時)。
  • 插補 (Imputation):用統計值(如平均數、中位數、眾數)或預測值(如使用迴歸模型)填補缺失值。
  • 將缺失本身作為一種特殊類別
(對應能力 K11, S08)
#3
★★★★
處理異常值/離群值 (Outliers)
核心概念
理解異常值是指顯著偏離資料集中大多數觀測值的數據點。處理方法包括:
  • 識別:透過視覺化(如箱形圖 Box Plot)或統計方法(如 Z-score, IQR)識別。
  • 處理刪除、替換(如用上下限值)、或視為特殊情況處理。
(樣題 #5) (對應能力 K11, S08)
#4
★★★
處理重複資料 (Duplicate Data)
核心概念
識別並移除完全相同或高度相似的記錄,以避免分析結果的偏差資源浪費。 (對應能力 K11, S08)
#5
★★★
處理不一致資料 (Inconsistent Data)
核心概念
指資料存在矛盾或衝突的情況,例如相同實體卻有不同表示方式("台北市" vs "臺北市")或違反業務規則的值。需透過標準化或校驗來修正。 (對應能力 K11, S08)
#6
★★★★
資料轉換 (Data Transformation) 的目的
核心概念
將資料從原始格式轉換為更適合分析或模型訓練的格式。目的是提高資料可用性、模型效能及滿足特定分析需求。 (對應能力 K11, S08)
#7
★★★★
標準化 (Standardization) 與正規化 (Normalization)
核心概念
  • 標準化:將資料轉換為平均值為0、標準差為1的分佈(Z-score)。
  • 正規化:將資料縮放到特定範圍(通常是 [0, 1] 或 [-1, 1])。
兩者目的都是消除不同特徵(欄位)間尺度或單位的影響,常用於距離計算或梯度下降的演算法。 (對應能力 K11, S08)
#8
★★★
類別資料編碼 (Categorical Encoding)
核心概念
類別資料轉換為數值格式,以便機器學習模型處理。常見方法:
  • 標籤編碼 (Label Encoding):為每個類別分配一個唯一整數。
  • 獨熱編碼 (One-Hot Encoding):為每個類別創建一個新的二元(0或1)欄位。
(對應能力 K11, S08)
#9
★★
資料分箱/離散化 (Binning / Discretization)
核心概念
連續型數值資料轉換為離散的類別區間(箱子)。有助於處理異常值、簡化模型或捕捉非線性關係。 (對應能力 K11)
#10
★★★★
資料整合 (Data Integration) 的概念與挑戰
核心概念
指將來自不同來源的資料合併成一個統一、一致的資料集。挑戰包括格式不一、命名衝突、語義差異、資料重複等。 (對應能力 K11, S08)
#11
★★★
常見的資料整合技術
核心概念
了解基本的整合方法,如合併 (Merging)、連接 (Joining)、附加 (Appending) 等,通常基於共同的鍵值或欄位進行操作。 (對應能力 K04, K11, S08)
#12
★★★★
特徵工程 (Feature Engineering) 的概念
核心概念
指利用領域知識,從原始資料提取、創建或轉換更能代表潛在問題且有助於提高模型效能特徵 (Features) 的過程。 (對應能力 K05, K11)
#13
★★★
特徵選擇 (Feature Selection)
核心概念
從現有特徵中選擇最相關子集的過程,目的是降低模型複雜度、減少訓練時間、避免過度擬合提高模型可解釋性。 (對應能力 K11)
#14
★★★
特徵創建 (Feature Creation / Construction)
核心概念
基於現有特徵組合或計算新的、更有意義的特徵。例如,從出生日期計算年齡,從長寬計算面積。 (對應能力 K11)
#15
★★★★★
探索性資料分析 (EDA, Exploratory Data Analysis) 的目的
核心概念
在正式分析之前,透過視覺化和摘要統計等方法初步了解資料的主要特徵、分佈模式、潛在關係和異常情況,為後續建模提供方向。 (對應能力 K11, S08, S09)
#16
★★★★
EDA 的常用技術
核心概念
  • 摘要統計:計算平均數、中位數、最大/最小值、標準差等。
  • 視覺化:繪製直方圖 (Histogram)、散佈圖 (Scatter Plot)、箱形圖 (Box Plot)、長條圖 (Bar Chart)、熱力圖 (Heatmap) 等。
  • 相關性分析 (Correlation Analysis):檢視變數之間的線性關係。
(對應能力 K11, S08, S09)
#17
★★★★★
典型的資料分析/處理流程
核心概念
理解一個典型的資料處理與分析流程包含的主要階段:
  1. 定義問題/目標
  2. 資料收集 (Data Collection)
  3. 資料清理 (Data Cleaning)
  4. 資料轉換/特徵工程 (Data Transformation / Feature Engineering)
  5. 探索性資料分析 (EDA)
  6. 模型建立與評估 (Model Building & Evaluation) (ML/AI 相關)
  7. 結果解釋與溝通/視覺化 (Interpretation & Communication / Visualization)
(對應能力 K11, S03, S08, S09, S10)
#18
★★★★
迭代 (Iteration) 在流程中的重要性
核心概念
資料整理與分析通常是一個迭代的過程,可能需要在不同階段之間來回調整。例如,EDA 的發現可能回頭指導需要進一步的資料清理或特徵工程。 (對應能力 K11, S05)
沒有找到符合條件的重點。