iPAS AI應用規劃師 初級

L11201 資料基本概念與來源
出題方向 (L11201 資料基本概念與來源)
1
資料的定義與特性
2
資料型態
3
資料來源
4
資料品質概念
5
大數據基本概念
6
資料收集方法
7
資料表示與儲存
8
資料與AI的關係
#1
★★★★★
大數據 (Big Data) 的特性中,「資料量 (Volume)」指的是什麼?
A
數據的規模或大小,通常達到 TB (Terabytes) 或 PB (Petabytes) 等級。
B
數據生成或處理的速度。
C
數據來源或格式的多樣性。
D
數據的真實性與可信度。
答案解析
大數據的第一個 V,資料量 (Volume)直接指數據的規模或數量級。傳統數據處理工具難以應對如此龐大的數據量。速度 (Velocity) 指數據流動的速度,多樣性 (Variety) 指數據的種類,真實性 (Veracity) 指數據的質量。
#2
★★★★★
描述大數據 (Big Data) 處理即時串流資料 (real-time streaming data) 的能力,是指哪個特性?
A
資料量 (Volume)
B
速度 (Velocity)
C
多樣性 (Variety)
D
真實性 (Veracity)
答案解析
速度 (Velocity) 是指數據生成、收集和處理的速度。在大數據時代,數據經常是以高速、連續的串流形式產生(例如IoT感測器數據、社交媒體貼文),需要系統具備即時或近乎即時的處理能力。
#3
★★★★★
包含文字、圖像、影片和聲音等多種格式的數據,體現了大數據 (Big Data) 的哪個特性?
A
資料量 (Volume)
B
速度 (Velocity)
C
多樣性 (Variety)
D
價值 (Value)
答案解析
多樣性 (Variety) 指的是數據來源和格式的多樣化。大數據不僅包括傳統的結構化數據 (Structured Data)(如資料庫表格),還包括大量的非結構化數據 (Unstructured Data)(如文字、圖像、音頻、視頻)和半結構化數據 (Semi-structured Data)(如JSONXML)。
#4
★★★★
在資料庫中,具有固定欄位和資料類型,如同試算表一樣的資料是屬於哪種類型?
A
結構化數據 (Structured Data)
B
非結構化數據 (Unstructured Data)
C
半結構化數據 (Semi-structured Data)
D
元數據 (Metadata)
答案解析
結構化數據 (Structured Data) 是指具有預定義格式和固定欄位的數據,通常儲存在關聯式資料庫 (Relational Database) 中,易於查詢和分析。試算表是典型的結構化數據。非結構化數據沒有固定格式(如文本、圖像),半結構化數據有某些組織結構但非固定欄位(如JSON),元數據是描述數據的數據。
#5
★★★★
電子郵件的內文通常被歸類為哪種類型的數據?
A
結構化數據 (Structured Data)
B
非結構化數據 (Unstructured Data)
C
半結構化數據 (Semi-structured Data)
D
數值數據 (Numerical Data)
答案解析
非結構化數據 (Unstructured Data)沒有固定內部結構或預定義模型的數據。電子郵件內文、社交媒體貼文、圖片、影片等都屬於此類,分析起來比結構化數據更複雜。
#6
★★★★
JSON (JavaScript Object Notation) 或 XML (Extensible Markup Language) 文件是哪種數據類型的典型範例?
A
結構化數據 (Structured Data)
B
非結構化數據 (Unstructured Data)
C
半結構化數據 (Semi-structured Data)
D
類別數據 (Categorical Data)
答案解析
半結構化數據 (Semi-structured Data) 介於結構化和非結構化之間,它不符合傳統資料庫的固定表格模式,但包含標籤 (tags) 或標記 (markers) 來區分語義元素和強制執行記錄與欄位之間的層次結構。例如 JSONXML 文件。
#7
★★★★★
學生的「考試分數」(例如 0 到 100 分)屬於哪一種資料型態 (Data Type)
A
數值型數據 (Numerical Data) - 連續型 (Continuous)
B
數值型數據 (Numerical Data) - 離散型 (Discrete)
C
類別型數據 (Categorical Data) - 名目型 (Nominal)
D
類別型數據 (Categorical Data) - 次序型 (Ordinal)
答案解析
考試分數是數值型 (Numerical),因為它是可以測量的數字。理論上分數可以在一個範圍內取任何值(例如可以有小數點),因此更傾向於連續型 (Continuous)連續型數據可以在給定範圍內取任何值,而離散型 (Discrete) 數據只能取特定的、可數的值(如學生人數)。類別型 (Categorical) 數據代表類別或標籤。
#8
★★★★★
"班級人數"是哪種資料型態 (Data Type)
A
數值型數據 (Numerical Data) - 連續型 (Continuous)
B
數值型數據 (Numerical Data) - 離散型 (Discrete)
C
類別型數據 (Categorical Data) - 名目型 (Nominal)
D
類別型數據 (Categorical Data) - 次序型 (Ordinal)
答案解析
班級人數是數值型 (Numerical),因為是數字。它只能是整數(不能有半個人),是可以計算的特定值,所以屬於離散型 (Discrete) 數據。
#9
★★★★★
將客戶依照「性別」(男、女)分類,這種數據屬於?
A
數值型數據 (Numerical Data)
B
類別型數據 (Categorical Data) - 次序型 (Ordinal)
C
類別型數據 (Categorical Data) - 名目型 (Nominal)
D
布林型數據 (Boolean Data)
答案解析
類別型數據 (Categorical Data) 用於表示不同的類別或群組。名目型 (Nominal) 數據是沒有內在順序的類別,例如性別、血型、顏色。次序型數據則是有順序的類別(如滿意度:非常滿意 > 滿意 > 普通)。布林型只有 True/False 兩種值。
#10
★★★★★
客戶滿意度調查結果,選項為「非常滿意、滿意、普通、不滿意、非常不滿意」,這是哪種資料型態 (Data Type)
A
數值型數據 (Numerical Data) - 離散型 (Discrete)
B
類別型數據 (Categorical Data) - 名目型 (Nominal)
C
類別型數據 (Categorical Data) - 次序型 (Ordinal)
D
文本數據 (Text Data)
答案解析
次序型 (Ordinal) 數據是類別型 (Categorical) 數據的一種,其類別之間具有明確的順序或等級關係,但無法量化差異。滿意度等級(非常滿意 > 滿意 > ...)就是典型的次序型數據。
#11
★★★★
公司內部的客戶關係管理 (CRM, Customer Relationship Management) 系統中的客戶資料,屬於哪種資料來源 (Data Source)
A
內部資料 (Internal Data)
B
外部資料 (External Data)
C
公開資料 (Open Data)
D
第三方資料 (Third-party Data)
答案解析
內部資料 (Internal Data) 是指由組織自身在營運活動中產生和收集的數據CRM 系統、企業資源規劃 (ERP, Enterprise Resource Planning) 系統、銷售紀錄、網站日誌等都屬於內部資料。外部資料來自組織外部,公開資料是可自由使用的外部資料,第三方資料是從外部購買的資料。
#12
★★★★
政府資料開放平臺 (Open Data Platform) 上提供的人口統計數據,屬於哪種資料來源 (Data Source)
A
內部資料 (Internal Data)
B
外部資料 (External Data) - 公開資料 (Open Data)
C
個人資料 (Personal Data)
D
專有資料 (Proprietary Data)
答案解析
外部資料 (External Data) 來自組織外部。公開資料 (Open Data)外部資料的一種,指由政府或非營利組織等機構發布,可供任何人自由使用、重製和分享的數據。政府開放平台上的數據是典型的公開資料。
#13
★★★
透過網路爬蟲 (Web Scraping) 技術從公開網站收集的產品評論,主要屬於哪一類資料來源 (Data Source)
A
內部資料庫
B
外部公開來源
C
內部感測器數據
D
員工問卷調查
答案解析
公開網站上的產品評論是來自公司外部的資訊來源,且通常是公開可存取的,因此屬於外部公開來源網路爬蟲 (Web Scraping) 是一種從網站自動提取數據的技術。
#14
★★★★★
人工智慧 (AI, Artificial Intelligence) 專案中,資料 (Data) 主要扮演什麼角色?
A
最終的決策者
B
模型學習和訓練的基礎
C
使用者介面的設計元素
D
硬體設備的替代品
答案解析
資料 (Data)人工智慧 (AI),尤其是機器學習 (ML, Machine Learning)核心驅動力AI 模型透過分析大量的資料來學習模式、識別關係並做出預測或決策。沒有足夠且高品質的資料,AI 模型就無法有效地學習和運作。
#15
★★★★
用於訓練機器學習 (ML) 模型,並且已經標註了正確答案或輸出的資料集稱為什麼?
A
訓練資料集 (Training Dataset)
B
測試資料集 (Test Dataset)
C
驗證資料集 (Validation Dataset)
D
原始資料 (Raw Data)
答案解析
監督式學習 (Supervised Learning) 中,訓練資料集 (Training Dataset)包含輸入特徵和對應正確輸出(標籤)的數據,模型使用這個資料集來學習輸入和輸出之間的關係。測試資料集用於評估訓練好的模型性能,驗證資料集用於調整模型超參數,原始資料是未經處理的數據。
#16
★★★★
確保資料集中的數據反映真實世界的情況,並且沒有錯誤或誤導性信息,是指資料品質的哪個面向?
A
準確性 (Accuracy)
B
完整性 (Completeness)
C
一致性 (Consistency)
D
及時性 (Timeliness)
答案解析
準確性 (Accuracy) 是衡量數據與其所代表的真實世界實體或事件相符的程度。高準確性的數據對於建立可靠的 AI 模型至關重要。完整性指數據沒有缺失值,一致性指數據在不同地方表示一致,及時性指數據是最新的。
#17
★★★★
資料集中缺少某些欄位的值,會影響資料品質的哪個面向?
A
準確性 (Accuracy)
B
完整性 (Completeness)
C
一致性 (Consistency)
D
獨特性 (Uniqueness)
答案解析
完整性 (Completeness) 指的是數據記錄中是否存在缺失值。不完整的數據會導致分析結果偏差或模型性能下降。處理缺失值是數據前處理的重要步驟。獨特性指數據記錄沒有重複。
#18
★★★★★
關於大數據 (Big Data) 的「真實性 (Veracity)」,下列敘述何者正確?
A
指數據量非常龐大。
B
指數據產生的速度非常快。
C
數據的不確定性、可信度和品質
D
指數據的種類格式非常多樣。
答案解析
真實性 (Veracity) 是大數據的關鍵特性之一,它關注的是數據的品質和可信度。由於大數據來源多樣,可能包含雜訊、錯誤、偏差或不一致性,因此評估和處理數據的真實性非常重要。
#19
★★★★
從龐大的數據中提取有用的見解和商業價值,是指大數據 (Big Data) 的哪個特性?
A
資料量 (Volume)
B
速度 (Velocity)
C
多樣性 (Variety)
D
價值 (Value)
答案解析
價值 (Value) 是大數據的最終目標。儘管數據量大、速度快、種類多,但如果不能從中提取出有意義的資訊、洞察或可執行的決策,那麼這些數據本身就沒有商業價值。數據的價值密度通常不高,需要透過分析來發掘。
#20
★★★
哪種檔案格式常用於儲存表格形式結構化數據 (Structured Data),並使用逗號分隔值?
A
JSON (JavaScript Object Notation)
B
XML (Extensible Markup Language)
C
CSV (Comma-Separated Values)
D
TXT (Plain Text)
答案解析
CSV (Comma-Separated Values) 是一種簡單的文本格式,用於儲存表格數據(數字和文本)。每行代表一條記錄,每條記錄中的欄位用逗號分隔。它廣泛用於數據交換。JSONXML 是半結構化數據格式,TXT 是純文本。
#21
★★★
哪種資料庫類型最適合儲存關係固定、結構清晰的數據,如客戶訂單資料?
A
關聯式資料庫 (Relational Database) (e.g., MySQL, PostgreSQL)
B
NoSQL 資料庫 (Not Only SQL Database) (e.g., MongoDB)
C
圖形資料庫 (Graph Database) (e.g., Neo4j)
D
時間序列資料庫 (Time Series Database) (e.g., InfluxDB)
答案解析
關聯式資料庫 (Relational Database) 使用表格來儲存數據,表格之間可以建立關聯。它非常適合儲存結構化、關係明確的數據,並支援複雜的 SQL (Structured Query Language) 查詢。NoSQL 適用於非結構化或半結構化數據,圖形資料庫用於儲存關係數據,時間序列資料庫用於儲存時間相關數據。
#22
★★★
物聯網 (IoT, Internet of Things) 設備持續收集溫度、濕度等數據,是哪種資料收集方法 (Data Collection Method)
A
問卷調查 (Surveys)
B
訪談 (Interviews)
C
感測器數據收集 (Sensor Data Collection)
D
網路爬蟲 (Web Scraping)
答案解析
物聯網 (IoT) 設備上的感測器 (Sensors) 可以自動、持續地收集環境數據(如溫度、濕度、光線、壓力等)或狀態數據。這種方法稱為感測器數據收集 (Sensor Data Collection)。問卷和訪談是主動向人收集信息,網路爬蟲是從網站提取數據。
#23
★★★
一家公司想要了解市場上競爭對手的產品價格,他們可能會使用哪種方法從電商網站自動收集資訊?
A
內部銷售記錄分析
B
焦點小組訪談
C
網路爬蟲 (Web Scraping)
D
政府公開資料
答案解析
網路爬蟲 (Web Scraping)自動化地從網站上提取大量信息的技術。公司可以利用爬蟲定期抓取競爭對手在電商網站上公開的產品價格、規格等信息,進行市場分析。
#24
★★★
由研究人員直接透過實驗或觀察收集而來的第一手資料稱為什麼?
A
初級資料 (Primary Data)
B
次級資料 (Secondary Data)
C
內部資料 (Internal Data)
D
外部資料 (External Data)
答案解析
初級資料 (Primary Data) 是指研究者為了特定的研究目的而首次收集的原始資料,例如透過問卷、訪談、實驗直接取得的數據。相對地,次級資料 (Secondary Data) 是指由他人收集、已經存在的資料,研究者將其用於新的分析目的,例如使用政府統計數據或已發表的研究報告。
#25
★★★
研究人員使用政府公布的人口普查數據來分析地區的教育水平,這些數據屬於?
A
初級資料 (Primary Data)
B
次級資料 (Secondary Data)
C
實驗資料 (Experimental Data)
D
觀察資料 (Observational Data)
答案解析
次級資料 (Secondary Data)先前由他人為其他目的收集的數據。政府人口普查數據是由政府收集發布的,研究人員將這些現有數據用於自己的分析,因此屬於次級資料。
#26
★★★
描述數據的數據(例如,資料的來源、創建日期、格式等)稱為什麼?
A
原始資料 (Raw Data)
B
結構化數據 (Structured Data)
C
元數據 (Metadata)
D
大數據 (Big Data)
答案解析
元數據 (Metadata)「關於數據的數據」。它提供了數據的背景資訊,例如數據的定義、來源、格式、結構、創建時間、權限等,有助於理解、管理和使用數據。
#27
★★★
如果一個客戶的年齡在一個資料表被記錄為 30 歲,在另一個表被記錄為 35 歲,這違反了資料品質的哪個面向?
A
準確性 (Accuracy)
B
完整性 (Completeness)
C
一致性 (Consistency)
D
及時性 (Timeliness)
答案解析
一致性 (Consistency) 指的是數據在不同的系統或記錄中保持一致,沒有矛盾。同一個客戶在不同地方有不同的年齡記錄,就表示數據存在不一致的問題。
#28
★★★
分析上個月的銷售數據來預測下個月的趨勢,這主要依賴資料品質的哪個面向?
A
準確性 (Accuracy)
B
完整性 (Completeness)
C
一致性 (Consistency)
D
及時性 (Timeliness)
答案解析
及時性 (Timeliness) 指的是數據是否在其需要的時間範圍內可用且是最新的。使用過時的數據進行預測可能會導致不準確的結果。分析上個月的數據來預測下個月,就要求上個月的數據是及時可用的。
#29
★★★★
機器學習 (ML) 中,模型的「輸入」通常稱為什麼?
A
特徵 (Features)
B
標籤 (Labels)
C
樣本 (Samples)
D
參數 (Parameters)
答案解析
特徵 (Features)模型用來進行預測或分類的輸入變數或屬性。標籤 (Labels) 是監督式學習中模型要預測的目標輸出。樣本 (Samples) 是資料集中的單個數據點或實例。參數 (Parameters) 是模型在訓練過程中學習到的內部變數。
#30
★★★★
下列何者不是直接從資料中學習,而是基於一組預先定義的規則來運作的系統?
A
監督式學習模型
B
非監督式學習模型
C
強化學習模型
D
專家系統 (Expert System)
答案解析
專家系統 (Expert System) 是一種早期的 AI,它基於人類專家的知識和經驗,將其編碼成一組「如果-那麼」(If-Then) 的規則,用來解決特定領域的問題。它不從數據中學習,而是依賴預先定義的規則庫。而監督式、非監督式和強化學習都是機器學習的方法,需要從資料中學習。