描述統計是什麼?連續變項與類別變項有什麼區分?
當我們瀏覽美國運通簽帳白金卡的內容後,再前往其他網站時,是否發現螢幕上突然出現信用卡相關廣告? 相信多數人都有過這種「被盯上」的經驗。這並非巧合,而是背後的大數據在運作。你的點擊、停留時間與瀏覽內容,都會被轉化為大量數據,等待分析。
透過一連串的資料處理與「描述統計」,系統能夠勾勒出精準的消費輪廓。從這些看似雜亂的數據中,分析者能描繪出你的搜尋意圖、年收入與興趣等特徵。這正是描述統計的力量所在。
什麼是描述統計?為什麼需要描述統計?
描述統計(Descriptive Statistics)是統計學中用來整理、摘要與呈現資料特性的方法。目的是用來幫助我們快速了解資料的整體樣貌。
描述統計能讓大量且複雜的數據變得有意義,例如平均數、百分比或圖表等。如果沒有描述統計,數據只是一堆數字,我們無法看出趨勢或特徵,更難做出正確判斷,以及後續的種種決策。
常見的描述統計方法
- 中心趨勢測量
- 變異性測量
- 分佈形狀
中心趨勢測量(Measures of Central Tendency)
中心趨勢用來表示資料「集中在哪裡」,也就是一組數據的代表值。常見的中心趨勢測量方法有平均數(mean)、中位數(median)和眾數(mode)。
「平均數」能反映整體趨勢,但容易受到極端值影響;「中位數」能較穩定地代表資料的中心;而「眾數」則顯示資料中最常出現的值,適合分類型資料。
變異性測量(Measures of Variability)
變異性用來描述資料的分散程度,也就是各個數據彼此之間有多大的差異。常見的變異性測量方法有極差(range)、四分位距(interquartile range, IQR)、變異數(variance)與標準差(standard deviation)。
「極差」反映最大值與最小值之間的距離;「四分位距」則排除極端值後,呈現中間一半資料的範圍;而「變異數」與「標準差」能更精確地表示資料相對於平均數的離散程度,標準差越大,資料越分散。
分布形狀(Shape of Distribution)
分布形狀用來說明資料在數軸上的整體排列方式。常見的衡量指標包括偏態(skewness)與峰度(kurtosis)。
「偏態」用來判斷資料是否向左或向右偏斜,反映平均數與中位數的關係;「峰度」則用來觀察分布曲線是尖峭還是平緩,說明資料集中或分散的程度。此外,透過「直方圖(histogram)」或「盒形圖(boxplot)」等圖表,也能直觀地觀察資料的分布形態。
在了解了各種描述統計的方法後,我們會發現,並不是所有資料都能用同樣的方式來分析。有些資料以「名稱」或「類別」呈現,例如性別、職業或信用卡種類;有些則是可以用數值衡量的,如收入、年齡或停留時間。
這兩種資料性質不同,適用的統計方法也不一樣。因此,在進行任何分析前,我們必須先區分資料屬於類別變項還是連續變項。
類別變項與連續變項
在統計分析中,資料可依性質分為兩大類,分別為「類別變項(categorical variables)」和「連續變項(continuous variables)」,了解兩者的差異,是選擇正確分析方法的第一步。
類別變項
類別變項是指無法以數值大小進行運算的資料,用來表達名稱或分類。例如性別(男、女)、付款方式(現金、信用卡、電子支付)或城市名稱等。這類資料強調「種類的不同」,而非「數值的多寡」。
常用的描述統計方法包括次數(count)、百分比(percentage)與眾數(mode),並可搭配長條圖或圓餅圖進行呈現。
連續變項
連續變項則代表可以以數值衡量、具有連續性的資料,例如年齡、收入、停留時間或消費金額等。這類資料可以進行加減運算,也能計算平均數、標準差與分布形狀。常見的視覺化方式包括直方圖(histogram)與盒形圖(boxplot)。
了解變項的類型後,我們就能判斷該使用哪些描述統計指標。不同的變項,著重的統計特徵也不同。對於連續變項,我們通常會關心資料的集中趨勢與離散程度。集中趨勢(如平均數與中位數)能反映資料的大致位置;離散程度(如標準差與四分位距)則顯示資料分布的廣窄。 兩者搭配,能幫助我們同時了解資料的「中心」與「變化」。
對於類別變項,則多以次數、比例或眾數等指標來描述。這類資料沒有數值間距的概念,因此無法計算平均數或標準差。
結論
描述統計是讓數據發揮價值的第一步,將龐大、原始且看似雜亂的數字,轉化為如平均數、百分比或圖表等有意義且易於理解的資訊。若沒有這個過程,我們就無法快速的了解數據的特徵,影響後續的決策。
就如同開頭所提到的,當我們在瀏覽美國運通簽帳白金卡的內容後,Google 或其他平台會開始分析你的行為,例如計算你的平均停留時間(連續變項的平均數),以了解你對產品的興趣程度,透過這些指標的組合,系統得以精準描繪出你的輪廓,並判斷你是否為那位「值得推薦白金卡」的潛在客戶。
總而言之,無論是判斷資料類型(類別或連續),描述統計的核心目的,都是幫助我們「總結過去、看清現況」。建立好描述統計的基礎後,我們就能夠更進一步地運用推論統計或機器學習,去進行「預測未來」,讓數據真正發揮其力量。