Chapter3-南华大学资讯管理学系暨研究所.ppt
文本预览下载声明
* Data Mining * 建立新屬性 利用舊屬性將探勘所需的新屬性建立出來。 例如:整合後的資料只包含會員的生日,然而探勘時要用的屬性是會員的年齡,由於年齡可以從生日推算而出,因此可在此步驟建立出所需要的年齡屬性。(Derived Variables) * Data Mining * 資料正規化 Data Normalization 資料正規化的主要目的是將不同標準之下所記錄的資料轉換到同一個標準,以便提高分析時的準確度。資料的正規化會將資料重新分佈在一個較小而且特定的範圍內。 例如:台灣人民的平均所得遠高於菲律賓人。一個月賺一萬八千元台幣在台灣算是中低收入,然而在菲律賓,這卻是相當於三個大學教授的薪水。若是直接拿兩國人民的收入數字來做比較,便會產生不夠客觀的問題。 * Data Mining * 極值正規化 (1/2) 極值正規化的公式如下: 其中v為正規化前的數值,其範圍為[a, b]; v’為正規化後的數值,其範圍為[c, d]。 a b c d v v’ * Data Mining * 極值正規化 (2/2) 假設一般臺灣上班族的月收入範圍為[20000, 100000],而一般菲律賓上班族的月收入範圍為[2000, 10000];在台灣收入30000元相當於在菲律賓收入多少? v = 30000 a = 20000 b = 100000 c = 2000 d = 10000 將以上數字代入公式中即可求得v正規化後的數值為 極值正規化適合用在需要將資料規範在某一個指定範圍內的情況。 * Data Mining * Z-分數正規化 公式 範例:假設臺灣人月收入平均為35000元,標準差是10000元,利用Z-分數法將月收入30000元做正規化,將得到 負數表示收入低於平均,正數表示高於平均;結果之絕對值越小,表示偏離平均值程度越小,反之越高 Z-分數正規化適合用在需要了解數值與平均分佈之間的關係時 * Data Mining * 十進位正規化 十進位正規化之公式如下: ,其中i是使得Max(|v’|)?1的最小整數。 假設台灣上班族最高月收入為100000元,因此使得正規化後的結果小於或等於1的最小整數i為5。則月收入30000元經由十進位正規化之後將會得到: 十進位正規化適合用在要將數字壓縮到區間[0,1]的情況。 * Data Mining * 資料形式轉換 資料探勘技術所能處理的資料形式(data forms) 通常可分為四種:本文形式、時間形式、交易形式、關聯形式。 本文形式:通常表示內容或是文件,可看作是字串的集合。例如:新聞或是各種網頁的內容。 時間形式:通常儲存著時間序列(time series),記錄隨時間而改變的資料。例如:證劵交易的行情變化或是顧客的交易歷程。 交易形式:記錄交易的項目。例如:顧客單次採購的商品項目所成之集合。 關聯形式:即關聯式資料庫中的表格,是最常用的資料形式,可儲存多種型態的資料。 * Data Mining * 資料探勘技術適用之資料形式(1/6) 多層次資料一般化 (multilevel data generalization) 主要目標是要在資料庫中發掘出較高層次的資料觀點(view),以表達某些人類比較容易了解的觀念。例如了解來自不同區域的學生各科成績之間的關係。(concept hierarchy) 合適之資料形式:關聯形式,主要乃藉由收集統計關聯式資料庫表格的對應屬性資料,以發掘出較高層次的資料觀點。 * Data Mining * 資料探勘技術適用之資料形式 (2/6) 分類法 (data classification) 主要目的是在訓練樣本中發掘出分類的規則,以用來分類新進資料。 合適之資料形式:適用於關聯形式的資料,以關聯式資料庫表格來儲存訓練樣本,以一個屬性做為分類的目標屬性,其中記錄著資料樣本的分類標記(class label),而其他屬性則被當作分類演算法的輸入數據。 * Data Mining * 資料探勘技術適用之資料形式 (3/6) 群集分析 (cluster analysis) 根據資料樣本的樣式(pattern),將最相似的資料樣本分成一個群集;同一群集的資料樣本差異性小,而不同群集的資料樣本差異性大。 合適之資料形式如同分類法,適用於關聯形式的資料,以關聯式資料庫表格來儲存欲進行群集分析探勘的資料樣本。 * Data Mining * 資料探勘技術適用之資料形式 (4/6) 關連法則探勘 (association rules mining) 關連法
显示全部