六章记忆基础理解Memory-basedreasoning,MBRP.ppt
文本预览下载声明
第六章 記憶基礎理解 (Memory-based reasoning, MBR) 如何進行 (學習階段) 如何進行 (預測階段) 解決問題的三個主題 距離函數 組合函數 例 子 例 子 例 子 例 子 例 子 例 子 例 子 例 子 組合函數 其他距離函數 如何獲得最佳結果 MBR的優點 MBR的缺點 * * 定義:用人工智慧的方式,以現有資料庫對新資料進行分類與預測。 記憶基礎理解 (Memory-based reasoning, MBR) 記憶基礎理解記憶基礎理解可以應用的行業: ● 詐欺案件判斷。 ● 顧客反應預測。 ● 醫療服務追蹤。 ● 問卷資料分類。 選擇適當的歷史資料 關鍵:資料的範圍必須能涵蓋原始資料 抽樣方法: 找出具效率的方式代表歷史資料 減少歷史資料庫的記錄數量 (圖9.3、9.4) 設定距離函數、組合函數、和鄰近資料的組數 (K值) 案例研究 – 新聞報導分類 52,751 41,902 70 主題 116,358 47,083 121 地區 2,523 2,242 21 產品 42,058 38,562 9 市場 57,430 38,308 112 工業 4,200 3,926 28 政府 總出現數 文件數 編碼數 類別 案例研究 – 新聞報導分類 選擇測試資料組 : 49,652則新聞稿, 每一則平均2700字與8個編碼 2. 設定距離函數 利用一個叫 “相關回饋(Relevance Feedback)” 的測試標準, 比對任何文件的相似度 (參見課本) ; B與A的距離: d(A, B) = 1 - Score(A, B) / Score(A, A) 案例研究 – 新聞報導分類 3. 設定組合函數 為未分類的新聞找出最相似者 FE, JA, CA 0.607 0.393 4 FE, JA, MI 0.631 0.369 3 FE, JA, CA 0.654 0.346 2 FE, CA, CO 0.924 0.076 1 編碼 權重 距離 相似者 案例研究 – 新聞報導分類 3. 設定組合函數 為未分類的新聞評分 (門檻值為1) 0.631 0 0.631 0 0 MI 1.892 0.607 0.631 0.654 0 JA 2.185 0.607 0.631 0.654 0.924 FE 0.924 0 0 0 0.924 CO 2.185 0.607 0 0.654 0.924 CA 評分 4 3 2 1 編碼 案例研究 – 新聞報導分類 4. 設定鄰近資料組數 1 – 11組 若要配置在單一編碼, 則選擇 較少組數較合適 案例研究 – 新聞報導分類 5. 結果(200則, 半數同意才合格) 案例研究 – 新聞報導分類 2/4 2/4 A,B,C,D A,B,E,F 0/2 0/4 A,B,C,D E,F 4/8 4/4 A,B,C,D A,B,C,D,E,F,G,H 2/2 2/4 A,B,C,D A,B 4/4 4/4 A,B,C,D A,B,C,D 準度 反查 正確編碼 MBR編碼 測量評分的效用:反查(Recall)與準度(Precision) 關鍵特性: 1. 明確界定(Well-defined) : d(A, B) = 0 2. 區辨性(Identity) : d(A, A) = 0 3. 可互換性(Commutability) : d(A, B) = d(B, A) 4. 三角不等式(Triangle Inequality) : d(A, C) = d(A, B)+d(B, C) 絕對值 : |A-B| ; 平方差 : (A-B)^2 ; 標準化絕對值 : |A-B|/(最大差值) 民主方式 (投票方式) 讓最近似的K個鄰近資料以「投票」的方式選出答案。 加權投票 著重在“加權” 最適用問題:類別變數 加權對於結果和信心水準只有小幅度影響,在部份鄰近資料比較近,而部份比較遠的情況下,加權才會有較大的效果。 加入迴歸分析 一次建立一個單變數的距離函數 45,000 45 M 5 55,000 33 F 4 105,000 52 M 3 64,000 51 M 2 19,000 27 F 1 薪水 年齡 性別 紀錄編號 採用標準化絕對值與將三種距離加總 0 .48 .28 .24 .72 45 .48 0 .76 .72 .24 33 .28 .76 0 .04 1 52 .24 .72 .04 0 .96 51 .72 .24 1 .96 0 27 45 33 52 51 27 年齡 同理也可對薪水做距離矩陣 加總 : dsum(A
显示全部