生医光谱与光学影像技术.ppt
文本预览下载声明
生醫光譜與光學影像技術 面向文件的智能信息處理 授課老師:高成炎教授 修課學生:蔡尚儒(、郭濬騰( 時間地點:2007/06/21 outline 資訊檢索 資訊提取 文件自動分類 第一節--資訊檢索 資訊檢索的任務 資訊檢索系統的組成 Boolean Model Vector Space Model 檔案索引和停用詞表 資訊檢索系統的評價 資訊檢索任務的困難 資訊檢索 1.資訊檢索的任務 為獲得須求的資訊,我們常使用搜尋引擎。 資訊檢索 Google的特殊功能舉例 或,鍵入【台語--資料庫】 須連接在一起,鍵入【”台語資料庫”】 排除,鍵入【休旅車 -nissan】 定義,鍵入【define:台語】 特定站點,鍵入【site:.tw 台語 】 資訊檢索 2.資訊檢索系統的組成 通常系統內部有一個包羅萬千的【資料庫】,搜尋引擎從中尋找用戶須求的內容。 由於資料庫很大,又期待很快找到要找的資料,所以要建立資料庫【索引】,和【回饋機制】。 資訊檢索 2.資訊檢索系統的組成 以下是有名的三種資訊檢索模型。接下來介紹的是前兩種模型: Boolean Model Vector Space Model Probabilistic Model 資訊檢索 3.Boolean Model The mathematics of logic, developed by English mathematician George Boole in the mid-19th century. And、Or、Not組成的檢索系統 資訊檢索 3.Boolean Model 可指定【可出現】和【不可出現】的關鍵字,故可利用修改輸入的關鍵字和語法,去獲得更精簡的搜尋結果。然而… 出現的缺點是,有時一張圖、一篇文章雖未含有關鍵字,但卻是和客戶須求的資料密切相關。 資訊檢索 4.Vector Space Model 查尋和檔案都表示成n維空間向量,檢索統計兩者間的相關性,並按照相似性的大小排序,表現給客戶參考。以下是Model的基本組成… Index term:索引項是代表檔案主題的關鍵字。 Vocabulary:所有檢索項構成一個詞彙表。換言之,詞彙表可定義一個n維空間,將n個檢索項,表示成T1、T2、…、Tn。 資訊檢索 4.Vector Space Model 一種建立檔案向量的方式是,以index term在檔案中是否出現,來建立檔案向量。以下是一例: d1=(1,0,1),檔案d1中,有T1、T3,不含T2。 另一種建立檔案向量的方式是,以index term在檔案中出現的次數建立檔案向量。以下是一例: d1=(2,3,5),檔案d1中,出現2次T1、3次T2和5次T3 。 d2=(3,7,1),檔案d2中,出現3次T1、7次T2和1次T3。 q =(0,0,2),查尋q中,出現2次T3。 資訊檢索 4.Vector Space Model 最後,利用【內部檔案向量】和【外部查尋向量】間的距離、夾角大小,來排列出相關性。與查尋向量距離、夾角越小的檔案向量,其相關性越大。 夾角餘弦法,是較常見的計算方法。當兩向量間的夾角越小,則兩向量間的檔案相關性越大。 資訊檢索 5.檔案索引和停用詞表 介紹Inverted index的機制,如下圖: Index:列出檔案庫中所有的索引項。 Postings list:對應一個index,且紀錄了多個其所對應的檔案,數字則表示【檔案中第n個詞】符合索引。 資訊檢索 5.檔案索引和停用詞表 利用Inverted index,我們不須掃描所有檔案,只須掃描索引,從位置表獲得對應的檔案。此外.. 我們須建立【索引的停用詞表(stop list)】,例如:我、的、the、of…。根據統計,只要停用十個stop list上的字,可節省一半以上的儲存空間。 資訊檢索 6.資訊檢索系統的評價 從兩個角度出發: 檢索速度能多快,是否能快速完成搜尋。 檢索系統的準確度,通常用以下準則去看: 檢索結果中有多少檔案真正相關,用Precision量化計算: Precision= 檔案庫中多少相關檔案被系統檢索出來,用Recall量化計算: Recall= 資訊檢索 6.資訊檢索系統的評價 Fallout可衡量檔案庫中,所有無關的檔案有多少被錯誤的檢索出來,量化計算的公式如下: Fallout= 有高的準確率將檔案檢索出來,也須能將其【排到搜尋結果的前面幾頁】,而不是都在後面幾頁或散佈在各頁,使用者操作多次後,便會覺得此檢索系統不好使用。 資訊檢索 7
显示全部