基于音码相似度的拼音模糊查询算法.doc
文本预览下载声明
基于音码相似度的拼音模糊查询算法
2008年第8期
计算机与现代化
JISUANJIYUXIANDAIHUA总第156期
文章编号:1006-2475(2008)08-0018-03
基于音码相似度的拼音模糊查询算法
阎红灿,张淑芬,谷建涛,阎少宏
(河北理工大学理学院,河北唐山063009)
摘要:论述了拼音模糊检索技术在信息管理和网络信息搜索系统中的必要性,描述了基于音码相似度的语言模糊查询算法
及实现同音字和近音字检索算法,在中文信息检索中有很好的应用价值.并结合实例,在获得同音字数据库基础上,提出
了基于音码相似度阈值的模糊查询算法,给出了通过拼音数据库实现中文全拼和首字母简拼检索数据库字段的实现方案,
从查全率和查准率两个方面对算法的检索效果进行了评价,同时分析了音码相似度阈值对查全率和查准率的影响.
关键词:拼音字典;音码相似度;语音模糊查询;同音字
中图分类号..Teal1文献标识码:A
AnArithmeticofSpeechFuzzyQueryBasedonSpellingSimilarity
YANHong-can,ZHANGShu-fen,GUJian-tao,YANShao-hong
(CollegeofSciences,HebeiPolytechnicUniversity,Tangshan063009,China)
Abstract:Thispaperdiscussesthenecessaryofapplyingspeechfuzzyquerytechniquetoinformationmanagementsystemand
Webinformationsearchsystem,describesthespeechfuzzyqueryarithmeticandthemethodofrealizinghomophoneorsimilar
soundwordsquery,thistechniqueplaysall—rightroleininformationretrieval,andwithexamples,onthebasesofobtaininghom-
ophonewordsdatabase,siresthewayofachievingfullspellingorthefirstcharacterofChinesewords,andfurthermore,bythe
rateoffullqueryandexactquery,evaluatesthequeryeffectofthisarithmetic,atthesalnetime,analysestheinfluenceofspell—
ingsimilaritycliqueontherateoffullqueryandexactquery.
Keywords:spellingdictionary;spellingsimilarity;speechfuzzyquery;homophonewords
0引言
随着信息时代的到来和Internet技术的发展,查
询已成为人们日常生活中不可缺少的部分.对于中
文信息的查询,一般都是通过对字符进行比较,判断
等方法来实现的,因此易于实现精确的汉字信息查
询,即使模糊查询也只是对关键词的重新排列检索,
没有实现真正意义的汉字模糊查询.然而,在中文信
息管理系统或网络信息搜索系统中,用户需要一种拼
音的模糊查询,如查找一个名叫李明的人,用户即
使输入黎明,李敏或李明韩也能检索到要搜
索的数据,也就是说,只要知道某一信息的部分读音
或近似读音,并不知道汉字的具体写法,通过拼音检
索就能把所有基本符合这个读音的记录内容全部显
示出来,这就是拼音模糊查询技术.本文介绍的拼音
模糊查询技术是指通过汉字拼音的查询,实现每一个
汉字的同音和近音(或者谐音)查询.
汉语单字同音现象是非常严重的.以常用6763
个汉字为例,没有同音字的汉字只有16个,其它汉字
都有同音字,其中最多的有116个同音字¨J.拼音模
糊检索技术的一个关键技术就是实现同音字的检索
功能.笔者借用Windows系统下的输入法生成器,生
成了个文本文件的拼音字典,在此基础上构造拼音
数据库,给出了实现同音字检索算法J.此算法基
于拼音检索,检索成功率可达100%,但需多次检索
拼音数据库(随着关键字数的增加,扫描数据库的次
数以指数级增长),时间消耗太大.
另外,由于地方口音的不同,或者其它原因,用户
收稿日期:2007-07-26
基金项目:河北省教育厅基金资助项目(0110052)
作者简介:阎红灿(1968.),女,河北保定人,河北理工大学理学院副教授,博士,研究方向:信息系统与信息工程,数据库与
Web数据管理;张淑芬(1973一),女,河北唐山
显示全部