文档详情

基于音码相似度的拼音模糊查询算法.doc

发布：2018-06-24约5.85千字共9页下载文档

文本预览下载声明

基于音码相似度的拼音模糊查询算法 2008年第8期计算机与现代化 JISUANJIYUXIANDAIHUA总第156期文章编号:1006-2475(2008)08-0018-03 基于音码相似度的拼音模糊查询算法阎红灿,张淑芬,谷建涛,阎少宏 (河北理工大学理学院,河北唐山063009) 摘要:论述了拼音模糊检索技术在信息管理和网络信息搜索系统中的必要性,描述了基于音码相似度的语言模糊查询算法及实现同音字和近音字检索算法,在中文信息检索中有很好的应用价值.并结合实例,在获得同音字数据库基础上,提出了基于音码相似度阈值的模糊查询算法,给出了通过拼音数据库实现中文全拼和首字母简拼检索数据库字段的实现方案, 从查全率和查准率两个方面对算法的检索效果进行了评价,同时分析了音码相似度阈值对查全率和查准率的影响. 关键词:拼音字典;音码相似度;语音模糊查询;同音字中图分类号..Teal1文献标识码:A AnArithmeticofSpeechFuzzyQueryBasedonSpellingSimilarity YANHong-can,ZHANGShu-fen,GUJian-tao,YANShao-hong (CollegeofSciences,HebeiPolytechnicUniversity,Tangshan063009,China) Abstract:Thispaperdiscussesthenecessaryofapplyingspeechfuzzyquerytechniquetoinformationmanagementsystemand Webinformationsearchsystem,describesthespeechfuzzyqueryarithmeticandthemethodofrealizinghomophoneorsimilar soundwordsquery,thistechniqueplaysall—rightroleininformationretrieval,andwithexamples,onthebasesofobtaininghom- ophonewordsdatabase,siresthewayofachievingfullspellingorthefirstcharacterofChinesewords,andfurthermore,bythe rateoffullqueryandexactquery,evaluatesthequeryeffectofthisarithmetic,atthesalnetime,analysestheinfluenceofspell— ingsimilaritycliqueontherateoffullqueryandexactquery. Keywords:spellingdictionary;spellingsimilarity;speechfuzzyquery;homophonewords 0引言随着信息时代的到来和Internet技术的发展,查询已成为人们日常生活中不可缺少的部分.对于中文信息的查询,一般都是通过对字符进行比较,判断等方法来实现的,因此易于实现精确的汉字信息查询,即使模糊查询也只是对关键词的重新排列检索, 没有实现真正意义的汉字模糊查询.然而,在中文信息管理系统或网络信息搜索系统中,用户需要一种拼音的模糊查询,如查找一个名叫李明的人,用户即使输入黎明,李敏或李明韩也能检索到要搜索的数据,也就是说,只要知道某一信息的部分读音或近似读音,并不知道汉字的具体写法,通过拼音检索就能把所有基本符合这个读音的记录内容全部显示出来,这就是拼音模糊查询技术.本文介绍的拼音模糊查询技术是指通过汉字拼音的查询,实现每一个汉字的同音和近音(或者谐音)查询. 汉语单字同音现象是非常严重的.以常用6763 个汉字为例,没有同音字的汉字只有16个,其它汉字都有同音字,其中最多的有116个同音字¨J.拼音模糊检索技术的一个关键技术就是实现同音字的检索功能.笔者借用Windows系统下的输入法生成器,生成了个文本文件的拼音字典,在此基础上构造拼音数据库,给出了实现同音字检索算法J.此算法基于拼音检索,检索成功率可达100%,但需多次检索拼音数据库(随着关键字数的增加,扫描数据库的次数以指数级增长),时间消耗太大. 另外,由于地方口音的不同,或者其它原因,用户收稿日期:2007-07-26 基金项目:河北省教育厅基金资助项目(0110052) 作者简介:阎红灿(1968.),女,河北保定人,河北理工大学理学院副教授,博士,研究方向:信息系统与信息工程,数据库与 Web数据管理;张淑芬(1973一),女,河北唐山

显示全部

相似文档