基于音码相似度的拼音模糊查询算法

基于音码相似度的拼音模糊查询算法

ID:12722824

大小:29.50 KB

页数:9页

时间:2018-07-18

基于音码相似度的拼音模糊查询算法_第1页
基于音码相似度的拼音模糊查询算法_第2页
基于音码相似度的拼音模糊查询算法_第3页
基于音码相似度的拼音模糊查询算法_第4页
基于音码相似度的拼音模糊查询算法_第5页
资源描述:

《基于音码相似度的拼音模糊查询算法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于音码相似度的拼音模糊查询算法2008年第8期计算机与现代化JISUANJIYUXIANDAIHUA总第156期文章编号:1006-2475(2008)08-0018-03基于音码相似度的拼音模糊查询算法阎红灿,张淑芬,谷建涛,阎少宏(河北理工大学理学院,河北唐山063009)摘要:论述了拼音模糊检索技术在信息管理和网络信息搜索系统中的必要性,描述了基于音码相似度的语言模糊查询算法及实现同音字和近音字检索算法,在中文信息检索中有很好的应用价值.并结合实例,在获得同音字数据库基础上,提出了基于音码相似度阈值的模糊查询算法,给出了通过拼音数据库实现中文全拼

2、和首字母简拼检索数据库字段的实现方案,从查全率和查准率两个方面对算法的检索效果进行了评价,同时分析了音码相似度阈值对查全率和查准率的影响.关键词:拼音字典;音码相似度;语音模糊查询;同音字中图分类号..Teal1文献标识码:AAnArithmeticofSpeechFuzzyQueryBasedonSpellingSimilarityYANHong-can,ZHANGShu-fen,GUJian-tao,YANShao-hong(CollegeofSciences,HebeiPolytechnicUniversity,Tangshan063009,Chi

3、na)Abstract:ThispaperdiscussesthenecessaryofapplyingspeechfuzzyquerytechniquetoinformationmanagementsystemandWebinformationsearchsystem,describesthespeechfuzzyqueryarithmeticandthemethodofrealizinghomophoneorsimilarsoundwordsquery,thistechniqueplaysall—rightroleininformationretri

4、eval,andwithexamples,onthebasesofobtaininghom-ophonewordsdatabase,siresthewayofachievingfullspellingorthefirstcharacterofChinesewords,andfurthermore,bytherateoffullqueryandexactquery,evaluatesthequeryeffectofthisarithmetic,atthesalnetime,analysestheinfluenceofspell—ingsimilarityc

5、liqueontherateoffullqueryandexactquery.Keywords:spellingdictionary;spellingsimilarity;speechfuzzyquery;homophonewords0引言随着信息时代的到来和Internet技术的发展,查询已成为人们日常生活中不可缺少的部分.对于中文信息的查询,一般都是通过对字符进行比较,判断等方法来实现的,因此易于实现精确的汉字信息查询,即使模糊查询也只是对关键词的重新排列检索,没有实现真正意义的汉字模糊查询.然而,在中文信息管理系统或网络信息搜索系统中,用户需要一种

6、拼音的模糊查询,如查找一个名叫"李明"的人,用户即使输入"黎明","李敏"或"李明韩"也能检索到要搜索的数据,也就是说,只要知道某一信息的部分读音或近似读音,并不知道汉字的具体写法,通过拼音检索就能把所有基本符合这个读音的记录内容全部显示出来,这就是拼音模糊查询技术.本文介绍的拼音模糊查询技术是指通过汉字拼音的查询,实现每一个汉字的同音和近音(或者谐音)查询.汉语单字同音现象是非常严重的.以常用6763个汉字为例,没有同音字的汉字只有16个,其它汉字都有同音字,其中最多的有116个同音字¨J.拼音模糊检索技术的一个关键技术就是实现同音字的检索功能.笔者借

7、用Windows系统下的输入法生成器,生成了个文本文件的拼音字典,在此基础上构造拼音数据库,给出了实现同音字检索算法J.此算法基于拼音检索,检索成功率可达100%,但需多次检索拼音数据库(随着关键字数的增加,扫描数据库的次数以指数级增长),时间消耗太大.另外,由于地方口音的不同,或者其它原因,用户收稿日期:2007-07-26基金项目:河北省教育厅基金资助项目(0110052)作者简介:阎红灿(1968.),女,河北保定人,河北理工大学理学院副教授,博士,研究方向:信息系统与信息工程,数据库与Web数据管理;张淑芬(1973一),女,河北唐山人,副教授,

8、研究方向:信息系统与系统工程;谷建涛(1979.),男,河北唐山人,助教,硕士,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。