中文信息检索索引模型及相关技术研究

中文信息检索索引模型及相关技术研究

ID:36348636

大小:3.74 MB

页数:116页

时间:2019-05-09

中文信息检索索引模型及相关技术研究_第1页
中文信息检索索引模型及相关技术研究_第2页
中文信息检索索引模型及相关技术研究_第3页
中文信息检索索引模型及相关技术研究_第4页
中文信息检索索引模型及相关技术研究_第5页
资源描述:

《中文信息检索索引模型及相关技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、复旦大学博士学位论文中文信息检索索引模型及相关技术研究姓名:杨传耀申请学位级别:博士专业:计算机软件与理论指导教师:胡运发20070408复旦大学博L学位论文种结合规则和机器学习的分词方法,这种方法在对中文机构名称和地名准确划分上很有效,实验结果也表明这种方法是一种能快速划分中文词语同时准确率又很高的分词方法。3基于模拟退火的快速KNN算法在Internct信息检索应用环境上,对文本自动分类,涉及到问题主要有两个,一是文档分类的类别是变化的,另一个是文档量大。对于第一个问题,由于模板匹配类算法的特点,如KNN,它是一种懒惰(1azy)算法,将待分类样本

2、与标准模板进行比较,看跟哪个模板匹配度更好些,从而确定待测试样本的分类,不需要事先确定分类函数,因此我们选择KNN分类算法来解决;解决第二个问题,我们先对文档的高维特征进行排序,然后借用模拟退火算法的思想,在精度稍微下降的情况下,极快地对文档进行分类。试验表明,基于模拟退火算法的快速KNN算法有实际应用前景。4基于投影和树的文本频繁项挖掘算法由于文本的频繁项挖掘的时间效率是随着项的增长以指数级别增长,因此对Intemet信息检索应用环境下,频繁项挖掘的时间效率更是研究者研究的重点。本文提出了一种新的数据结构—投影和树,在对项进行建树时,可以同时对项进行

3、计数,这样在挖掘时,可以直接利用统计好的计数,不需要重新计数;另外,在对树进行挖掘时,以深度优先的方式,对树进行一次深度优先遍历即可,加快了挖掘的时间。实验表明,基于投影和树的挖掘算法比同类的算法效率要高。5为中国电信集团黄页信息技术有限公司实现了一个黄页搜索引擎(一期)系统。利用上述创新技术,我们为中国电信集团黄页信息技术有限公司实现了一个黄页搜索引擎(一期)系统,并取得显著的成效。尽管黄页搜索引擎(一期)’系统,是一种针对黄页信息专用的搜索引擎,但从技术本身来说,对于一般搜索引擎,也同样是有效和实用的。关键词:信息检索,索引模型,互关联后继树,中文

4、分词,文本分类,频繁项挖掘中图分类号:G252.7II复旦大学博:L学位论文AbstractWiththeimprovmentofcomputersystemperformance,Intemetspreadingbroadlyandfastandimprovementofenterpriseinformatization,Chineseinformationresourcesareaccumulatingverygreatly.Informationretrievalissuchakindoftechnologyoffindingwhatpeople

5、needfromthemassiveinformationrcsourees.Informationretrieval,generallyreferencedtotextinformationretrieval,composesofstorage,organization,performance,retrievalofinformationanditsCOletechenolyisindexingandretrievingoftextinformation.Afterseveralyears’rapiddevelopment,informationre

6、trievalisnOWintheintelligentandnetworkingstage.Inordertoimproveprecisionanduserexperience,thetechnologiesrelatedwithindexingarebeingstudiedbroadlyexceptfortheresearchofindexing.SimilartostemmingofEnglishlanguage,segmentationispeculiarindealingwitllChineselanguage.Segmentationdec

7、idesinsomedegreetheprecisionofretrieval.Autotextclassificationisusefulininformationorganizationandnavigation.Itsaimistodohelpforuserstobetterfind,organizeandrepresentinformationandtomeetthehigherdemandofknowledgeextraction.Andthusitdogoodtotheuserquickevaluationofretrievalresult

8、s.Textassociationanalysis,especiallyfrequentite

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。