搜索引擎中面向分类与检索的语义分析系统的设计与实现

搜索引擎中面向分类与检索的语义分析系统的设计与实现

ID:10194199

大小:2.33 MB

页数:65页

时间:2018-06-12

搜索引擎中面向分类与检索的语义分析系统的设计与实现_第1页
搜索引擎中面向分类与检索的语义分析系统的设计与实现_第2页
搜索引擎中面向分类与检索的语义分析系统的设计与实现_第3页
搜索引擎中面向分类与检索的语义分析系统的设计与实现_第4页
搜索引擎中面向分类与检索的语义分析系统的设计与实现_第5页
资源描述:

《搜索引擎中面向分类与检索的语义分析系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、硕士学位论文搜索引擎中面向分类与检索的语义分析系统的设计与实现DESIGNANDIMPIEMENTATIONOFCLASSIFICATIONANDRETRIEVALORIENTEDSEMANTICANALYSISSYSTEMOFSEARCHENGINE吴东亮哈尔滨工业大学2012年12月国内图书分类号:TP311国际图书分类号:621.3学校代码:10213密级:公开工程硕士学位论文搜索引擎中面向分类与检索的语义分析系统的设计与实现硕士研究生:吴东亮导师:何慧副教授副导师:田志宏副教授申请学位:工程硕士学科:软件工程所在单位:软件学院答辩日期:2012年12月授予学位

2、单位:哈尔滨工业大学ClassifiedIndex:TP311U.D.C:621.3DissertationfortheMasterDegreeinEngineeringDESIGNANDIMPIEMENTATIONOFCLASSIFICATIONANDRETRIEVALORIENTEDSEMANTICANALYSISSYSTEMOFSEARCHENGINECandidate:Supervisor:ViceSupervisorAcademicDegreeAppliedfor:Speciality:Affiliation:DateofDefence:WuDongliangAss

3、ociateProf.HeHuiAssociateProf.WuDongliangMasterofEngineeringSoftwareEngineeringSchoolofSoftwareEngineeringDecember,2012Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要国内外搜索引擎面临的主要问题在于:其一,用于垂直搜索的网页分类器准确度低;其二,文本检索智能化水平差、相关度低、冗余信息多。针对以上问题,我们的搜索引擎采用基于PLSA技术的语义分析系统,旨在有效的

4、提高分类器和检索的准确度。本系统通过主题建模,利用分布式计算和存储进行参数训练,利用得出的数据优化共现矩阵,有效的解决语言中的歧义现象(同义词和多义词引起)。设计与实现了面向分类与检索的语义分析系统。其中包括参数训练模块、文本分词模块、主题识别模块以及语义相关度计算模块。同时对如下问题进行了研究:首先,主题建模与参数训练。主题模型的优势能够克服传统的向量空间模型的缺陷,使得文本相关度计算不仅仅进行字面匹配,同时降低了共现矩阵的维度,达到消除歧义,降低噪音的作用。模型的选取至关重要。确定模型后在参数训练阶段,用一台计算机来对参数进行迭代显然是不现实的,我们采用基于Hadoop体系

5、结构的分布式计算和存储技术,充分利用闲置的服务器。在参数训练中,本文采用EM算法作为参数迭代结束的约束条件,同时设置相对变化率,避免多余的计算开销;为了充分利用多线程的优势,进行CPU多核优化;为了防止阻塞等待I/O将计算密集的I/O与比较耗时的I/O运算分开,进行异步I/O的优化;利用共享词典,免去每个线程都要加载pwz矩阵的计算开销。其次,针对文本分词中,中英文单词混杂现象,本文设计并实现一种对混合文本的处理方法,来适应此种普遍现象。这样无论是中文、英文还是混合文本都能很好的处理。同时,进行语义分析研究。通过加载训练和分词得到的参数和一系列的算法,达到对一篇文本进行语义分析

6、的作用,既输入一个文本,得到一个语义分类,并输出到分类器。最后,对语义相关度计算模块的研究。通过加载之前得到的参数和向量内积算法,得到两篇文档的语义相关度。便于加快检索速度。综上,本文提出的应用于搜索引擎的语义分析系统,实验证明能够提高文本分类准确率,提高文本检索相关度。关键词:语义分析系统;文本分类与检索;消歧;主题建模-I-哈尔滨工业大学工程硕士学位论文AbstractSearchEnginefacesbothathomeandabroad,themainproblemis:first,usedforverticalsearchwebclassifieraccuracyis

7、low;Secondly,thetextretrievalintelligentleveldifference,lowcorrelation,redundantinformationmore.Inviewoftheabovequestion,oursearchenginesusequery-orientedtechnologyofsemanticanalysissystem,inordertoimprovetheefficiencyofclassifierandretrievalaccura

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。