资源描述:
《外文检索系统的构造-》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、外文检索系统的构造摘要:木文要求将150篇学术论文按关键词分类,并构造一个检索系统,使得当给岀一组关键词吋,可以找到所要查找的文献。这个问题中,容易的地方是检索,难点是找到一个好的分类方法。我们对问题进行了全面细致的分析,给出检索系统的几个要求,假设论文唯一且均为英语论文,再从三个角度(关键字的涵义、关键字的首字母、关键字的长度)建立模型将论文分类,并对这三种模型进行了随机检验(任意输入一个单词检验正确率)和全面的比较(包括时间复杂性和适用范围):模型一仿照人的认识,通过构造一个人工智能将论文分类。分类的标准是关键字出现的次数,
2、次数越多说明其为一个类别的总概括,我们认为它是一个父类,如此得到40类。该模型优点是从语义、逻辑关系上将关键字分类,符合人们的日常认识。缺点是时间复杂性很高,大概为需要的时间为巴,编写的程序繁琐。n模型二将26个字母自成26类,相应首字母的关键字归为此类。。如果每一类中的关键字还是很多,可以将每一类继续按字母分为26类。根据用户输入单词的首字母确定第儿大类,再根据后面的字母确定相关论文。这样可分出26类,其中每类至多可再分26类。此模型优点是时间复杂性只有敗左右,使检索非常快捷。n模型三与模型二类似,只是将按字母分类改为按关键字
3、的长度分类。其优点也是时间复杂性低,只有虫n然后我们提出了三点改进的地方,并针对第一点对模型做了相应的调整,使用户可以选择是否区分大小写来检索,然后再次进行随机检验得到了很好的结果。最后得出结论。关键词:等级排序首字母长度吋间复杂性问题重述原题给出了某次学术会议所收到的150篇学术论文(英文论文)的关键词(keywords),请以此为依据,将这些论文分类,并构造一个检索系统,使得当给出所要查找文献的一组关键词,例如(eigenvalueproblem,inverse,solvability)或(riskperceptions,m
4、entalmodels,bias,synergisticrisk),即可从上述150篇中找岀有关的文章;所使用的方法应能适用于文献数量更大的情况。以下每行前的阿拉伯数字为文章编号,后面的英文单词为该文的关键词。除少量明显错误外,关键词(包括大小写)均原文照录。(关键词列表略)2、问题分析本题包括两个大的问题:英语论文的分类、构造检索系统。同时,这两个问题又是相辅相成的,分类是检索的前提、是检索系统的一个部分,有个好的分类方法能够大大减少搜索的难度,但是好的分类方法又常常比较复杂,所以我们应该同时考虑分类与检索的复杂度、构造一个最
5、优的系统。将论文分类也就是将论文的关键词分类,找到关键词也就相当于找到了关键词所在的这篇论文,所以首先需要对题中给出的150组关键词进行处理,然后分类。针对题中只给了150篇论文,事实上可以言接搜索。如果要考虑使检索适应大量文献,就该建立一个好的分类方法。考虑到检索系统最好能满足以下儿个要求:1、当用户输入的单词有大小写错误、单词的几个字母错误(或用户输入了正确单词,但是电脑中存储的是有少量错误的单词)吋,系统要能够识别出该类错误、返回用户想要查找的论文并给岀输入有误的提示信息。2、当用户输入词义相近、形式不同的单词时,应能自动
6、搜索与之相近的关键词的对应论文。3、当输入关键词是某方面的一个内容分支且存储器中没有这个内容的论文时,返冋该方面的所有论文供用户参考,并给岀无法精确查找的提示信息。3、模型假设与符号系统H1:我们只考虑英语论文,如果有中文或其他非英语论文,其上传时也应先翻译为英语论文。H2:因为关键词与论文一一对应,所以我们认为一篇论文的所有关键词(下面称之为关键词集)不可以和另一篇完全相同。下面假设关键词和论文已经建立的映射关系,找到关键词就可以找到该论文。兀,伙=12--450>表示150篇论文的所有关键词;40),伙=1,2,.・・45Q
7、7=1,2,3…)表示第k个关键词的第i个单词,也称之为关键字以和关键词区分;f(tk(,)),伙=1,2,---45Qi=1,2,3-•)表示第k个关键词的第i个关键字在所有关键字中出现的次数;/初仇(0),伙=1,2,・・・45(1z=1,2,3-)表示关键字的长度或者说该关键字的字母个数,如关键字厶⑴为drazin,那么len(tk(i))=6ot:计算机收索n次所需要的时间。n:所有论文中关键词的个数(重复的记一次)。4、模型建立与求解模型一类比于层次聚类分析法将关键字按从屈关系分类,并且建立等级,按关键词等级降级搜索。
8、分类具体步骤一:遍历所有关键词》伙=1,2,…45Q)及其关键字,记录每个关键字出现的次数,由大到小排序(结果见附录一,程序见附录三)。有同一关键字的论文归为一类、并以该关键字为父类的类名。如!定:1、一个关键词常有两个或两个以上的关键字,那么其中次数最多的关键