资源描述:
《浅析网络教育搜索引擎的智能化排序研究.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、浅析网络教育搜索引擎的智能化排序研究 论文关键词:智能搜索引擎排序网络教育智能代理 论文摘要:排序算法是现代搜索引擎的重要技术之一。本文根据网络教育资源的特色以及网络教育中学生的学习行为的特点提出了一种排序方法,即利用智能代理技术通过对学生学习行为的个人兴趣模型的构建,以使搜索更为智能化和个性化。 搜索引擎的排序算法就是当用户输入查询关键词后,迅速在索引库中检索出文档,并将文档按照一定的规则进行合理排序,以使用户需要的文档尽可能排在前面几页,以便用户能快速查询到自己需要的信息。
2、对于基于关键词检索的搜索引擎,通过Robot收集并索引的信息资源量非常庞大,比如Google可以搜索的网页高达33亿页。当用户进行搜索时,系统往往回返回数量巨大的检索结果,增加用户的负担,也降低了搜索引擎的效率,因此排序算法研究在搜索引擎中占有一种核心的地位。 一、现代搜索引擎的排序技术 1.1传统搜索引擎的排序技术 传统搜索引擎的排序算法是对提取的每个关键词赋予一个权值,表示该网页与关键词之间的相关程度,不同的搜索引擎在计算权值时使用了不同的方法,但它们都以关键词在网页中出现的位置和频率
3、为基本依据: 1、关键词出现在标题中的网页可能比只出现在其它地方的网页更符合要求; 2、关键词出现在网页的前面可能比只出现在网页的后面更符合要求; 3、同一个关键词的出现多次的网页又可能比只出现一两次的网页更符合要求; 把这些因素综合起来考虑便可得出一个计算关键词权值的公式。 然而这种排序算法却有其局限性,由于网络资源的数量巨大,权值相同的两个网页质量却可能相差很远,而且很多网页设计者为了使网页能排在检索结果的前面,在其页面上堆砌关键词,或在重要的位置放置和网页内容无关却很流行的词汇,
4、以达到增加浏览量的结果。 1.2现代搜索引擎的排序技术 现代搜索引擎为了达到较好的检索结果都使用新的基于超链分析的排序技术。其中以L.Page等提出的PageRank最为经典。PageRank算法由于在Google中得到成功的应用而被美国《时代》杂志评为“1999年度十大网络技术”之一。 1、PageRank算法 PageRank使利用网络自身的超链接结构给所有的网页确定一个重要性的等级数[1],当从网页A链接到网页B时,就认为“网页A投了网页B一票”,从而增加了网页B的重要性,最后根据
5、网页的得票数评定其重要性,以此来帮助实现排序算法的优化。同时PageRank还要分析为其投票的网页的重要性,重要的网页所投之票有助于增强其他网页的“重要性”,也就是说网页的重要性决定着同时也依赖于其他网页的重要性,而这个重要性的量化指标就叫PageRank值。3 2、算法的实现 当搜索引擎接受到用户的关键词提问后,对提问式进行分析并从索引库中找到和搜索关键词匹配的所有网页信息,然后通过排序系统对网页进行相关性排序。 3、PageRank算法的发展 现在搜索引擎一般采用基于网页内容分析和基
6、于超链分析相结合的方法进行相关度分析,也就是排序系统将网页的PageRank值与文档分词后的信息以及链接文件中的网页描述信息相结合起来确定检索结果排序的权值,这样就能客观地对网页进行排序,从而极大限度地保障搜索出来的结果与用户的查询相一致。 二、网络教育资源的特色对搜索引擎的要求 网络教育是建立在互联网上的,但却又不同于互联网,主要表现在教育资源的特点和学生的行为方式上。 2.1网络教育资源的特点[2] 同互联网上的信息一样,网络教育资源在数量上也是巨大的。但是,不同的网络教育资源分布虽
7、广,但其内容之间的关联度和稳定性却是很强的,而且具有良好的可分类性。 2.2学生学习行为的特点: 网络教育中的学生获取知识的主要来源是从网络中查询自己需要的教育资源,但是学生不同于一般的网络用户,具有自己的特色: 1、学生处于学习状态,对专业知识了解少; 2、学生对网络的驾驭能力差,具有一定的盲目性; 3、对于海量的信息资源,学生往往缺少耐性,不容易找到自己所需要的知识。 2.3对搜索引擎的查询排序要求 1、搜索引擎要能从学生的查询语言中提炼出学生的查询要求,并能更加知识结构对查询
8、要求进行扩展联想,对所需资源进行准确定位。 2、搜索引擎要能根据每个学生的学习特点对其提供资源,要能建立学生的兴趣“档案”,确定学生的兴趣范围,以便更准确的将学生所需知识排在前面。 三、一种基于兴趣模型的排序方法研究 3.1学科知识结构的构建 在网络教育环境中,学科领域知识的分类是相对稳定而且准确的,因此首先以此为基础构建一个学科知识分类结构[3],这个结构是用分类树的方法建立各种学科知识概念之间的上下层关系,上层概念是其所有下层概念共同属性的概括,下层概念则是对上层概念的细化。整个概念