欢迎来到天天文库
浏览记录
ID:9580651
大小:53.00 KB
页数:4页
时间:2018-05-02
《面向中等职业教育的垂直搜索引擎的分析与研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、面向中等职业教育的垂直搜索引擎的分析与研究面向中等职业教育的垂直搜索引擎的分析与研究1绪论 1.1概述 目前我们的社会已经进入高度信息化时代,人们对获取信息的方式发生了根本性的变化,我们学习的途径不再局限于课堂和书籍,而是越来越多地通过互联网来找到我们所需要的信息。那么为了能够更快更好地获取互联网上的资源,那么搜索引擎技术就应运而生了,搜索引擎(雅虎、百度、Google)能够使人们快速地搜索网络上我们需要的相关信息。但是,获得的信息也是非常庞大和分散的,而且其中包含了许多与我们查询主题无关的内容,
2、需要浪费用户大量的时间和精力来加以区别。垂直搜索引擎技术的产生就是为了解决通用搜索引擎专业性不够、集中度不高的问题,大大地提高了搜索的速度和精确度。而随着我国执行大力发展中等职业教育的政策,教育资源不足严重地制约着中等职业教育质量的提高[1]。目前面向普通教育资源的垂直搜索引擎发展的也很迅速,但是对于专门面向中等职业教育的垂直搜索引擎仍然严重不足。目前我们国家对于中等职业教育非常重视,投入的力度也很大,对于计算机和网络的硬件条件已经完全具备在中等职业学校建立辅助教学的信息检索平台。 1.2国内外研究
3、现状分析 通用搜索引擎从诞生到现在已经经历了十余年的发展,目前已经广泛应用于互联网,成为人们搜索互联网资源必不可少的工具,实际上,搜索引擎的出现是个必然,因为随着网络资源的几何级别的增长,同时网络传播的速度大大超出了人们的想象,互联网行业的应用已经渗透到人类生活的方方面面。搜索引擎就像茫茫大海中灯塔一样指引着人们在互联网中遨游。 搜索引擎的发展经历了几个重要的历史时期:最开始出现的搜索引擎只是检索FTP上边的文件;随后的搜索引擎开始收录网络地址;搜索引擎开始收录标题;目前的搜索引擎,已经开始抓取网
4、页全文了。 1.3面向教育的搜索引擎的发展现状 目前流行的通用搜索引擎其工作原理及核心代码是不对外公开的,其产生查询结果的排序方法也被视为商业机密。甚至有人质疑由于商业利益的关系对查询结果的排序造成了扭曲。面向教育的垂直搜索引擎的研究有很多的文章,但未对教育搜索引擎框架和核心给出详细的描述。这使得开发教育搜索引擎成为教育技术领域一项困难的任务。为此该文结合教育领域特征和搜索需求的多样化研究对面向教育的垂直搜索引擎框架及其关键技术进行了深入地探讨和研究。 1.4面向中等职业教育的垂直搜索引擎发展现
5、状 面向中等职业学校的垂直搜索引擎的研究目前严重不足。对于垂直搜索引擎来说专业性越强其搜索的效果越好,由于我国的经济形势的发展,各种产业不断升级,社会需要大量具有合格工作技能的专业人才,国家对于中等职业教育越来越重视,投入也越来越大,甚至达到了职业教育与义务教育同等重要的地位。 2垂直搜索引擎技术分析 垂直搜索引擎系统由4部分组成:信息采集(Cra.收集整理网页庞杂、分散,因此不能进行全文检索,垂直搜索引擎因为是针对某一特定领域或某一特定人群,因此支持进行全文检索。使其具有相比于通用搜索引擎搜索
6、深度大的优点。 2.4用户界面 用户输入和输出的接口,现在通常使用Ajax技术来设计用户使用的界面。利用Lucene全文检索工具根据用户输入的关键词将索引的相关网页以列表的形式反馈给用户。3面向中等职业教育的垂直搜索引擎的分析和研究 3.1中等职业教育的特点 中等职业教育具不同于普通教育的特殊性,简单的说有些类似于高等教育与义务制普通教育的结合体。既有高等教育按专业分类的特点,又有普通教育课程分配的特点。要求的知识内容和技术水平接近于高中教育水平。虽然中等职业教育是以培养专业技术型人才为目标,
7、但同时也要兼顾文化素养和德智体美全面发展。即不仅要学好专业课程和专业相关领域知识,同时也要加强文化课程的学习。 3.2构建面向中等职业教育资源的垂直搜索引擎框架 根据我国中等职业教育的自身特点,搜索引擎框架从下面几个角度来设计,分别为专业课程、文化课程、技能鉴定和实习就业4个部分。学生可以根据自己在学习当中的需要,有针对性地查询自己所想要的信息。 3.3各个子系统的设计 信息采集系统的设计:网络爬虫的工作步骤。首先蜘蛛搜索网站首页的根网址,保存到待抓取的地址列表中,若地址列表不为空就判断是否曾
8、经访问过该地址,假如此网页没有被访问过就读取网页内容,并对读取的网页内容进行解析,然后对内容主题相关度进行判断,并将关联主题的网页内容保存到数据库中,并把这些网页的网址保存到已访问网页列表中,否则去掉此网页地址。最后当待抓取的网页列表为空的时候,或者抓取的深度满足制定要求的时候结束读取,重复执行抓取其他网站直到结束。 索引系统的设计。索引过程可分为3个主要的操作步骤:将信息转换成文本,分析文本,将分析过的文本保存到数据库中。要想对信息分类和建立索引,那
此文档下载收益归作者所有