搜索引擎技术在网站图书检索中的应用

搜索引擎技术在网站图书检索中的应用

ID:19229474

大小:19.32 KB

页数:8页

时间:2018-09-30

搜索引擎技术在网站图书检索中的应用_第1页
搜索引擎技术在网站图书检索中的应用_第2页
搜索引擎技术在网站图书检索中的应用_第3页
搜索引擎技术在网站图书检索中的应用_第4页
搜索引擎技术在网站图书检索中的应用_第5页
资源描述:

《搜索引擎技术在网站图书检索中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、搜索引擎技术在网站图书检索中的应用  出版社网站建设的核心价值在于及时、全面、准确地发布本社的图书产品信息,并将其传递给目标客户,从而发挥网络营销作用。随着出版社网站建设的深入,产品信息愈加丰富,网站建设水平将更多的体现在对信息的组织和其所提供的使用功能上,最终目标是提高信息传递的效率。  对于一个大型的科技出版社,其产品涉及的学科门类纷繁,品种数量众多,内容层次不一;同时,读者群体遍布科学技术的各个领域,且专业分工明细,但阅读能力却分布于不同层次。因此,读者在寻找适合自己的图书产品时,就产生了“多对多”的矛盾,信息传递在此出现了“瓶颈”。如何突破这个

2、“多对多”的瓶颈,实现“一对一”,即一位读者一次性找到符合检索定义的一类图书产品的所有信息,成为本研究的目标。  几年来,我们围绕网站信息组织和功能技术两个方面开展工作,以期实现上述“一对一”的目标。在信息组织方面,完成了产品分类与导航体系的建设。在功能技术方面,开展了搜索引擎应用技术研究,并对网站内容进行了结构化处理。这些实践探索,已经取得了初步成果。  传统的图书检索方式,是基于已知书名的,不外乎书名查询和组合查询两类。其中组合查询需要明确的查询条件,一般只适用于条件限制严格和已知信息较丰富的情况,其准确性与查询条件的多少成正相关,在并不确知书名或

3、其他条件信息的情况下就不适用;且如果查询条件之一输入有误,就得不到预期的结果,因此有较大局联盟限性。而书名查询又因为有以下两类问题,而存在较大的不确定性。  书名中不一定包含内容主题,或是书名与内容无直接关联。例如《谁动了我的奶酪》并不是一本关于食品的书,而《国家健康报告》也与体检或医疗无关。此外,还有许多专业性的词汇也不会出现在书名中,因为在确定书名时需要考虑有较广泛的读者覆盖。  书名中的一些连接字输入的不准确,会导致检索没有结果,尽管这些并非关键字,如“和、与、及、的”等以及“破折号、顿号、冒号”等。  出版社的生存与发展主要依靠新的出版物,因此

4、出版社网站的宣传营销工作应该主要围绕新书展开,所以新书推介功能就显得尤为重要。但这与已知书名的传统查询方式产生了矛盾。如何响应读者基于内容主题的检索需求,并能够快速地提供相关度很高的查询结果,是我们潜心钻研的课题。为此,我们开发了自己的图书搜索引擎。  图书搜索引擎是一个网络应用软件系统,它能够接受用户通过浏览器提交的搜索文本,在可接受的时间内返回一个与该用户搜索匹配的网页信息列表,这个列表中的每一个条目至少包含书名及其网址链接,同时依其相关程度自动排序。  搜索引擎技术在大型电子商务网站应用的比较普遍,但在出版社网站上却几乎没有看到,读者比较在这两类

5、网站上的购书体验时,明显感到出版社网站的功能落后。其实,到访出版社网站的人,大多是受到出版社品牌感召的忠实读者,奔着获得更具专业特色的经典图书而来。为他们提供优质高效的检索工具和服务,不仅是出版社品牌的直接体现,更起到了留住这部分忠实读者,同时减少潜在客户流失的“吸附”作用。努力提高网站的“粘度”是我们的重要理念之一,开发适用于出版社网站的图书搜索引擎,是该理念指导下的一个重要技术措施。这项工作有三个关键要素:  匹配——相关性评价。即如何定义和评价我们认为内容与搜索条件匹配的那些图书与该搜索条件之间的相关性程度。这种评价必须是量化的,否则将无法进行精

6、确的比较判断。将书的内容纳入搜索范围比仅从书名中搜索,准确程度有了质的飞跃,这是决定搜索质量的关键要素。量化算法随之成为搜索引擎的技术核心。  可接受的时间——响应时间。对于在Web上向广大用户提供服务的软件来说,响应时间不能太长,通常可以接受的量级是“秒”级。  取词——自动分词处理。用户的搜索条件一般是词的组合或自然语言短语,搜索引擎必须理解这些对搜索条件的描述。但是汉语不同于英语,英语的词与词之间以空格分开,汉语的词之间没有分隔符,这对计算机处理造成了困难,所以必须使用中文信息处理系统——自动分词系统,才能将一串字符分解为若干规范化的主题词,同时

7、也过滤掉当中的无价值字符。同理,对图书内容的加工处理也是如此。  由此可知,应用搜索引擎技术,必须首先对网站的图书内容等信息,进行结构化的加工处理,就是大家常说的“碎片化”,这是不可或缺的基础性工作。  下面谈谈搜索引擎到底是如何工作的,大家就知道它为什么能够大幅提高搜索的质量和效率了。其工作流程依次分为三个步骤:  信息采集。相对于流通领域的电商网站而言,出版社网站具有得天独厚的内容资源优势,可用于支持自己产品的精确定义。这其中不仅包括内容简介、章节目录、样章等可以用于词频的定量计算,还有CIP数据中的主题词、分类号,以及作者名、自定义分类名等定性资

8、源,这些资源可以为相关性评价提供完整的数据支持。因此,广泛地采集这些信息,充分利用本社产品的数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。