欢迎来到天天文库
浏览记录
ID:14637288
大小:135.00 KB
页数:17页
时间:2018-07-29
《基于群体特性的用户兴趣模型研究与设计》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于群体特性的用户兴趣模型研究与设计//.paper.edu.cn-1-中国科技论文在线基于群体特性的用户兴趣模型研究与设计白瑾,刘东飞*作者简介:白瑾(1979-),男,硕士在读(武汉理工大学计算机科学与技术学院,武汉430070)摘要:目前,为提高搜索引擎查询准确率,用户兴趣模型已经成为研究热点。本文在对搜索引擎框架进行分析研究的基础上,提出基于群体特性的用户兴趣模型构建方法,并对其表示和建立方法进行了分析研究。最后,探讨了构建用户兴趣模型任需继续研究的问题和思路。关键词:搜索引擎;用户兴趣模型;群
2、体特性;建模技术中图分类号:TP39StudyanddesignofuserinterestmodelbasedongroupcharacteristicsBaiJin,LIUDongfei(SchoolofComputerScienceandTechnology,WuhanUniversityofTechnology,Wuhan430070)Abstract:Atpresent,inordertoimprovetheaccuracyofsearchengineinquires,userinterest
3、smodelhasbecomeahotspot.Inthispaper,basedontheresearchonsearchengineframework,wepresentamethodtobuildUserinterestsmodelbasedonthegroupcharacteristics,andit'srepresentationandbuildingmethodisanalyzedandresearched.Thelast,thispaperexplorestheneedtocon
4、tinueresearchproblemsandideasofbuildingUserinterestsmodel.Keywords:Searchengine;Userinterestmodel;Groupcharacteristics;Modelingtechnology0引言Internet是一个庞大的信息资源库,日渐成为人们生活中不可或缺的一部分。但是,在因特网提供了大量信息的同时,也带来了一些问题:信息量过大,信息形式难以统一处理等等。如何从海量网络信息中发现有价值的信息,如何能够在最短的时间内
5、找到最适合自己的知识,已成为互联网用户倍加关注的事情。目前,利用搜索引擎进行网络信息检索已成为人们获取所需信息的主要途径之一。然而,传统搜索引擎并没有考虑到用户的兴趣差异,不同的用户只用相同的关键词去检索,得到的检索结果将会是完全一样的。因而,解决问题的方法就是实现有针对性的信息检索,即针对不同的用户查询提供不同的检索结果。那么,通过收集具有共同查询兴趣,和相似查询行为的用户群体特征,建立具有群体特性的用户兴趣模型,在用户进行检索时,搜索引擎以这种兴趣模型为基础,能够更加有效地理解用户的检索需求,进而提
6、供更有针对性的搜索服务。1基于用户兴趣模型的搜索引擎分析基于用户兴趣模型搜索引擎一般由网络机器人、分析器、索引器、索引数据库、检索器、用户兴趣模型和用户查询接口等七个部分组成[1]。如图1所示。图1搜索引擎基本结构图//.paper.edu.cn-2-中国科技论文在线下面对这七个组成部分功能做简单介绍:用户查询接口:为用户提供查询输入和查询结果输出界面。在查询输入界面中,用户输入待检索词以及其他检索条件;在查询结果输出界面中,搜索引擎依据相关度大小,将检索结果展现为一张有序文档列表,其中包括文档标题、摘
7、要和链接信息等。用户兴趣模型:根据所建立的用户兴趣模型,对用户的查询请求进行兴趣分析和修正,提高搜索质量。并对查询结果过滤,优化查询结构。检索器:是接收、解释用户的搜索请求,根据用户的查询从索引数据库中找出与用户查询请求相关的文挡,并将所有文档按照相关度递减的顺序排序方式排列,并返回给用户。检索器常用的信息检索模型有:布尔逻辑模型、模糊逻辑模型、向量空间模型和概率模型。索引器:是建立索引库以供查询。索引器从已分析好的网页数据中抽出索引项,建立索引。索引一般按倒排文件格式存放。搜索引擎普遍借鉴了传统的信息
8、检索中的索引模型,包括倒排文档、向量空间模型等。分析器:对网络机器人下载的网页进行分析,以便索引器建立索引。分析技术一般包括分词、过滤和转换等;在分词时,系统一般从全文中抽取术语,建立全文索引,也有些系统仅从网页的某些部分如标题、摘要中抽取术语。网络机器人:也叫网络蜘蛛(Spider),或者网络爬虫(Crawler),其功能是对Internet上的信息进行遍历,记录每个可访问站点中网页的URL地址,并抓取网页内容;然后,取出网页中的链接地址
此文档下载收益归作者所有