基于群体特性的用户兴趣模型研究与设计

基于群体特性的用户兴趣模型研究与设计

ID:15205071

大小:135.00 KB

页数:17页

时间:2018-08-02

上传者:xinshengwencai
基于群体特性的用户兴趣模型研究与设计_第1页
基于群体特性的用户兴趣模型研究与设计_第2页
基于群体特性的用户兴趣模型研究与设计_第3页
基于群体特性的用户兴趣模型研究与设计_第4页
基于群体特性的用户兴趣模型研究与设计_第5页
资源描述:

《基于群体特性的用户兴趣模型研究与设计》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

基于群体特性的用户兴趣模型研究与设计//.paper.edu.cn-1-中国科技论文在线基于群体特性的用户兴趣模型研究与设计白瑾,刘东飞*作者简介:白瑾(1979-),男,硕士在读(武汉理工大学计算机科学与技术学院,武汉430070)摘要:目前,为提高搜索引擎查询准确率,用户兴趣模型已经成为研究热点。本文在对搜索引擎框架进行分析研究的基础上,提出基于群体特性的用户兴趣模型构建方法,并对其表示和建立方法进行了分析研究。最后,探讨了构建用户兴趣模型任需继续研究的问题和思路。关键词:搜索引擎;用户兴趣模型;群体特性;建模技术中图分类号:TP39 StudyanddesignofuserinterestmodelbasedongroupcharacteristicsBaiJin,LIUDongfei(SchoolofComputerScienceandTechnology,WuhanUniversityofTechnology,Wuhan430070)Abstract:Atpresent,inordertoimprovetheaccuracyofsearchengineinquires,userinterestsmodelhasbecomeahotspot.Inthispaper,basedontheresearchonsearchengineframework,wepresentamethodtobuildUserinterestsmodelbasedonthegroupcharacteristics,andit'srepresentationandbuildingmethodisanalyzedandresearched.Thelast,thispaperexplorestheneedtocontinueresearchproblemsandideasofbuildingUserinterestsmodel.Keywords:Searchengine;Userinterestmodel;Groupcharacteristics;Modelingtechnology0引言Internet是一个庞大的信息资源库,日渐成为人们生活中不可或缺的一部分。但是,在 因特网提供了大量信息的同时,也带来了一些问题:信息量过大,信息形式难以统一处理等等。如何从海量网络信息中发现有价值的信息,如何能够在最短的时间内找到最适合自己的知识,已成为互联网用户倍加关注的事情。目前,利用搜索引擎进行网络信息检索已成为人们获取所需信息的主要途径之一。然而,传统搜索引擎并没有考虑到用户的兴趣差异,不同的用户只用相同的关键词去检索,得到的检索结果将会是完全一样的。因而,解决问题的方法就是实现有针对性的信息检索,即针对不同的用户查询提供不同的检索结果。那么,通过收集具有共同查询兴趣,和相似查询行为的用户群体特征,建立具有群体特性的用户兴趣模型,在用户进行检索时,搜索引擎以这种兴趣模型为基础,能够更加有效地理解用户的检索需求,进而提供更有针对性的搜索服务。1基于用户兴趣模型的搜索引擎分析基于用户兴趣模型搜索引擎一般由网络机器人、分析器、索引器、索引数据库、检索器、用户兴趣模型和用户查询接口等七个部分组成[1]。如图1所示。 图1搜索引擎基本结构图//.paper.edu.cn-2-中国科技论文在线下面对这七个组成部分功能做简单介绍:用户查询接口:为用户提供查询输入和查询结果输出界面。在查询输入界面中,用户输入待检索词以及其他检索条件;在查询结果输出界面中,搜索引擎依据相关度大小,将检索结果展现为一张有序文档列表,其中包括文档标题、摘要和链接信息等。用户兴趣模型:根据所建立的用户兴趣模型,对用户的查询请求进行兴趣分析和修正,提高搜索质量。并对查询结果过滤,优化查询结构。检索器:是接收、解释用户的搜索请求,根据用户的查询从索引数据库中找出与用户查 询请求相关的文挡,并将所有文档按照相关度递减的顺序排序方式排列,并返回给用户。检索器常用的信息检索模型有:布尔逻辑模型、模糊逻辑模型、向量空间模型和概率模型。索引器:是建立索引库以供查询。索引器从已分析好的网页数据中抽出索引项,建立索引。索引一般按倒排文件格式存放。搜索引擎普遍借鉴了传统的信息检索中的索引模型,包括倒排文档、向量空间模型等。分析器:对网络机器人下载的网页进行分析,以便索引器建立索引。分析技术一般包括分词、过滤和转换等;在分词时,系统一般从全文中抽取术语,建立全文索引,也有些系统仅从网页的某些部分如标题、摘要中抽取术语。网络机器人:也叫网络蜘蛛(Spider),或者网络爬虫(Crawler),其功能是对Internet上的信息进行遍历,记录每个可访问站点中网页的URL地址,并抓取网页内容;然后,取出网页中的链接地址添加到机器人的访问地址队列中进行访问。网络机器人抓取网页主要采用两种抓取顺序:一种是深度优先,另一种是广度优先。 索引数据库:用于存放网络机器人从网上抓取的网页并经分析器处理、索引器建立索引处理后的索引记录。从上述结构可以看出,用户兴趣模型对于提高搜索引擎搜索服务质量起到至关重要的作用,依据用户兴趣模型,优化用户的查询或对查询结果进行过滤,都能够提高用户查询的准确率。2用户兴趣模型设计2.1建模技术在建模过程中,根据用户的参与程度,通常可以把用户建模技术分用户手工定制建模、示例用户建模和自动用户建模等[2]。(1)用户手工定制建模。是指由用户手工输入或选择自己兴趣、职业等用户特征的建模方法。早期的搜索引擎一般采用这种方法,该方法实现较为简单,但存在一些问题:完全依赖于用户,降低了用户使用系统的积极性。用户也很难全面、准确地提供自己感兴趣的关键词,从而导致用户模型不够准确。当用户兴趣发生变化时,不能及时更改。这是一种静态模型,随时间的推移,用户模型将与用户兴趣需求差别越来越大。 (2)示例用户建模。是由用户提供与自己兴趣相关的示例及其类别属性来建立用户模型的建模方法。示例建模的出发点是基于用户提供的有关自己的兴趣示例。示例一般通过要求用户在浏览的过程中对浏览过的页面标注感兴趣、不感兴趣或者感兴趣的程度来得到。示例建模对用户的依赖很少,构建的模型也更能全面地反映用户的兴趣爱好;构建过程中,需要用户标注浏览页面,所以会对用户浏览的产生影响。(3)自动用户建模。是指根据用户的浏览内容和浏览行为自动构建用户模型。这种方法//.paper.edu.cn-3-中国科技论文在线主要是通过分析用户的行为,推测用户兴趣所在,建模过程无需用户主动提供信息的建模方法。这种方法实现简单,但易引入噪声,不利于构建高质量的模型。 2.2建模分析一般情况下,用户使用搜索引擎查找信息,是要准确的查找所需信息,获取用户的准确兴趣需求,建立能够对用户兴趣进行描述的用户模型,是一种行之有效的方法。用户模型不但是用户兴趣描述,而且是面向算法的、具有特定数据结构的、形式化的表述。因而,用户建模是从有关用户兴趣和浏览行为等信息中总结出可计算的用户模型的过程。用户模型可以通过对用户的兴趣和搜索行为等相关信息进行分析再学习,对模型进行修正和完善,帮助用户更好的达到搜索目的。通过对已有的一些用户模型研究,我们发现存在以下几个问题:一是多以单用户为基础,建立用户兴趣模型,完全忽略了用户群体;二是注重单用户查询兴趣,忽略了群体用户的兴趣特征,如社区、论坛,计算机群组、群等能够体现共同兴趣的群体对象;三是构建模型力求准确,导致过于复杂,搜索效果不佳。针对上述问题,本文提出基于群体特性的用户兴趣模型,通过建立基于群体特性的用户模型,可以极大的扩展用户兴趣库,以达到对用户查询需求的准确理解,继而能够提高搜索引擎的搜索质量。 2.3基于群体特性的用户兴趣模型体系结构设计本文是在传统的用户建模的基础上提出的用户建模思想:在建立用户模型的时候采用手工定制建模和机器学习的方式[3]。为能够有效地表示用户的特征信息,采用层次型的主题分类方式进行表示,主题是一定范围的用户兴趣分类。对于分类主题的获取,采用本体论的方法是捕获兴趣点的相关知识,确定该其内共同认可的关键词,共同形成一种层次型的用户兴趣模型。机器学习是指对用户查询行为、对查询结果和网络扩展搜索的反馈信息进行学习,其中网络扩展搜索是指对具有共同兴趣特征的群体对象,进行兴趣提取的搜索,通过上述几方面获取的用户兴趣特征信息,对用户模型进行自动更新。学习的信息来源有三方面:一是用户每次查询的关键词;二是用户对查询结果的反馈信息,包括对查询结果的评价和收藏,以及浏览行为等;三是用户相关兴趣圈内,群体用户兴趣的采集,对以上这些信息进行处理,可以获得用户的兴趣类别、兴趣特征词和相应的兴趣度、群体用户对相关信息的偏好度等等,根据这三方面的信息对用户模型进行更新。本文设计的基于群体特性的用户兴趣模型如图2 所示,其中ODP是开放式分类目录:图2基于群体特性的用户兴趣模型结构示意图2.4基于群体特性的用户兴趣模型的建立建立用户兴趣模型涉及以下两个问题:一个是模型的表示,采用什么方式来描述用户的兴趣;另一个是模型的建立方法,如何获得用户兴趣信息。//.paper.edu.cn-4-中国科技论文在线2.4.1用户兴趣模型的表示采用基于主题的加权特征词表示兴趣特征的形式,就是通过不同组合的概念节点及其权值形成主题树来表示用户兴趣概念[4][5][6]。通过调整各个节点的权值或增加相应的主题节点 适应用户兴趣的变化。在每一个比较大的主题类别下分若干不同的子类别,依次类推,划分出不同级别的子类。为了区分用户具有的不同兴趣类别,需要一个较为完整的兴趣分类参考模型。采用ODP开放式目录结构将知识体系按多层次的树状结构来表示,上层父节点是对下层所有子类的共同属性的概括,而下层子节点类则是从不同角度对上层父节点的细化描述。分类层次越深,对主题的描述越细,描述的用户兴趣类别就越具体。依具体情况,可以采用两到三层,或者多层主题。根据ODP构建一个分类兴趣词表,类中的特征词由其本身及其所包含的所有兴趣类名组成,并通过外部知识库,如百科知识词库,进行特征词的扩充。如3图所示,其中,根节点代表了所有类别汇总,方框表示兴趣类别,椭圆表示特征词,对于底层的每个兴趣类别都有一个特征词集合。图3兴趣分类参考模型2.4.2用户兴趣模型的建立用户兴趣模型的初始化可以ODP为依据设立基本模型,外部知识库扩充目录分类和特 征词来完成。系统的构建思路是:先建立根节点,再依次分层建立次级分类节点,最后一层建特征词节点层。我们设定用户兴趣特征向量由一组特征词及其权值构成,可表达为:????????????????1122,,,,,,CnnMttt????????L其中c表示某个兴趣类别,????1itin????表示兴趣类别c下的第i特征词,i??表示it相应的权值,n表示类别c下兴趣特征词的个数。兴趣特征词集????iKc,表示为12{,,,}ntttL,其中????1itin????表示兴趣类别c下的第i特征词。用户兴趣集C,表示为12{,,,}lcccL,其中,ic????1il????为用户的兴趣类别,l为用户兴趣类别总数。用户兴趣特征词集()TC表示用户所有的兴趣中所包含的特征词的集合,可表示为:()()ii cCTCTc????U用户兴趣节点()Nodc表示为(,)c??,其中cC??,??为c的权值。用户兴趣类别c的特征词节点(,)Leact表示为(,)t??,()tTc??,??为t在用户类别c中的权重。建立兴趣模型时的生成算法是:(1)依据用户的兴趣类型c创建兴趣类别节点及父节点,父节点与根节点相连。设置//.paper.edu.cn-5-中国科技论文在线兴趣节点的权值为()Nodc????; (2)设置用户兴趣类别c下的特征词t的权值(,)Leact????;(3)子兴趣节点的权值为其下所有特征词节点的权值与自身权值的和,即1nii??????????????n为节点下特征词数,??????1in????为特征词权值;(4)计算所有兴趣节点的权值1ii???????? ??????为子兴趣类数,i??????1i??????为其权值。2.4.3用户兴趣模型的更新模型建立后,需不断调整和更新用户的兴趣模型。模型学习更新的信息来源有三方面:一是用户每次查询的关键词,分析其查询意图和兴趣爱好;二是对群体兴趣圈,如社区、论坛、计算机群组、群等进行搜索,分析提取具有用户群体共同兴趣的信息;三是用户对查询结果的反馈信息,包括对查询结果的评价和收藏等等,对这些查询结果文档提取出相关信息。根据这三方面的信息对用户兴趣进行更新和修正。3结束语本文重点研究了基于群体特性的搜索引擎用户模型的表示和建立方法。在建立用户兴趣模型时,采用ODP开放式目录结构和外部知识库,构建了层次型树状兴趣分类模型,并给出了模型生成算法。基于群体特性的用户模型构建的出发点是模型建立在服务器端,那么,有两点值得我们今后继续探讨:一是如何准确定位用户群体,并捕获群体特征,包括用户群体 的兴趣特征词,以及其相应兴趣权重;二是在客户端,如何快速部署一个临时用户兴趣组件,以便快速获取查询意图,以及优化查询结构,提高搜索针对性和准确性。[参考文献](References)[1]李晓明,闫宏飞,王继明.搜索引擎:原理技术与系统[M].北京:科学出版社,2002.[2]张园园.基于用户兴趣的个性化搜索引擎分析与研究[D].燕山大学硕士学位论文,2006.12.[3]李彦威.基于用户兴趣的个性化元搜索引擎研究[D].燕山大学硕士学位论文,2009.12.[4]毛晓星,薛安荣,鞠时光.基于加权语义网和有效信息的个性化用户兴趣建模[J].计算机应用研究,2010,27(9):3406~3408.[5]费洪晓,蒋仲,徐丽娟.基于树状向量空间模型的用户兴趣建模[J].计算机技术与发展,2009,19(5):79~84.[6]邱晓俊,刘发升.基于层次向量空间模型的用户兴趣建模研究[J].现代计算机,2010,06:16~19.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭