基于网络信息提取系统中用户兴趣模型建立的研究.doc

基于网络信息提取系统中用户兴趣模型建立的研究.doc

ID:52481201

大小:64.00 KB

页数:4页

时间:2020-03-28

基于网络信息提取系统中用户兴趣模型建立的研究.doc_第1页
基于网络信息提取系统中用户兴趣模型建立的研究.doc_第2页
基于网络信息提取系统中用户兴趣模型建立的研究.doc_第3页
基于网络信息提取系统中用户兴趣模型建立的研究.doc_第4页
资源描述:

《基于网络信息提取系统中用户兴趣模型建立的研究.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于网络信息提取系统中用户兴趣模型建立的研究基于网络信息提取系统中用户兴趣模型建立的研究【摘耍】介绍了网络信息提取系统中用户兴趣模型建立的方法,在详细分析了现有兴趣模型的基础上,提出了一种由短期兴趣模型和长期兴趣模型组成的混合型用户兴趣模型,采用加入时间因素的二层树状结构表示用户兴趣模型,使模型既具有向量空间模型表示用户兴趣类的特点,又具有类型层次结构模型的层次性。【关键词】网络信息;混合型用户兴趣模型;二层树状结构1•存在问题用户兴趣模型是个性化信息过滤系统实现个性化的关键。目前的个性化信息过滤系统

2、都不能很好的为用户提供个性化服务。分析其原因,用户兴趣模型主耍存在以下问题:(1)描述用户对半结构化的Web数据的兴趣,现有的方法采用一个多维向量或者一组向量来表示。实验证明,这种表示模型不能完全描述出用户的真正兴趣所在,而且独立的向量也给兴趣的更新带来不便。(2)现有的系统大多耍求用户清楚地表述他们的兴趣,然而有时让用户准确而清楚地描述他们的信息需求是相当困难的,因为用户往往对模糊而好奇的东西会产生比较浓厚的兴趣。(3)现阶段很多系统都假设用户兴趣很少改变,但这与事实情况并不相符。当用户兴趣模型与用

3、户的实际兴趣不一致时,查准率和查全率必然低。2.模型建立为了解决现有用户兴趣模型不能区分短期和长期兴趣的问题,本文提出了一种混合用户兴趣模型,将用户兴趣模型分为短期兴趣模型和长期兴趣模型,短期兴趣模型中存储用户的近期兴趣,长期兴趣模型屮存储用户的长期偏好。同时提出了基于时间向量的二层树状结构来表示用户兴趣模型,节点采用加入时间因素的向量空间表示法表示,然后通过层次和划分结合的聚类算法把用户兴趣特征项聚类成不同的主题。系统通过收集用户浏览过的网页,除去不感兴趣的页而,得到用户感兴趣的页面。把用户感兴趣的

4、页面进行预处理后,采用树状向量空间表示,并进行聚类分析得到用户的兴趣度,同时收集用户的浏览行为,调整用户的兴趣度,由此建立短期兴趣模型。系统通过用户初次使用吋填写的注册信息建立短期兴趣模型,当用户的某一短期兴趣加入吋间间隔达到一定程度,则认为该兴趣为用户的长期兴趣,把此兴趣加入用户的长期兴趣模型中,并在短期兴趣模型中删除此兴趣。用户的兴趣模型采用基于优化时间窗兴趣漂移的遗忘机制进行更新。2.基于时间的二层树状空间向量模型表示用户兴趣模型表示是对从网页中抽取的元数据(特征值)进行量化,以结构化的形式描述

5、和存储用户兴趣信息,用户模型的表示决定了模型反映用户真实信息的能力和可计算能力,也在一定程度上限制了建模方法和模型更新算法的选取,同时是决定算法简繁优劣的重要因素之一,用户兴趣模型表示是建立用户兴趣模型的重要工作。用户通常对多方面的内容感兴趣,并且其兴趣不断变化。用户的一些长期兴趣很少发生变化,而短期兴趣却会经常发生变化。这就要求用户模型既能够考虑到用户的长期兴趣演变,也能够迅速捕获短期的兴趣变迁,表达用户当前的兴趣。鉴于此,本系统需要能区分不同时期兴趣的用户兴趣模型表示方法。本系统要求系统响应时间短

6、,而处理的数据量大,分析现有的用户模型表示方法,向量空间模型能将文本和查询简化为易于数学处理的特征项及权值集合的向量表示,但是向量空间模型不能区分用户的长短期兴趣,所以在向量空间模型的基础上进行了扩展,在其中加入吋间向量来表示用户兴趣模型。但同时只采用加入吋间向量的空间向量表示法并不能区分用户的不同兴趣类别,易造成用户兴趣混乱,故此本课题参考网易搜索引擎的“开放式目录(ODP)”管理方式,把用户兴趣模型表示成二层树类结构,上层父概念类是对下层所有子类的共同属性的概括,而下层子概念类则是从不同角度对上层

7、父概念类加以细化,所有子节点之间形成平等的兄弟关系,这能满足本系统能区分不同兴趣类别的要求。综上所述,本系统通过基于时间向量的二层树状结构来表示用户兴趣模型,笫一层节点表示用户的兴趣主题,一个主题可以有很多主题特征项,第二层节点表示用户某个兴趣主题下的特征项,兴趣主题和特征项采用加入时间因素的向量空间模型表示,这样的二层树状结构模型既具有特征项和权值表示用户兴趣类的特点,也具有类型层次结构模型的层次性,同时还能通过特征项主题加入时间的不同来区分短期和长期兴趣。因此整个模型树分为两级节点:第一级节点代表

8、用户的兴趣类别,用一组兴趣主题词(H,12,…,In)來代表用户的n个兴趣类别,每一兴趣类Ii根据用户兴趣度的高低赋予一定的权值Wi,且记录加入时间Si。因此用户的兴趣可以表示为((il,wl,si),(i2,w2,s2),…,(in,wn,sn))的加权矢量形式。第二级节点,即叶子节点,它代表用户某一兴趣类别下的特征项,以加入时间因素的向量空间表示成(T,W,S)形式。在向量空间模型中加入时间向量S(sl,s2,,si,,sn),记录新的特征项加入的时

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。