资源描述:
《基于领域本体的数字图书馆信息过滤模型研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、101基于领域本体的数字图书馆信息过滤模型研究3易明王学东摘要数字图书馆传统信息过滤技术有很大的局限性。基于领域本体的数字图书馆信息过滤模型最大的特点在于它保留了概念之间以及概念属性之间的关系,能够在复杂语义层次进行逻辑推理。该模型实现的关键问题在于基于领域本体的资源评价值转化和基于领域本体的匹配。图1。表2。参考文献9。关键词数字图书馆信息过滤领域本体分类号G250.76ABSTRACTAfteranalyzingthelimitationsoftraditionalinformationfilteringtechnologiesofdigitallibraries,theauth
2、orsproposeaninformationfilteringmodelofdigitallibrariesbasedondomainontology,andthendiscussitsadvantagesandthekeyproblemsconcerningitsimplementation.1figs.2tabs.9refs.KEYWORDSDigitallibrary.Informationfiltering.Domainontology.CLASSNUMBERG250.76揭示资源所涉及的各种对象之间的复杂关系,1数字图书馆传统信息过滤技术的局如数字图书馆中的图书、作者和出
3、版社之间的限性关系就会被丢失。由此,这种方法所描述的用户兴趣模型存在很多盲区,而一些有价值的资针对数字图书馆“信息过载”的问题,如何源就可能被错误过滤。帮助用户滤除与兴趣无关的资源已成为当前研协作过滤的出发点在于任何人的兴趣不是[2]究的重点课题。近几年,在国外兴起的信息过孤立的,而是处于某个群体中。这种技术的滤技术成为解决这一问题的重要手段。目前,关键是根据用户对资源的评价进行用户聚类,信息过滤技术主要分为两类:一类是基于内容进而依据与用户兴趣最为相似的用户组的共同的过滤;另一类是协作过滤。兴趣来判断该用户的兴趣。其最大优点是能够基于内容的过滤假定每个用户是相互独立发现用户新的兴趣
4、,而且由于不依赖于资源内操作的,因此,过滤的结果只取决于资源与用户容,不仅适用于文本资源,而且还可以广泛应用兴趣模型的匹配程度,即利用资源与用户兴趣于多媒体资源。但是,从方法层次来看,协作过[1]的相似性来过滤资源。系统通过学习用户评滤技术并没有对资源作更为细致的表征,始终价过的资源特征来获得对用户兴趣的描述。这是基于资源层次来描述用户兴趣,最终所生成种技术的优点是简单、有效,缺点是难以发现用的用户兴趣模型的盲区会更多。同时,也导致[3]户新的兴趣,只能发现和用户已有兴趣相似的该种技术面临一些难以解决的问题:①“稀资源。另外,从实现方法来看,基于内容的过滤疏性”问题,即如果用户一般都
5、只对很少的资源通常利用关键词来表征资源,进而基于关键词进行评价,那么整个数据阵将变得非常稀疏,这来描述用户兴趣。然而,关键词无法深层次地种情况带来的问题就是用户间相似性的比较不3本文系教育部人文社会科学研究青年基金项目“面向用户的点击流信息资源开发与利用研究”(项目批准号:08JC870005)的研究成果之一。2009年5月May,2009102JournalofLibraryScienceinChina准确;②“冷开始”问题,又称新资源问题,即如似于基于内容的过滤。果一个新资源没有用户评价,那么这个资源就首先,利用本体理论构建数字图书馆领域往往被系统过滤了,无论它对当前用户是否有本
6、体。这一环节是模型的基础。其次,依据不价值;③“灰色绵羊”问题,即一位用户游离于不同用户对资源库中相关资源的评价值(如果对同用户组之间,无法对该用户的兴趣进行准确某种资源的评价为空,即用户没有评价,则需要定位;④“可扩展性”问题,即随着用户和资源的进行一定的技术处理),对用户进行聚类,形成k增多,系统性能会越来越低。个用户组,使得用户兴趣的相似性在同一用户同时,基于内容的过滤和协作过滤都不能组之间最大化,而在不同用户组之间最小化,并实现领域之间的相似性比较。主要原因是,在利用每个聚类的质心点矢量来表征该用户组对不同的领域,资源的表示方法很可能是不同的,[5]资源库中相关资源的评价值。
7、再次,利用数从而增加了跨领域相似性比较的难度。比如,字图书馆领域本体,将不同用户组对资源库中在描述图书时,就可能不会采用与电影相同的相关资源的评价值转化为对概念集中不同概念表示方法。然而,用户的兴趣在某个范围内是的评价值。同样,用户A对资源库中相关资源基本一致的,比如喜欢科幻图书的用户可能对的评价值也可以转化为对概念集中不同概念的科幻电影也感兴趣。评价值。最后,基于对不同概念的评价,将用户此外,有学者综合基于内容的过滤和协作A与不同的用户组进行匹配,找到与