欢迎来到天天文库
浏览记录
ID:34525788
大小:106.45 KB
页数:3页
时间:2019-03-07
《计算机基础知识治疗aab》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第28卷 第8期计 算 机 工 程2002年8月Vol.28№8ComputerEngineeringAugust2002·基金项目论文·文章编号:1000—3428(2002)08—0079—02文献标识码:A中图分类号:TP311.56基于概念的文档评价模型1112罗三定,冯元勇,沈德耀,贾维嘉(1.中南大学信息工程学院,长沙410083;2.)香港城市大学电脑工程与信息技术系摘要:理解文档的内容和查询的真实意图是提高搜索引擎智能水平的一种有效途径。提出了一种以分析概念及其关系为基础来理解文档、揣摩查
2、询意图的模型。在该模型中,结合用户背景知识构造一个用户概念库,将文档及查询要求转化为概念集,并适当扩充查询要求概念集,最后将两概念集转化为特征向量,计算其相似度,作为文档的评价值。文中详细给出了概念库及必需的概念运算的数学模型。关键词:文档评价;文档特征;查询意图;搜索引擎;概念库AConcept-basedDocumentEvaluationModelLUOSanding11,SHENDeyao1,JIAWeijia2,FENGYuanyong(1.CollegeofInformationScience
3、andEngineering,CentralSouthUniversity,Changsha410083;2.DepartmentofComputerEngineeringandInformationTechnology,CityUniversityofHongKong)【】AbstractThereexistsanobstacleinunderstandingtheretrievaldocumentandincomprehendingtherequest,whosebeingovercomewoulde
4、ffectivelyimprovethesearchenginesperformance.Thispaperpresentsaconcept-basedmathematicalmodeltotacklethisproblem.Itincludestheconcepthierarchyandsomeconceptoperations.Basedonthem,givesadocumentevaluationschemainvolvingthefollowingstepsasconstructaconceptb
5、asespecifictotherequesterwhosebackgroundknowledge,hisorherinterestpoints,isincluded,evolvetheconceptsetsfromthedocumentandtherequestandexpandthelatteronetoexplicatesomehints,translatethesetsintotwocorrespondingfeaturevectorsreferringtheconceptrelations,ev
6、aluatthesimilaritybetweenthemandthedegree,thedocumentfulfillstherequest.Inordertoimplementtheschema,italsotakeseffortsonsomebasicconceptoperations.【】KeywordsDocumentevaluation;Documentfeature;Retrievalintention;Searchengine;Conceptbase提高搜索引擎效率,检索出符合查询意图且数
7、量合适的念间的关系。基本数学模型为:φ=,其中N为节文档的一种重要途径是提高搜索引擎对查询意图和文档的理点集,RN×N为边集,代表节点间的关系,是偏序。F(R)[7]∪解能力,发展智能型搜索引擎()或称智能搜索器。然而这为关系R上的附属函数,表示上位节点对下位节点的兴趣度—存在着知识表示和知识处理等方面的难题。我们将在成熟的和下位节点对上位节点的从属度。兴趣度指用户对下位节点词获取技术基础上通过对词的分析来理解文档,并借助于引的兴趣偏好。从属度为一个概念从属或关联于另一概念的程擎及用户的经验
8、来揣摩查询意图和隐含的动机与要求。度,体现着用户对概念的不同理解(见图。1)在本文中,文档指表达某种意思、观点、情景、说明、判断、过程的文字序列。文档评价指判断文档与查询意图的相近程度。查询意图是标准,称为参照文档。被评价的文档称为待评文档。具有一定评价值水平的文档称为目标文档。文档评价一般有3步:分词及概念消歧、特征提取、特征分[4,6]析或评价。分词是找出文档中有代表性的词语。特征提取的前提是了解词与词之间的关系,进行词分
此文档下载收益归作者所有