欢迎来到天天文库
浏览记录
ID:1396630
大小:629.00 KB
页数:13页
时间:2017-11-11
《厦门大学数据库实验室论文阅读报告(1)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、厦门大学数据库实验室论文阅读报告(1)报告人:谢荣东指导老师:林子雨2015.7.17Part1空间数据上Top-k关键词模糊查询算法论文一综述-------------------------------------------作者:胡骏、范举、李国良、陈姗姗;清华大学计算机科学与技术系数据库研究组发表信息:2012年11月于《计算机学报》关键词:基于位置的服务;空间数据上的关键词检索;字符串近似匹配学术贡献:1、首次提出了空间数据上的Top-k关键词模糊查询问题;2、提出了有效的索引结构RigionTrie,并基于该结构设计了
2、高效的Top-k算法论文一主要内容-------------------------------------------问题:移动端文本位置查询的Top-k优化问题,如地图位置查询等方法:定义一个新的相关性函数设计新型的索引结构RigionTrie,根据文本和空间特性对POI点进行有效的组织基于以上两点设计了一个“基于RigionTrie的Top-k算法”论文一参考文献-------------------------------------------胡骏,范举,李国良,等.空间数据上Top—k关键词模糊查询算法[J].计算机学
3、报,2012,35(11):2237-2246.Part2kNN文本分类器类偏斜问题的一种处理对策------------------------------------------------------论文二综述作者:郝秀兰、陶晓鹏,、徐和祥;复旦大学计算机与信息技术系发表信息:2015年于《计算机研究与发展》关键词:文本分类;kNN;类偏斜;文本训练集的临界点;权重调节;随机重取样学术贡献:1、提出了一个新概念—文本训练数据集的临界点(CP),并给出算法求CP的值;2、将CP的近似值LA或UA。训练样本数与传统的决策规则结合
4、起来,形成自适应的加权KNN分类------------------------------------------------------论文二主要内容问题:传统KNN分类,训练样本中类的实例数量会影响分类效果,分类器会被大类控制,忽略小类方法:提出一个“训练样本数及文本训练集的临界点--CP”概念,对训练集中的样本数进行折衷处理。本质上是利用CP对训练集样本进行跟方缩小,减小样本间差异------------------------------------------------------论文二参考文献郝秀兰,陶晓鹏,徐和祥
5、,等.kNN文本分类器类偏斜问题的一种处理对策[J].计算机研究与发展,2015,46(1):52-61.Part3Diversity-AwareTop-kPublish/SubscribeforTextStream论文三综述-------------------------------------------作者:陈力思、丛高;南洋理工大学发表信息:2015SIGMOD关键词:textstream;diversification;publish/subscribe主要内容:提出一个解决DAS查询的新方法,提高60%-75%的性能
6、论文三标题-------------------------------------------ChenL,CongG.Diversity-AwareTop-kPublish/SubscribeforTextStream[C]//Proceedingsofthe2015ACMSIGMODInternationalConferenceonManagementofData.ACM,2015:347-362.遇到的问题Thanks.
此文档下载收益归作者所有