欢迎来到天天文库
浏览记录
ID:4128511
大小:603.00 KB
页数:35页
时间:2017-11-29
《搜索日志分析系统工作总结》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、工作总结企业资料1提纲工作汇总有意义串研究企业资料2工作汇总搜索日志分析系统smark拼音汉字系统调研有意义串相关工作词聚类调研企业资料3工作汇总--搜索日志分析系统smark(1)任务:根据所给的搜索日志进行数据分析,提供有用信息。提供数据中所能反映的商机以网页的形式提供服务。企业资料4工作汇总--搜索日志分析系统smark(2)已完成的工作:重复串的TopN排序。搜索词的TopN排序。查询词的统计信息,如时间分布,地域分布等。查询词分类,用户分类。加入检索功能。网页展示界面。企业资料5工作汇总--搜索日志分析系统smark(3)Smark系统数据展示界面Smark系统功能选择界面企业
2、资料6工作汇总--拼音汉字转换系统调研(1)任务:调研拼音到汉字的转换方法对快速输入法提出自己的设计想法企业资料7工作汇总--拼音汉字系统调研(2)工作进展:对音字转化的现状有了基本了解整理了音字转换系统的组成提出改进之处企业资料8工作汇总--有意义串相关工作熟悉师姐的程序,处理不同数据商业网页数据、专利数据等根据不同数据改进程序写有意义串方面的专利面向互联网的有意串挖掘专利文献的领域术语抽取方法以及专利搜索辅助系统改进发现有意义串的方法基于伪相关反馈的领域词典生成算法基于窗口的有意义串挖掘方法有意义串挖掘软件GoldMiner重写有意义串挖掘程序加入检索功能以及界面展示功能企业资料9企
3、业资料10工作汇总--词聚类调研目标:给定一个新出现的有意义串,可以找跟它相近的词,通过这些词推测这个有意义串的意思和用法。完成情况:整理10多篇关于聚类的文章实验效果不是很好,有待改进企业资料11提纲工作汇总有意义串研究企业资料12有意义串研究背景改进方法工作计划企业资料13背景--有意义串定义定义:包含具体语义,并且能够做为一个灵活独立的语言单元在不同语境中使用的字符串特点:结构上:结构较稳定,具有一定的凝固性。语义上:表意完整单一、所指明确。语用上:使用环境灵活多样。统计上:在大规模真实文本中有一定流通度。企业资料14小说语料专利语料BBS标题语料企业资料15背景--有意义串应用索
4、引词优化社会热点挖掘文本表示语料建设专业术语提取企业资料16背景--现有的方法切分方法组合是利用词汇的共同属性,如MI、MI和RIDF、MI和ContextDependence等。组合方法基于压缩的切分方法等。企业资料17背景--邻接类别(1)左邻接类别:在串左边出现的字或词的种类数量。右邻接类别:在串右边出现的字或词的种类数量。邻接类别:左邻接类别和右邻接类别的较小值。企业资料18背景--邻接类别(2)招聘版主申请版主须知各位版主请看请教版主一个启动的问题请教版主关于还原卡的问题左邻接类别=4右邻接类别=5邻接类别=min{4,5}=4企业资料19背景--位置成词概率位置成词概率(Po
5、sition-WordProbability):汉字c的位置成词概率PWP(c,pos)计算如下:企业资料20背景—提取流程企业资料21有意义串研究背景改进方法工作计划企业资料22改进方法基于伪相关反馈的领域词典生成算法基于窗口的有意义串挖掘方法企业资料23基于伪相关反馈的领域词典生成算法(1)主要思想:把领域词典生成的过程视为一个信息检索的过程假设初始检索出来的前若干个结果与领域相关,将结果加到词典中,重新检索。企业资料24查找重复串上下文邻接分析成词概率分析分词词典成词概率表语料有意义串更新词典更新成词概率表基于伪相关反馈的领域词典生成算法(2)企业资料25基于窗口的有意义串挖掘方法
6、方法1.从整个语料集上查找有意义串。2.把整个语料集分成若干个子语料(如小说语料按章节份),从子语料中查找有意义串。3.把上两步的结果合并起来。效果1.提高精度,找到只在局部出现而全局信息不够高的重复串。(小说语料实验效果并不是特别明显)2.提高速度企业资料26有意义串研究背景改进方法工作计划企业资料27工作计划提高有意义串挖掘算法的效率将有意义串加入到不同应用中有意义串分析、展示系统企业资料28工作计划(1)--提高有意义串挖掘算法的效率精度前N个词的准确应经很高。(BBS标题10M语料的前500个词的准确率为95%)后面的词的准确率越来越低。希望用统计的方法提高这部分的准确率。速度现
7、处理有意义串的速度还不高。处理速度主要跟生成的重复串的数目有关。企业资料29工作计划(2)--将有意义串加入到不同应用中领域词典如专利领域,开发专利词典。在专利检索过程中,辅助专利分析师或普通的专利检索者。文本分类将有意义串挖掘应用到文本分类中。先找出文档集合中的有意义串,再根据有意义串对文档进行分类。文本聚类或者话题聚类可以应用到短文本的分析中。安全应用用一个词进行聚类,找出词形或者用法与其相近的词。如“法轮功”与“法车仑功”属于
此文档下载收益归作者所有