欢迎来到天天文库
浏览记录
ID:26163279
大小:56.50 KB
页数:5页
时间:2018-11-25
《基于 google 搜索路径的课程信息垂直搜索引》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于Google搜索路径的课程信息垂直搜索引【摘要】课程信息垂直搜索引擎,即在课程信息这个特定的领域里,让用户能搜索到最精准最全面的结果。本文利用Google发现“学校-学院-教师-课程”路径,利用HTMLParser进行基于UC[5]、CoNLL[6]、ACE[7]、SIGHAN[8]等。就本文而言,实体“课程”包括以下属性:课程名称、学院、学校、教师、教师主页URL,课程链接以及课程简介。本文的NE识别方法为基于LParser编写包装器进行基于WEB页面结构分析的课程元数据信息抽取。第2节介绍了本
2、文的总体思路与核心算法,重点介绍了抓取网页的基类,并以卡耐基-梅隆大学的生态环境研究学院为例,具体叙述了专门为该学院编写的包装器。第3节评测了算法的查全率,查准率和F-度量,分析了本文算法的性能。第4节简单介绍了本文涉及的实现技术。最后,对本文的性能和扩展做了小结,指出了针对本文改进和发展的方向。2.1利用Google发现搜索路径课程的自然组织形式为从大学、学院、教师再到课程或者从大学、学院直接到课程。因此,本文利用GoogleAJAXSearchAPI以及Google的高级搜索语法按以下两种顺序之一
3、来发现课程信息:(1)学校→学院→教师→课程(2)学校→学院→课程2.1.1GoogleAPI和高级搜索语法如图1所示,为本文设计的基于Google的路径发现页面有两个输入框,keyeKeyeKeyeType”,表示过滤文件类型为“someType”的结果。“intitle:someKeyeKeyu”,site留空。第一个得到的结果即为.cmu.edu/(2)学院在keyentalcmu”,site留空。第一个结果即为.ce.cmu.edu/(3)课程信息页面:在keyu.edu”。得到2007-co
4、urse-list和2008-course-list的URL地址。(4)教师信息页面:在keyu.edu”。得到falculty的URL地址。2.2LParser,使用的版本为1.6。HTMLParser是一个简单而功能强大的JavaHTML解析器库,可以分析和处理LParser的分析器parser,设置编码方式2.根据WEB页面结构选择适合的Filter,比如本页面要提取课程简介,则该节点必定含有关键词Description,因此选用StringFiltercoursefilter=neental.
5、java继承(extends)于Extractor.java主要包括两个函数:(1)getTeachers(),通过分析WEB页面结构获得教师信息,并存储于teacherList,伪代码见图3:1.初始化teacherList,数据,类型为ArrayList2.根据U根据卡耐基梅隆大学课程编号的统一形式,用正则匹配[0-9]{2}-[0-9]{3},(即判断索引中的name域的值是否以“两个数字”+“-”+“三个数字”开头),如果不是,说明不是卡耐基梅隆大学课程的索引项,删除该项。1.调用setInf
6、or()函数,设置了每一门课程的公共信息,本例为学校和学院2.初始化HTMLParser的分析器parser,并设置编码方式3.分析LParser进行基于ellonCollegeofSciences(MCS,样本600,未提供教师信息),第三行数据为CollegeofFineArts(CFA,样本120)。表1查全率,查准率,F-度量的比较Tab.1parisonofRecall,Precision,F-measure4.系统实现本文的Model-Vie4j通过对xml文件的读写实现实现“Latest
7、KeyQuery词条搜索,QueryParser字串搜索,BooleanQuery布尔搜索等等。分词基于Lucene的中文分词软件—JE分词。本搜索引擎同时支持中文和英文搜索。图5各个学院的F度量Fig5F-measureofdifferentcolleges5.总结和展望本文提出了利用Google按照“学校-学院-教师-课程”发现搜索路径,然后利用HTMLParser编写包装器进行基于M、CRF等统计模型的元数据算法。并且将利用.ChauandH.Chen.PersonalizedandFocuse
8、d.NajorkandJ.L.olina,andL.Page,“EfficientCrame/fullpapers/1919/1919.htm.H.ChenandT.Ng,“AnAlgorithmicApproachtoConceptExplorationinaLargeKnoaticThesaurusConsultation):SymbolicBrand-and-BoundSearchvs.ConnectionistHopfieldNetActivat
此文档下载收益归作者所有