微博用户信息抽取模块开发文档

微博用户信息抽取模块开发文档

ID:31542353

大小:398.00 KB

页数:3页

时间:2019-01-13

微博用户信息抽取模块开发文档_第1页
微博用户信息抽取模块开发文档_第2页
微博用户信息抽取模块开发文档_第3页
资源描述:

《微博用户信息抽取模块开发文档》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、微博用户信息抽取模块开发文档1.功能描述:抽取给定用户的个人资料界面中的相关个人信息。2.使用说明:实例化userInfo文件中的UserInfo类调用类的parseUserInfo(uid)方法即可以解析用户id为uid的用户信息。3.解析字段说明:_id:用户IDsn:用户屏幕名sx:性别vi:VIP认证信息dr:是否微博达人(0-不是1-是)bl:博客地址de:用户自我描述ad:用户地址un:用户名an:关注数量fn:粉丝数量mn:微博数量ci:职业信息ei:教育信息iu:头像URLiv:是否VIP(0-不是1-是)tg:用户标签rn:用户

2、真实姓名bd:生日qq:用户QQmsn:用户MSNemail:用户邮箱at:用户创建时间ti:爬取时间fui:用户关注人的id列表部分字段说明4.输入与输出:输入为用户ID,输出为用户的个人信息,并以CSV文件格式保存在指定文件中。文件为动态生成,在配置文件中可以指定数据文件存储的路径,生成的文件以时间命名,并以指定记录条数为一个文件存储量。5.接口说明classUserInfo:#解析用户信息defparseUserInfo(self,uid)parseUserInfo为公共接口,用于实现按照用户ID抽取用户信息。6.配置文件与规则库:提取用户

3、信息的规则,保存在规则库文件‘rule2.xml’中;配置信息保存在配置文件‘config.xml’中。规则库中字段出现的顺序,必须按照网页文件中,信息出现的顺序排列。7.使用示例:importuserInfouserInfo=userInfo.UserInfo()foruidinuidList:userInfo.parseUserInfo(uid)可以完成对用户ID列表中的用户,信息的抽取并保存到CSV文件中。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。