欢迎来到天天文库
浏览记录
ID:31542353
大小:398.00 KB
页数:3页
时间:2019-01-13
《微博用户信息抽取模块开发文档》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、微博用户信息抽取模块开发文档1.功能描述:抽取给定用户的个人资料界面中的相关个人信息。2.使用说明:实例化userInfo文件中的UserInfo类调用类的parseUserInfo(uid)方法即可以解析用户id为uid的用户信息。3.解析字段说明:_id:用户IDsn:用户屏幕名sx:性别vi:VIP认证信息dr:是否微博达人(0-不是1-是)bl:博客地址de:用户自我描述ad:用户地址un:用户名an:关注数量fn:粉丝数量mn:微博数量ci:职业信息ei:教育信息iu:头像URLiv:是否VIP(0-不是1-是)tg:用户标签rn:用户
2、真实姓名bd:生日qq:用户QQmsn:用户MSNemail:用户邮箱at:用户创建时间ti:爬取时间fui:用户关注人的id列表部分字段说明4.输入与输出:输入为用户ID,输出为用户的个人信息,并以CSV文件格式保存在指定文件中。文件为动态生成,在配置文件中可以指定数据文件存储的路径,生成的文件以时间命名,并以指定记录条数为一个文件存储量。5.接口说明classUserInfo:#解析用户信息defparseUserInfo(self,uid)parseUserInfo为公共接口,用于实现按照用户ID抽取用户信息。6.配置文件与规则库:提取用户
3、信息的规则,保存在规则库文件‘rule2.xml’中;配置信息保存在配置文件‘config.xml’中。规则库中字段出现的顺序,必须按照网页文件中,信息出现的顺序排列。7.使用示例:importuserInfouserInfo=userInfo.UserInfo()foruidinuidList:userInfo.parseUserInfo(uid)可以完成对用户ID列表中的用户,信息的抽取并保存到CSV文件中。
此文档下载收益归作者所有