检索序列获取-模块介绍

检索序列获取-模块介绍

ID:41985434

大小:89.50 KB

页数:4页

时间:2019-09-05

检索序列获取-模块介绍_第1页
检索序列获取-模块介绍_第2页
检索序列获取-模块介绍_第3页
检索序列获取-模块介绍_第4页
资源描述:

《检索序列获取-模块介绍》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、检索序列获取——模块介绍师尚伟20141203一、功能点概述检索序列模块获取满足条件的cookie的行为日志,分为两步:Stepl,圈cookieStep2,取每个cookie的日志二、系统输入系统输入为用户通过web页面指定的任务详情。具体如下:信息类别说明后台数据格式(都是字符串)对应shell变量(utf-8)任务号任务号(系统分配,和其他模块保持一致即可)一个字符串taskid=$l#001频道PC无线,至少选一个以代码形式传递,10011表示PS,11000表示无线都选的话用英文逗号隔开:1001hl1000channel二$2cookie时间段开始日期,结束日期—个连续的时间段,如

2、果大于两周后台需要拆分成多个sql跑开始日期要在最近两个月之内(数据表限制)2014090L20140910时间之间无-连接,中间用英文逗号隔开cookie_date_range=$3Cookie活性时间长度N,单位为天,默认为0,含义是:时间段中前N天和后N天都有搜索行为;7表示时间段中前一周和后一周都有搜索行为0表示不进行此项筛选cookie_active_length=?4#0or1..7…Query词包或规则,二选一如果是词包,词包格式为gbk编码的csv文件,每行一个词;如果是规则,目前仅支持两种:1、query至少包含某几个词中的一个,此时输入规则为:词A

3、

4、词B

5、I-,含义是,筛

6、选的query包含词A或词B或…2、query同时包含多个词,此时输入规则为:(词A

7、

8、词B

9、

10、…)&&(词C

11、丨词D

12、

13、…)&&•••,含义是,query包含(词A

14、

15、词B

16、

17、…)中的某个词的同时包含(词C

18、丨词0

19、1…)中的某个词…的同时…&&或&表示逻辑“与”丨丨或丨表示逻辑“或”1、如果是词包则为词包文件地址2、如果是规则则为规则字符串(utf-8)flag_wordbag_or_rule=$5#0forwordbagand1forrulewordbag_or_rule=$6#wordbagurlwhenflag_wordbag_or_rule=0andrulestringwhenfl

20、ag_wordbag_or_rule=1筛选条件两种筛选方式为:筛选方式1、随机选取N个cookie筛选方式2、PV大于某个值的同时随机取N个cookie两种方式可以都选,可以选一个,也可以都不选(都不选表不保留所有cookie)筛选方式1:—个整数(rand_cookie_num),0表不不采用本筛选方式,大于0的整数N表示随机选取N个cookie筛选方式2:两个整数(minimum_pv和cookie_num),minimum_pv=0或1表示不采用本筛选方式,minimum_pv=$7#0or1...cookie_num=$8#1000or10000....rand_cookie_num

21、=?9minimum_pv>=2表示选取本筛选方式且筛选条件为取PV>=minimum_pv的cookie,女[I果minimum_pv>=2必须指定cookie_num,表示从PV>=minimum_pv的cookie中随机选取cookienum个。日志时间段开始日期,结束日期一个连续的时间段,如果大于两周后台需要拆分成多个sql跑开始日期要在最近两个月之内(数据表限制)20140901,20140910时间之间无-连接,中间用英文逗号隔开log_date_range=$10三、系统输出点击提交后,提交统计任务。提供给用户的结果是指定时间内的检索点击日志,字段如下:PS:wise:cooki

22、estringwise_uidstringuser_idstringnormalizedquerystringnormalized_querystringpartitionstat^datestringpartition_stat_datestringactiontimestringaction_timestringprovincestringprovincestringcitystringcitystringmatched_action_namestringmatched_action_namestringclk_urlstringclk_urlstringurl_hoststringurl

23、_hoststringquery_levell_typestringquery_level2_typestringattributesstringattributesstringgoal_idhigintgoal_idstringgoal_stepintgoal_stephigint同时给出两个统计指标:UV数和总PV数四、后台处理逻辑后台根据输入参数,生成相应的sql文件,并按照逻辑顺序依次运行

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。