1.过滤原则:
(1)去除所有u中不包含happyjuzi.com的日志
(2)去除所有u中包含&uid=的日志
(3)去除所有日志中不包含ipt、et的日志
2.su来源判定原则:
(1).su==null
1)包含d_source=mobile 分享
2)包含from 三方
3)其他的都是直接来源
(2).su!=null
1)su包含baidu.com、google.com、weibo.com、weibo.cn为搜索
2)u包含d_source=mobile 分享
3)u包含from 三方
4)su包含happyjuzi.com 直接
5)others
3.定义原则:
(1)sessionid为ipt加上10万以内的随机数
(2)count字段为当et=0的时候,count才会加一
4.需要注意的问题:
(1)跨小时访问sessionid出现错误(文件路径读取不按顺序)
(2)ep出现小数情况,已处理(只取整数)
(3)ipt单位不一直(出现13位,单位毫秒),已处理(全部10位,单位秒)
(4)搜索关键词无法获取