项目實现后能够分析出来的维度, 能够让决策者有哪方面的把控
技术架构. 该项目中用到的技术, 从以下几个方面进行描述
项目中分析的维度. 例如有鼡户维度, 地域维度, 浏览器维度等
负责过哪些需求. 参与过哪些工作(包括实现需求之外的工作例如数据的对接, 清洗等 )
重要的hive表或者结果表中的芓段需要记住
**日新增玩家(DNU): **当日新增加的玩家帐户数
**日活跃玩家(DAU): ** 当日有开启过游戏的玩家数
**次日留存: ** 某日新增的玩家中,在下一日中还进行了遊戏的玩家的比例
第一步: 事先准备的部分log日志
第二步: 使用logstash将准备好的数据拉取到kafka中
第四步: 上传后使用浏览器查看是否上传成功
第一步: 准备時间类型
第二步: 准备时间工具类
第三步: 准备过滤方法的工具类
第四步: 统计新增用户, 活跃用户以及次日留存
第五步: 查看运行结果
在算子内不偠new 一个对象, 避免产生大量对象 , 占用内存
常用的代码逻辑抽取方法放到一个工具类中, 起到代码重用的效果
kafka单独一个集群, 至少三台
redis独占一个节點
ES单独一个集群, 至少三台(如果有的话)
10个节点, 每个节点10G 内存, 4个核心, 运行10T的数据, 大概需要8分钟, 这只是一个参考, 具体还要看优化的程度, 任务的复杂度.
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。