-_11.11_storm-spark-hadoop

hadoop_storm_spark结合实验的例子，模拟淘宝双11节，根据订单详细信息，汇总出总销售量，各个省份销售排行，以及后期的SQL分析，数据分析，数据挖掘等。 --------大概流程------- 第一阶段（storm实时报表） (1)用户订单入kafka队列， (2)经过storm，实时计算出总销售量，和各个省份的的销售量， (3)将计算结果保存到hbase数据库中。

第二阶段（离线报表） (1)用户订单入oracle数据库， (2)通过sqoop把数据导入hadoop上。 (3)使用mr和rdd对hadoop上的原始订单做etl清洗 (4)建立hive表和sparkSQL内存表。为后期分析做基础 (5)使用HQL实现业务指标分析，和用户画像分析，将结果存在mysql中。供web前台使用

第三阶段（大规模订单即席查询,和多维度查询） (1)用户订单入oracle数据库， (2)通过sqoop把数据导入hadoop上。 (3)写mr把hadoop的数据加载到hbase上 (4)使用hbase java api实现订单的即席查询 (5)solr绑定hbase，做多维度的条件查询

第四阶段（数据挖掘和图计算） (1)用户订单入oracle数据库， (2)通过sqoop把数据导入hadoop上。 (3)使用mr和rdd对hadoop上的原始订单做etl清洗 (4.1)使用mahout的关联规则做套餐推荐，mllib的als算法做协调过滤推荐。mllib的lr算法做是否购买的分类算法的推荐模块，mllib的kmeans对用户做聚类。寻找优质客户。 (4.2)使用graphX，寻找最热商品。基于图上的随机游走算法等图功能 --------大概流程-------

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
src/liguozhong/bigdata		src/liguozhong/bigdata
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

-_11.11_storm-spark-hadoop

About

Releases

Packages

Languages

liguozhong/demo_11.11_storm-spark-hadoop

Folders and files

Latest commit

History

Repository files navigation

-_11.11_storm-spark-hadoop

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages