logAnalyzeHelper 工程的目的 该工程是论坛日志分析系统的辅助工程,主要功能模块是帮助日志分析系统清洗数据、以及在Hive中建立相应的数据表。 工程目录结构 /src ------/main --------------/java ---------------------/cn.edu.hust ---------------------------------------/preprocess -------------------------------------------------/domain -------------------------------------------------------/WebLogBean 日志的POJO对象 -------------------------------------------------/ClickStream r日志清洗数据 ---------------------------------------/udf -------------------------------------------bean ---------------------------------------------Pair IP查找的辅助类 -------------------------------------------BrowserUtils 获取浏览器的UDF函数 -------------------------------------------CityUtils 获取城市的UDF函数类 -------------------------------------------IPUtils 获取省份的UDF函数类 -------------------------------------------OSUtils 获取操作系统UDF函数类 -------------/resources ------/test ------/pom,xml 工程使用的数据集 工程使用的数据集可以在作者的百度云中 下载日志数据, 工程的流程 原始数据--->数据规整--->ETL--->导入mysql数据库--->可视化 ETL使用的SQL 使用的SQL在本本工程中命名为点击流.sql