【实践经验】incubator-linkis1.1.3_cdh5.12.1后台代码编译（linkis1.2.0，编译也能通过，请注意后面的补充) #2920

Yiutto · 2022-08-22T03:25:32Z

Yiutto
Aug 22, 2022

背景

由于公司大数据集群都是作了堡垒机相关隔离，有的时候开发人员很难去测试一下环境，而且直连服务器去做测试也是不现实，很容易造成安全隐患。这时候就需要一个一站式平台开发环境，集成spark，python，shell，sqoop，flink，hive，impala等。本身我们内部用的是CDH集成的hadoop组件，用cloudera manager来管理，自身也可以通过hue去集成一些查询。但总的来讲hue只能集成jdbc相关查询，而且权限不能和hue自身账号作捆绑，而且需要配合livy等。

由于之前安装过webank的shedulis，一直有关注其相关附属产品，后看到linkis作为计算中间件，Linkis 提供了强大的连通、复用、编排、扩展和治理管控能力。通过计算中间件将应用层和引擎层解耦，简化了复杂的网络调用关系，降低了整体复杂度，同时节约了整体开发和维护成本。

故此，将其考虑测试并应用，下面是编译的一些记录，方便后期版本迭代和维护。

安装maven3.8.6配置settings和添加pom的repositories

修改settings.xml

<mirrors>
  <!-- mirror
   | Specifies a repository mirror site to use instead of a given repository. The repository that
   | this mirror serves has an ID that matches the mirrorOf element of this mirror. IDs are used
   | for inheritance and direct lookup purposes, and must be unique across the set of mirrors.
   |
  <mirror>
    <id>mirrorId</id>
    <mirrorOf>repositoryId</mirrorOf>
    <name>Human Readable Name for this Mirror.</name>
    <url>http://my.repository.com/repo/path</url>
  </mirror>
   -->
   <mirror>
       <id>nexus-aliyun</id>
       <mirrorOf>*,!cloudera</mirrorOf>
       <name>Nexus aliyun</name>
       <url>http://maven.aliyun.com/nexus/content/groups/public</url>
   </mirror>
   <mirror>
       <id>aliyunmaven</id>
       <mirrorOf>*,!cloudera</mirrorOf>
       <name>阿里云公共仓库</name>
       <url>https://maven.aliyun.com/repository/public</url>
   </mirror>
   <mirror>
       <id>aliyunmaven</id>
       <mirrorOf>*,!cloudera</mirrorOf>
       <name>spring-plugin</name>
       <url>https://maven.aliyun.com/repository/spring-plugin</url>
   </mirror>
  <mirror>
    <id>maven-default-http-blocker</id>
    <mirrorOf>external:http:*</mirrorOf>
    <name>Pseudo repository to mirror external repositories initially using HTTP.</name>
    <url>http://0.0.0.0/</url>
    <blocked>true</blocked>
  </mirror>
</mirrors>

添加incubator-linkis/pom.xml的repositories

<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>


    <repositories>
        <repository>
            <id>cloudera</id>
            <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
            <releases>
                <enabled>true</enabled>
            </releases>
        </repository>
        <!--防止cloudera找不到，加上阿里源-->
        <repository>
            <id>aliyun</id>
            <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
            <releases>
                <enabled>true</enabled>
            </releases>
        </repository>
    </repositories>

    <parent>
        <groupId>org.apache</groupId>
        <artifactId>apache</artifactId>
        <version>23</version>
    </parent>

修改hadoop、hive、spark等版本

修改外置pom.xml

将mysql相关test注释
            <dependency>
                <groupId>mysql</groupId>
                <artifactId>mysql-connector-java</artifactId>
                <version>${mysql.connector.version}</version>
                <!--<scope>test</scope>-->
            </dependency>
            
修改 hadoop zookeeper 

        <hadoop.version>2.6.0-cdh5.12.1</hadoop.version>
        <zookeeper.version>3.4.5-cdh5.12.1</zookeeper.version>
        <scala.version>2.11.8</scala.version>

修改cdh相关组件版本

外置的pom.xml添加镜像源,

    <repositories>
        <repository>
            <id>cloudera</id>
            <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
        </repository>
    </repositories>

==源代码中对于hive引擎由于版本中带有“-”，与linkis引擎路径解析关键字冲突需要进行调整，以hive为例，linkis的引擎目录中不能包含- 所有编译的dist包目录调整为1.1.0_cdh5.12.1==

hadoop版本修改

incubator-linkis-1.1.3\linkis-public-enhancements\linkis-datasource\linkis-metadata-manager\service\hive\pom.xml


incubator-linkis-1.1.3\pom.xml

hive版本修改

incubator-linkis-1.1.3\linkis-engineconn-plugins\engineconn-plugins\flink\pom.xml

修改为<hive.version>1.1.0-cdh5.12.1</hive.version>

incubator-linkis-1.1.3\linkis-engineconn-plugins\engineconn-plugins\hive\pom.xml
修改为<hive.version>1.1.0-cdh5.12.1</hive.version>
添加<package.hive.version>1.1.0_cdh5.12.1</package.hive.version>

incubator-linkis-1.1.3\linkis-engineconn-plugins\engineconn-plugins\hive\src\main\assembly\distribution.xml
修改为<outputDirectory>/dist/v${package.hive.version}/lib</outputDirectory>
修改为<outputDirectory>dist/v${package.hive.version}/conf</outputDirectory>
修改为<outputDirectory>plugin/${package.hive.version}</outputDirectory>

incubator-linkis-1.1.3\linkis-engineconn-plugins\engineconn-plugins\sqoop\pom.xml
修改为<hive.version>1.1.0-cdh5.12.1</hive.version>

incubator-linkis-1.1.3\linkis-public-enhancements\linkis-datasource\linkis-metadata-manager\service\hive\pom.xml
修改为<hive.version>1.1.0-cdh5.12.1</hive.version>

incubator-linkis-1.1.3\linkis-computation-governance\linkis-computation-governance-common\src\main\scala\org\apache\linkis\governance\common\conf\GovernaceCommonConf.scala 
修改为
val HIVE_ENGINE_VERSION = CommonVars("wds.linkis.hive.engine.version", "1.1.0")

incubator-linkis-1.1.3\linkis-computation-governance\linkis-manager\label-common\src\main\java\org\apache\linkis\manager\label\conf\LabelCommonConfig.java
修改为CommonVars.apply("wds.linkis.hive.engine.version", "1.1.0")

sqoop版本

incubator-linkis-1.1.3\linkis-engineconn-plugins\engineconn-plugins\sqoop\pom.xml
修改为<sqoop.version>1.4.6-cdh5.12.1</sqoop.version>
新增<package.sqoop.version>1.4.6_cdh5.12.1</package.sqoop.version>

incubator-linkis-1.1.3\linkis-engineconn-plugins\engineconn-plugins\sqoop\src\main\assembly\distribution.xml
修改为<outputDirectory>/dist/v${package.sqoop.version}/lib</outputDirectory>
修改为<outputDirectory>dist/v${package.sqoop.version}/conf</outputDirectory>
修改为<outputDirectory>plugin/${package.sqoop.version}</outputDirectory>

不做修改

==备注：后面发现（改成1.4.6—cdh1.12.1）编译不通过==

flink版本

因为flink不是原生的cdh版本，故相关out路径不需要修改

incubator-linkis-1.1.3\linkis-engineconn-plugins\engineconn-plugins\flink\pom.xml
修改为<flink.version>1.12.4</flink.version>


incubator-linkis-1.1.3\linkis-engineconn-plugins\engineconn-plugins\flink\src\main\assembly\distribution.xml
不做修改

incubator-linkis-1.1.3\linkis-engineconn-plugins\engineconn-plugins\flink\src\main\scala\org\apache\linkis\engineconnplugin\flink\config\FlinkEnvConfiguration.scala
修改为val FLINK_VERSION = CommonVars("flink.version", "1.12.4")

python版本

incubator-linkis-1.1.3\linkis-engineconn-plugins\engineconn-plugins\python\pom.xml
修改为<python.version>python3</python.version>

incubator-linkis-1.1.3\linkis-computation-governance\linkis-computation-governance-common\src\main\scala\org\apache\linkis\governance\common\conf\GovernaceCommonConf.scala
修改为val PYTHON_ENGINE_VERSION = CommonVars("wds.linkis.python.engine.version", "python3")

incubator-linkis-1.1.3\linkis-computation-governance\linkis-manager\label-common\src\main\java\org\apache\linkis\manager\label\conf\LabelCommonConfig.java
修改为CommonVars.apply("wds.linkis.python.engine.version", "python3")

spark版本

incubator-linkis-1.1.3\linkis-engineconn-plugins\engineconn-plugins\spark\pom.xml
修改为<spark.version>2.3.4</spark.version>

incubator-linkis-1.1.3\linkis-computation-governance\linkis-computation-governance-common\src\main\scala\org\apache\linkis\governance\common\conf\GovernaceCommonConf.scala
修改为val SPARK_ENGINE_VERSION = CommonVars("wds.linkis.spark.engine.version", "2.3.4")

incubator-linkis-1.1.3\linkis-computation-governance\linkis-manager\label-common\src\main\java\org\apache\linkis\manager\label\conf\LabelCommonConfig.java
修改为CommonVars.apply("wds.linkis.spark.engine.version", "2.3.4")

编译

mvn -N  install
mvn clean install -Dmaven.test.skip=true

第一次编译【下载release包】

linkis apache官网和GitHub release包都下载过

==开始编译。。。。。。。。。。。。。==

上图用的是scala2.11 maven3.5.1，linkis用的是release1.1.3编译，结果报错，估计maven,scala版本问题，我环境装了scala，后来我环境不配scala。

第二次编译【GitHub下载源码】

后来去github上下载tag分支，https://github.com/apache/incubator-linkis/releases/tag/1.1.3 我下载的是tar.gz包

继续编译，还是按前面去修改自己的版本。

第三次编译【手动添加jar和pom】

回顾上面内容，这次看好像编译走的挺远的了，结果还是报错，慢慢来吧

应该是修改了hadoop版本【版本降低了】，缺少eigenbase:eigenbase-properties:jar:1.1.4，手动下载吧。

https://github.com/julianhyde/eigenbase-properties/releases

需要从github上面下载源码然后编译
https://mvnrepository.com/artifact/eigenbase/eigenbase-properties/1.1.4

网上都是方法，这里是我打包编译好的jar包和pom文件

链接: https://pan.baidu.com/s/1EmwnU7JbEql54r-1XZHVuQ 提取码: 7s06

把下载好的放到对应的maven的仓库

MAVEN_HOME/repository/eigenbase/eigenbase-properties/1.1.4/下，把别的文件都删了

~~使用maven命令安装就成，这一步你可以省略~~

mvn install:install-file -DgroupId=eigenbase -DartifactId=eigenbase-properties -Dversion=1.1.4 -Dpackaging=jar -Dfile=MAVEN_HOME/repository/eigenbase/eigenbaseproperties/1.1.4/eigenbase-properties-1.1.4.jar

放置好包了，又开始编译

第四次编译【注释hive相关java代码】

回顾上次编译的问题，群里面说要把其注释掉，说是hive版本太低（我的是1.1.0-cdh-5.12.1）
incubator-linkis\linkis-engineconn-plugins\hive\src\main\java\org\apache\linkis\engineplugin\hive\serde\CustomerDelimitedJSONSerDe.java

   /* hive版本过低，需注释
   case INTERVAL_YEAR_MONTH:
       {
           wc = ((HiveIntervalYearMonthObjectInspector) oi).getPrimitiveWritableObject(o);
           binaryData = Base64.encodeBase64(String.valueOf(wc).getBytes());
           break;
       }
   case INTERVAL_DAY_TIME:
       {
           wc = ((HiveIntervalDayTimeObjectInspector) oi).getPrimitiveWritableObject(o);
           binaryData = Base64.encodeBase64(String.valueOf(wc).getBytes());
           break;
       }
   */

估计是低版本hive不支持该类型，

~~我先去单个模板编译试试，你可以省略~~

incubator-linkis\linkis-engineconn-plugins\hive>mvn clean install

感觉要成功了，结果。。

第五次编译【注释hadoop200】

报了个没有hadoop200的sqoop包，什么鬼，我的是cdh，先把其注释一下，

        <dependency>
            <groupId>org.apache.sqoop</groupId>
            <artifactId>sqoop</artifactId>
            <!--<classifier>hadoop200</classifier>-->
            <version>${sqoop.version}</version>
        </dependency>

单独编译试试先incubator-linkis\linkis-engineconn-plugins\sqoop>mvn clean install

第六次编译【手动添加jar和pom】

回顾上图，应该是缺包了，手动下载

https://public.nexus.pentaho.org/#browse/search=keyword=pentaho-aggdesigner-algorithm:bc8f284515cd2a36472ef54643f45905

放置好.m2\repository\org\pentaho\pentaho-aggdesigner-algorithm\5.1.5-jhyde，重新编译。。。

结果

第七次编译【sqoop版本回滚，不做修改，不用cdh版本】

报了这个错，估计是sqoop.scala代码和sqoop版本有关，不支持sqoop-1.4.6-cdh-5.12.1，算了还是弄原来的sqoop吧。

。。。。

你ma，终于编译过了。

安装包

    #详细路径如下
    incubator-linkis-x.x.x/assembly-combined-package/target/apache-linkis-x.x.x-incubating-bin.tar.gz

小结

来个小结吧,

1.配置好pom.xml和setting.xml，这里面mvn版本为（3.8.6），scala编译不需要安装
2.下载源码最好上github上下载master，release包可能有问题
3.修改cdh版本，注意out路径的'-'需要修改
4.sqoop最好保持不动，原因前面也说了【后期希望改掉吧】
5.编译耗时比较长，有时候需要手动去下载相关jar和pom

感谢微众的casion和群里的闪电先生

**【补充】【有点重要，请关注】

上述编译能通过，但是spark-sql不能利用linkis。后面根据社区朋友的指示，说spark-cdh兼容linkis有问题，运行会遇到jetty问题。为此，建议大家还是用原生的Apache spark2.4.3进行编译。后期在cdh上自行安装一个客户端。本人后来亲试了linkis1.2.0，修改了hive-1.1.0_cdh5.12.1，spark还是用2.4.3(没有用cdh版本)。

spark下载地址：

http://archive.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.6.tgz

/opt/spark-2.4.3-bin-hadoop2.6/conf 里面 spark-evn.sh内容置空

cp spark-env.sh.template spark-env.sh

把hive-site.xml添加至conf

在/etc/hive/conf里面复制进去

把yarn-site.xml添加至conf

这里面有个尴尬的事情，就是之前的机器没有添加到yarn集群，导致提交spark-sql一直等待。

后来从其他机器里面/etc/hadoop/conf/yarn-site.xml拷贝进去。

log4j冲突

将linkis的engine的jar删掉 lib/linkis-engineconn-plugins/spark/dist/v2.4.3/lib/log4j-slf4j-impl-2.17.2.jar.bak

配置环境变量

[linkis@dn19 ~]$ cat .bash_profile 
# .bash_profile

# Get the aliases and functions
if [ -f ~/.bashrc ]; then
        . ~/.bashrc
fi

# User specific environment and startup programs

PATH=$PATH:$HOME/.local/bin:$HOME/bin
export PATH

# 再次声明下JAVA_HOME
export JAVA_HOME=/usr/lib/jvm/java

# HADOOP HOME
export HADOOP_HOME=/home/cloudera/parcel/CDH/lib/hadoop
export HADOOP_CONF_DIR=/etc/hadoop/conf

# HIVE HOME
export HIVE_HOME=/home/cloudera/parcel/CDH/lib/hive
export HIVE_CONF_DIR=/etc/hive/conf

# SPARK HOME
export SPARK_HOME=/opt/spark-2.4.3-bin-hadoop2.6
export SPARK_CONF_DIR=/opt/spark-2.4.3-bin-hadoop2.6/conf
export PYSPARK_ALLOW_INSECURE_GATEWAY=1

export PATH=$PATH:$JAVA_HOME/bin:$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

参考

https://juejin.cn/post/7046671711999098916
https://juejin.cn/post/7047407883322916872

#2652

https://mp.weixin.qq.com/s/__QxC1NoLQFwme1yljy-Nw

https://blog.csdn.net/Li_FreshFish/article/details/121034072

Ritakang0451 · 2022-08-25T07:00:13Z

Ritakang0451
Aug 25, 2022

棒

0 replies

Ritakang0451 · 2022-09-14T07:27:23Z

Ritakang0451
Sep 14, 2022

求把【实践经验】放在标题的最前方~~

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

【实践经验】incubator-linkis1.1.3_cdh5.12.1后台代码编译（linkis1.2.0，编译也能通过，请注意后面的补充) #2920

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 2 comments

{{title}}

{{title}}

Select a reply

【实践经验】incubator-linkis1.1.3_cdh5.12.1后台代码编译（linkis1.2.0，编译也能通过，请注意后面的补充) #2920

Yiutto Aug 22, 2022

背景

安装maven3.8.6配置settings和添加pom的repositories

修改settings.xml

添加incubator-linkis/pom.xml的repositories

修改hadoop、hive、spark等版本

修改外置pom.xml

修改cdh相关组件版本

hadoop版本修改

hive版本修改

sqoop版本

flink版本

python版本

spark版本

编译

第一次编译【下载release包】

第二次编译 【GitHub下载源码】

第三次编译【手动添加jar和pom】

第四次编译【注释hive相关java代码】

第五次编译【注释hadoop200】

第六次编译【手动添加jar和pom】

第七次编译【sqoop版本回滚，不做修改，不用cdh版本】

安装包

小结

**【补充】【有点重要，请关注】

spark下载地址：

/opt/spark-2.4.3-bin-hadoop2.6/conf 里面 spark-evn.sh内容置空

把hive-site.xml添加至conf

把yarn-site.xml添加至conf

log4j冲突

配置环境变量

参考

Replies: 2 comments

Ritakang0451 Aug 25, 2022

Ritakang0451 Sep 14, 2022

Yiutto
Aug 22, 2022

第二次编译【GitHub下载源码】

Ritakang0451
Aug 25, 2022

Ritakang0451
Sep 14, 2022