-
Notifications
You must be signed in to change notification settings - Fork 1.9k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
FAQ #267
Comments
FAQ 10. Exception in thread "main" java.lang.NoSuchFieldError: INSTANCE 原因是CDH版本Spark自带的 httpclient.jar 版本较低,而ClickHouse JDBC基于的httpclient版本为4.5.2,包版本冲突。解决方法是用 httpclient-4.5.2 版本替换掉 CDH 自带的jar包 FAQ 11. 我的Spark集群的默认jdk是java7,我安装了java8之后,如何指定让waterdrop使用java启动: 在waterdrop的config 文件中,指定如下配置:
FAQ 11. 如何为Waterdrop on Yarn指定不同的JDK版本? 比如,你希望将JDK版本定为JDK8 分两种情况:
在waterdrop的config 文件中,指定如下配置:
FAQ 12 waterdrop配置多个数据源, 比如在input里面同时配置es和hdfs, 有这种多数据源的案例吗? 多数据源举例如下:
类似这样的配置,可以实现多源数据处理。 |
FAQ 13. 在output里面没看到有Hive,请问怎么写Hive? 参考 #431 |
FAQ 14. 多行文本如何实现 当你有一个配置,文本非常长,希望能够换行时,可以使用三个双引号来表示
FAQ 15. 多行文本如何实现变量替换 但是当你想在多行文本中做变量替换时,就会麻烦一点,因为变量不能包括在三个双引号之内。
|
FAQ 16. Waterdrop 写 ClickHouse 多个实例如何实现负载均衡?
|
FAQ 17. Spark local[*] 模式下跑Waterdrop,总是出现OOM,怎么办? 如果用local模式跑的话,需要修改一下start-waterdrop.sh的脚本,在spark-submit后面,增加一个参数 |
FAQ 18. 自己编写的插件或者是第三方的jdbc.jar放在哪里可以被 SeaTunnel 加载? 将 Jar 包,放置在
|
FAQ 19. Waterdrop-v1(Spark) 有3种设置Logging相关参数的方法(如Log Level)
参考的配置文件内容如下:
疑问:Waterdrop-v2(Spark, Flink) 如何设置logging相关配置?目前暂时还不能直接设置,需要用户修改waterdrop启动脚本,在spark-submit或者flink的提交任务命令中指定相关参数,具体是哪些参数,可直接参照
Reference:https://stackoverflow.com/questions/27781187/how-to-stop-info-messages-displaying-on-spark-console http://spark.apache.org/docs/latest/configuration.html#configuring-logging https://medium.com/@iacomini.riccardo/spark-logging-configuration-in-yarn-faf5ba5fdb01 https://stackoverflow.com/questions/27781187/how-to-stop-info-messages-displaying-on-spark-console |
FAQ 20 如何用Waterdrop把数据写入Hive?
|
FAQ 21 写入ClickHouse 报错: ClassCastException在Waterdrop里面不会主动对数据类型进行转,在Input读取数据之后,生成对应的Schema。而在写入ClickHouse的时候,需要字段类型严格匹配,不匹配的需要进行数据转换,数据转换可以通过以下2种插件实现:
|
FAQ 22 Waterdrop 如何访问kerberos鉴权的HDFS、YARN、Hive等资源?请参考:#590 |
FAQ 23 如何排查NoClassDefFoundError、ClassNotFoundException 等问题?出现这种情况,大概率是Java Classpath中有多个不同版本的对应Jar包class load时因为顺序问题冲突了,而不是真的缺少这个Jar,请修改这个waterdrop启动命令,在spark-submit提交的地方加入以下参数,通过输出的日志来详细debug。
|
FAQ 24 Waterdrop v1 的编译打包工具是sbt,下载依赖非常慢怎么办?有办法,参照下面的去做,优先使用国内镜像,会快很多,以Mac + IDEA系统的配置方法为例子。 第一步:在~/.sbt目录下创建repositories文件,内容如下:
第二步:在 IDEA 设置中搜索sbt,然后修改VM parameters,填入以下内容:
点击apply,设置完毕就可以畅快使用sbt了。 |
FAQ 25 有没有HBase插件?有hbase input 插件,从这里下载:https://github.com/garyelephant/waterdrop-input-hbase |
FAQ 26 如何使用Waterdrop完成跨HDFS集群数据同步?只要把hdfs-site.xml配置好即可,参见这篇文章:https://www.cnblogs.com/suanec/p/7828139.html 另外附送一篇如何修改spark代码完成配置的代码(waterdrop不需要这么做):https://www.jianshu.com/p/3e84c4c97610 |
如何使用waterdrop将clickhouse数据同步到hdfs? |
Good |
this issue is very import, is there anybody who can describe it in English? |
想问下如何同步到doris?我用1.5.4、1.5.7都发现Caused by: java.lang.ClassNotFoundException: Doris,我看开发才有doris connect请问使用? |
可以自己mvn package编译一下,安装包在seatunnel-dist/target下面 |
请问是在seatunnel-dist层编译还是最外一层编译? |
|
@maijh doris connector developed at dev branch but the release of 1.5.x based on master branch. BTW, the project compile at the outermost layer. |
是的,在根路径。 |
FAQ 1. Waterdrop开发者自己开发插件时,是否需要了解Waterdrop代码,是否需要把代码写到Waterdrop项目里?
开发者开发的插件,与waterdrop项目可以完全没有关系,不需要把你的插件代码写到waterdrop项目里面。
插件可以是一个完全独立的项目,在里面你用java,scala,maven,sbt,gradle,都随你。
这也是我们建议开发者开发插件的方式。
FAQ 2. 以集群模式(cluster)运行waterdrop,提示找不到:plugins.tar.gz
使用cluster模式提交前,需要您先执行如下命令:
将插件目录打包后,执行(之后如果您的plugins目录没有添加或删除插件,则不需要再次打包了)
如有其他需要,请加微信
garyelephant
为您服务。FAQ 3. Waterdrop启动后报错如下:
ANTLR Runtime version 4.7 used for parser compilation does not match the current runtime version 4.5.3ANTLR Runtime version 4.7 used for parser compilation does not match the current runtime version 4.5.3
你的问题是jar包依赖冲突了,可以下载一下最新版本试试,应该没事了:
https://github.com/InterestingLab/waterdrop/releases/download/v1.2.3/waterdrop-1.2.3.zip
FAQ 4. 我想学习Waterdrop 源码,从哪里开始呢?
Waterdrop 拥有完全抽象化,结构化的代码实现,已经有很多人选择将Waterdrop的源码作为学习Spark的方式,你可以从主程序入口开始学习源码:Waterdrop.scala
FAQ 5. Waterdrop 是否支持动态的变量替换,比如我想在定时任务中替换sql中的where条件?
没问题,都支持,具体配置例子,请见 用${varname} 做变量替换的配置示例。
FAQ 6. Waterdrop 是否支持在Azkaban, Oozie 这些任务调度框架中运行呢?
当然可以,请见下面的截图:
FAQ 7. 使用Waterdrop时遇到问题,我自己解决不了,我应该怎么办?
请进入项目主页,找到项目负责人的微信号,加他微信。
FAQ 8. Waterdrop 中如何在配置中指定变量,之后在运行时,动态指定变量的值?
Waterdrop 从
v1.2.4
开始,支持在配置中指定变量,此功能常用于做定时或非定时的离线处理时,替换时间、日期等变量,用法如下:在配置中,配置变量名称,比如:
详细配置示例,请见variable substitution
启动命令如下:
可以用参数
-i
或者--variable
后面指定key=value
来指定变量的值,其中key
需要与配置中的变量名相同。FAQ 9. Waterdrop消费Kafka出现OOM怎么解决?
多数情况,OOM是由消费没有限速导致的,解决方法如下:
详见:https://www.processon.com/view/link/5c9862ece4b0c996d36fe7d7
The text was updated successfully, but these errors were encountered: