登录
首页 >  Golang >  Go问答

在 Spark 上执行 Golang Apache Beam 流水线

来源:stackoverflow

时间:2024-02-18 21:39:24 138浏览 收藏

“纵有疾风来,人生不言弃”,这句话送给正在学习Golang的朋友们,也希望在阅读本文《在 Spark 上执行 Golang Apache Beam 流水线》后,能够真的帮助到大家。我也会在后续的文章中,陆续更新Golang相关的技术文章,有好的建议欢迎大家在评论留言,非常感谢!

问题内容

我创建了一个简单的 golang Apache Beam 管道,它与 DirectRunner 配合良好。我尝试使用以下命令将其部署在 Spark 集群上: ./bin/spark-submit --master=spark://vm:7077 main.go --runner=SparkRunner --job_endpoint=localhost:8099 --artifact_endpoint=localhost:8098 --environment_type=LOOPBACK --output= /tmp/输出

在提交申请之前,我使用以下命令运行了 job_endpoint

./gradlew :runners:spark:job-server:runShadow -PsparkMasterUrl=spark://localhost:7077

该作业在 Spark 上失败,并出现以下错误: 警告 util.NativeCodeLoader:无法为您的平台加载本机 hadoop 库...在适用的情况下使用内置 java 类 线程“main”org.apache.spark 中出现异常。 SparkException:无法获取 JAR 中的主类,错误为“null”。请使用 --class. 指定一个

似乎我需要指定类参数,但我不明白该错误是什么意思?我可以获得帮助吗?


解决方案


spark-submit 是一个接受 Java JAR 或 Python 脚本的 Spark 实用程序。它不知道如何运行 Go 程序。

我使用 Spark 运行程序的说明更新了 Beam Go quickstart guide。让我知道这是否适合您。

到这里,我们也就讲完了《在 Spark 上执行 Golang Apache Beam 流水线》的内容了。个人认为,基础知识的学习和巩固,是为了更好的将其运用到项目中,欢迎关注golang学习网公众号,带你了解更多关于的知识点!

声明:本文转载于:stackoverflow 如有侵犯,请联系study_golang@163.com删除
相关阅读
更多>
最新阅读
更多>
课程推荐
更多>