草庐IT

spark-submit

全部标签

hadoop - 从 kafka Spark 流接收时获取空值

我是Sparkstreaming的新手,我正在实现一些小练习,例如从kafka发送XML数据,并且需要接收>通过sparkstreaming流式传输数据。我尝试了所有可能的方式..但每次我都得到空值。Kafka端没有问题,唯一的问题是从Spark端接收Streaming数据。这是我实现的代码:packagecom.package;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.streaming.Duration;import

scala - 使用 hadoop IncompatibleClassChangeError 在 EC2 上运行 spark 应用程序失败

我有一个简单的spark应用程序,它使用spark-submit在我的笔记本电脑上运行正常。但是,当我在AmazonEC2集群上使用spark-submit运行它时出现此运行时错误:$/root/spark/bin/spark-submit--classapplication.Example--masterspark://ec2-54-227-170-20.compute-1.amazonaws.com:7077/root/example-assembly-0.1-SNAPSHOT.jarjava.lang.IncompatibleClassChangeError:Foundclass

python - 不要在 Spark (Python) 中写入 None 或空行

我是Spark的新手,但我对Hadoop有一些经验。我正在尝试调整我在Hadoop流中使用的python代码,以过滤掉一些JSON格式的推文。通常,我的函数有一个条件,如果条件为真,则将推文打印到标准输出,否则不打印任何内容。deffilter(tweet):ifcriteria(tweet)isTrue:printjson.dumps(tweet)这样,最终的输出文件将只包含我想要的推文。但是,当尝试使用Spark时,我不得不用return更改print语句,所以如果条件为真,我会返回推文,并且无否则。deffilter(tweet):ifcriteria(tweet)isTrue:

hadoop - Spark YARN 配置问题 : Container keep failing

我正在尝试将数据框保存为文本文件,但即使是小数据也需要很多时间。我相信我的配置有问题。有人可以告诉我我在这里做错了什么吗?spark.default.parallelism640spark.hadoop.fs.s3.cse.plaintextLength.enabledfalsespark.hadoop.fs.s3n.filestatuscache.enabletruespark.hadoop.mapreduce.input.fileinputformat.split.maxsize33554432spark.executor.iddriverspark.executor.instan

scala - Spark 在计算大文件时崩溃

我在Scala中有一个程序可以读取CSV文件,向Dataframe添加一个新列并将结果保存为parquet文件。它在小文件(16/10/2010:03:37WARNscheduler.TaskSetManager:Losttask14.0instage4.0(TID886,10.0.0.10):java.io.EOFException:reachedendofstreamafterreading136445bytes;1245184bytesexpectedatorg.spark_project.guava.io.ByteStreams.readFully(ByteStreams.ja

hadoop - 如何更改 Spark 中的默认输出分隔符

在sparkshell中,我正在读取一个输入文件并修剪字段值,然后使用saveAsTextFile()方法保存最终的rdd。输入文件中的字段分隔符是'|'但在输出文件中,我将字段分隔符设置为“,”。InputFormat:abc|def|xyzDefaultOutputFormat:abc,def,xyz所需的输出格式类似于abc|def|xyz有没有办法将默认的输出分隔符值更改为'|',如果有,请提出建议。 最佳答案 对于RDD,您只需要在乘积迭代器上创建一个带有竖线分隔值的字符串:scala>valrdd=sc.parallel

scala - 我可以通过 spark-scala 程序运行 shell 脚本吗?

我正在用intelligi编写一个spark-scala程序,我的代码基本上是从oracle中获取表格并将它们作为文本文件存储在hdfsinsert_df.rdd.saveAsTextFile("hdfs://path")。我试过这种方法,但没有用valscript_sh="///samplepath/file_creation_script.sh".!但是我要对生成的文本文件进行一些转换,我为此编写了一个shell脚本。我不想分别运行sparkjar文件和.sh文件。请告诉我是否有任何方法可以通过程序调用shell脚本。 最佳答案

java - 如何简单地将 spark jar 部署到远程 hadoop 集群?

我有Hadoop集群ClouderaCDH5.2和ApacheSpark1.5.0。我可以使用集群的YARN、Spark和HDFS从IntelliJIDEA或本地PC运行我的应用程序吗?或者我应该通过ftp将jar发送到主节点,然后通过spark-submit运行它? 最佳答案 是的,如果您按照以下步骤操作,您可以直接从IDE运行您的作业:将spark-yarn包添加到您的项目依赖项中(可以标记为provided)将带有hadoop配置的目录(HADOOP_CONF_DIR)添加到项目类路径将sparkassemblyjar复制到H

hadoop - 使用 yum 安装 Apache Spark

我正在我组织的HDP盒中安装spark。我运行yuminstallspark并安装Spark1.4.1。如何安装Spark2.0?请帮忙! 最佳答案 Spark2在HDP2.5中受支持(作为技术预览)。您可以将特定的HDP2.5存储库添加到您的yum存储库目录中,然后进行安装。Spark1.6.2是HDP2.5中的默认版本。wgethttp://public-repo-1.hortonworks.com/HDP/centos7/2.x/updates/2.5.0.0/hdp.reposudocphdp.repo/etc/yum.re

java - Apache Spark : In PairFlatMapFunction, 如何将元组添加回 Iterable<Tuple2<Integer, String>> 返回类型

我是新手。我一直在研究涉及两个数据集的代码。因此,我从PairFlatMapFunction开始,在其中我正在处理映射器。JavaPairRDDtrainingArray=trainingData.flatMapToPair(newPairFlatMapFunction(){publicIterable>call(Strings){//codetoformthetuplesoftypeTuple2//newTuples2}如何将元组添加回可迭代类以供缩减器(reduceByKey)处理。如有任何指点,我们将不胜感激。 最佳答案 谢谢