草庐IT

spark-ml

全部标签

hadoop - 无法在 yarn 模式下启动 Spark Shell

无法在yarn模式下启动SparkShell。当我运行此./spark-shell--masteryarn--deploy-modeclient它永远卡在这里打印相同的消息。18/03/1420:11:38INFOClient:clienttoken:N/Adiagnostics:N/AApplicationMasterhost:N/AApplicationMasterRPCport:-1queue:defaultstarttime:1521058297214finalstatus:UNDEFINEDtrackingURL:http://ip-172-31-0-54:8088/prox

hadoop - 如何更改在 yarn 上运行的 spark 作业的 java.io.tmpdir

如何为在YARN上运行的Hadoop3集群更改java.io.tmpdir文件夹?默认情况下,它会得到类似于/tmp/***的内容,但我的/tmp文件系统对于YARN作业将写入的所有内容来说都太小了。有办法改变吗?我也在core-site.xml中设置了hadoop.tmp.dir,不过貌似,并没有真正用到。 最佳答案 也许它是Whatshouldbehadoop.tmp.dir?的副本.此外,遍历/etc/hadoop/conf中的所有.conf并搜索tmp,看看是否有任何内容是硬编码的。还要指定:您是否看到(任何)文件在您指定的

azure - 从本地机器访问 azure vm 中的 spark docker

Sparkdocker安装在azurevm(centos7.2)中,我想从我的本地机器(Windows)访问hdfs。我在Windows中运行curl-i-v-Lhttp://52.234.XXX.XXX:50070/webhdfs/v1/user/helloworld.txt?op=OPEN,异常是$curl-i-v-Lhttp://52.234.XXX.XXX:50070/webhdfs/v1/user/helloworld.txt?op=OPEN*timeoutonnamelookupisnotsupported*Trying52.234.XXX.XXX...*TCP_NODEL

apache-spark - Spark2.3.0-bin-without-hadoop,docker-image-tool.sh 缺少 hadoop jar

我正在尝试构建用于在kubernetes中部署的spark容器镜像,我怀疑我做错了。运行图像时出现以下错误:/opt/spark/conf/spark-env.sh:line72:/home/me/hadoop_s3/bin/hadoop:NosuchfileordirectoryError:AJNIerrorhasoccurred,pleasecheckyourinstallationandtryagainExceptioninthread"main"java.lang.NoClassDefFoundError:org/slf4j/Loggeratjava.lang.Class.ge

apache-spark - Spark 错误和hadoop错误

SLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/tmp/hadoop-hp/nm-local-dir/usercache/hp/filecache/28/__spark_libs__5301477595013800425.zip/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J:Foundbindingin[jar:file:/home/hp/hadoop-2.7.5/share/hadoo

apache-spark - Spark 没有这个字段 METASTORE_CLIENT_FACTORY_CLASS

我正在尝试使用Java中的spark查询配置单元表。我的配置单元表位于EMR集群5.12中。Spark版本为2.2.1,Hive版本为2.3.2。当我通过ssh连接到机器并连接到spark-shell时,我能够毫无问题地查询配置单元表。但是当我尝试使用自定义jar进行查询时,出现以下异常:java.lang.IllegalArgumentException:Errorwhileinstantiating'org.apache.spark.sql.hive.HiveSessionStateBuilder':atorg.apache.spark.sql.SparkSession$.org$

apache-spark - spark 中的 Hdfs 文件访问

我正在开发一个应用程序,我从hadoop读取一个文件,处理并将数据存储回hadoop。我很困惑什么应该是正确的hdfs文件路径格式。从sparkshell读取hdfs文件时,如valfile=sc.textFile("hdfs:///datastore/events.txt")它工作正常,我能够阅读它。但是当我将jar加到包含相同代码集的yarn时,它给出了错误提示org.apache.hadoop.HadoopIllegalArgumentException:Uriwithoutauthority:hdfs:/datastore/events.txt当我将名称节点ip添加为hdfs:

scala - 写入 HDFS - hive 时如何控制 Spark 流中的行数和/或输出文件大小?

使用SparkStreaming读取和处理来自Kafka的消息并写入HDFS-Hive。由于我希望避免创建许多垃圾文件系统的小文件,我想知道是否有办法确保最小文件大小和/或强制文件中输出行数最少的能力,除了超时。谢谢。 最佳答案 据我所知,无法控制输出文件中的行数。但是您可以控制输出文件的数量。控制它并考虑您的数据集大小可能会帮助您满足您的需求,因为您可以计算输出中每个文件的大小。您可以使用coalesce和repartition命令执行此操作:df.coalesce(2).write(...)df.repartition(2).w

apache-spark - 在 yarn 下的 spark 作业中连接 Kerberos + 启用 SSL 的 solr

我有启用了Kerberos和SSL的SOLR6集群。当我使用带有CloudSolrClient的测试客户端连接到它时,它工作正常。但是在spark作业驱动程序中运行相同的代码时,我得到以下校验和失败错误。我检查了所有提到的与校验和相关的问题,例如反向dns查找和添加javaunlimitedjar,所有yarn节点中的一切看起来都是正确的。我还可以验证它们是否正确,因为我的普通Java客户端能够从所有服务器进行查询。Causedby:org.apache.solr.client.solrj.impl.HttpSolrClient$RemoteSolrException:Errorfro

apache-spark - Apache Spark : Differences between client and cluster deploy modes

TL;DR:在SparkStandalone集群中,客户端和集群部署模式有何区别?如何设置我的应用程序要运行的模式?我们有一个包含三台机器的SparkStandalone集群,它们都装有Spark1.6.1:一台主机,也是我们使用spark-submit运行我们的应用程序的地方2台相同的worker机器来自SparkDocumentation,我读到:(...)Forstandaloneclusters,Sparkcurrentlysupportstwodeploymodes.Inclientmode,thedriverislaunchedinthesameprocessasthecl