spark-submit

hadoop - Spark 小兽人条纹

我们使用Spark来展平点击流数据，然后以ORC+zlib格式将其写入S3，我尝试更改Spark中的许多设置，但创建的ORC文件的结果strip大小仍然非常小(到目前为止，我尝试减少strip大小，之前每个文件的大小为20MB，使用合并我现在正在创建大小为250-300MB的文件，但每个文件仍然有200个strip，即每个strip通过将hive.exec.orc.default.stripe.size设置为67108864尝试使用hivecontext而不是sparkcontext，但spark不遵守这些参数。那么，关于如何增加正在创建的ORC文件的strip大小有什么想法吗？因为小

条纹 hadoop section strip Spark apache-spark presto amazon-athena

hadoop - 通过Spark获取HDP版本

我们安装了新的Spark版本，因此所有文件夹的名称都类似于:ls/etc/hadoop/2.6.4.0-91confconf.backup从spark-submit我们得到spark-submit--versionWelcometo______/__/__________//___\\/_\/_`/__/'_//___/.__/\_,_/_//_/\_\version2.2.0.2.6.4.0-91/_/我需要确定spark版本-2.6.4.0-91。我们可以做到:ls/etc/hadoop/|grep[0-9]2.6.4.0-91但这种方法不是很好(因为可能有其他带编号的文件夹名称等

hadoop Spark code strong apache-spark hortonworks-data-platform

hadoop - Apache Spark history-server 如何引用 Amazon S3？

[版本]ApacheSpark2.2.0Hadoop2.7我想设置ApacheSpark历史服务器。位于AmazonS3中的Spark事件日志。我可以在S3中保存日志文件，但无法从历史服务器读取。ApacheSpark安装在/usr/local/spark所以，$SPARK_HOME是/usr/local/spark$cd/usr/local/spark/sbin$shstart-history-server.sh出现以下错误Exceptioninthread"main"java.lang.ClassNotFoundException:org.apache.hadoop.fs.s3a.

history-server history code spark java hadoop apache-spark amazon-s3

scala - Spark Scala - 读取具有多种键类型的序列文件？

我有序列文件，其键为LongWritable或Text。这些值都是相同的格式(json)。我想在一个spark作业中一次处理它们，但我不知道如何编写代码以便它适用于Text和LongWritable键.实际上，我什至不关心我工作中的序列记录键，我没有使用它们。这是我为LongWritable所做的。我将如何增强它以同时适用于LongWritable和Text键？有没有办法只加载序列文件记录值并忽略键？valrdd=sparkCtx.sequenceFile[Long,String](srcDir)//putintoJsonrecords,don'tcareaboutseqkeyvalj

多种 scala code section String hadoop apache-spark

hadoop - 无法在 yarn 模式下启动 Spark Shell

无法在yarn模式下启动SparkShell。当我运行此./spark-shell--masteryarn--deploy-modeclient它永远卡在这里打印相同的消息。18/03/1420:11:38INFOClient:clienttoken:N/Adiagnostics:N/AApplicationMasterhost:N/AApplicationMasterRPCport:-1queue:defaultstarttime:1521058297214finalstatus:UNDEFINEDtrackingURL:http://ip-172-31-0-54:8088/prox

hadoop Spark gt lt property apache-spark

hadoop - 如何更改在 yarn 上运行的 spark 作业的 java.io.tmpdir

如何为在YARN上运行的Hadoop3集群更改java.io.tmpdir文件夹？默认情况下，它会得到类似于/tmp/***的内容，但我的/tmp文件系统对于YARN作业将写入的所有内容来说都太小了。有办法改变吗？我也在core-site.xml中设置了hadoop.tmp.dir，不过貌似，并没有真正用到。最佳答案也许它是Whatshouldbehadoop.tmp.dir?的副本.此外，遍历/etc/hadoop/conf中的所有.conf并搜索tmp，看看是否有任何内容是硬编码的。还要指定:您是否看到(任何)文件在您指定的

hadoop tmpdir section code apache-spark hadoop-yarn

azure - 从本地机器访问 azure vm 中的 spark docker

Sparkdocker安装在azurevm(centos7.2)中，我想从我的本地机器(Windows)访问hdfs。我在Windows中运行curl-i-v-Lhttp://52.234.XXX.XXX:50070/webhdfs/v1/user/helloworld.txt?op=OPEN，异常是$curl-i-v-Lhttp://52.234.XXX.XXX:50070/webhdfs/v1/user/helloworld.txt?op=OPEN*timeoutonnamelookupisnotsupported*Trying52.234.XXX.XXX...*TCP_NODEL

azure docker code overruns dropped hadoop apache-spark ifconfig

apache-spark - Spark2.3.0-bin-without-hadoop，docker-image-tool.sh 缺少 hadoop jar

我正在尝试构建用于在kubernetes中部署的spark容器镜像，我怀疑我做错了。运行图像时出现以下错误:/opt/spark/conf/spark-env.sh:line72:/home/me/hadoop_s3/bin/hadoop:NosuchfileordirectoryError:AJNIerrorhasoccurred,pleasecheckyourinstallationandtryagainExceptioninthread"main"java.lang.NoClassDefFoundError:org/slf4j/Loggeratjava.lang.Class.ge

hadoop bin-without-hadoop java section apache-spark docker dockerfile

apache-spark - Spark 错误和hadoop错误

SLF4J:ClasspathcontainsmultipleSLF4Jbindings.SLF4J:Foundbindingin[jar:file:/tmp/hadoop-hp/nm-local-dir/usercache/hp/filecache/28/__spark_libs__5301477595013800425.zip/slf4j-log4j12-1.7.16.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J:Foundbindingin[jar:file:/home/hp/hadoop-2.7.5/share/hadoo

apache-spark apache java kAnonymity_spark FileInputStream hadoop

apache-spark - Spark 没有这个字段 METASTORE_CLIENT_FACTORY_CLASS

我正在尝试使用Java中的spark查询配置单元表。我的配置单元表位于EMR集群5.12中。Spark版本为2.2.1，Hive版本为2.3.2。当我通过ssh连接到机器并连接到spark-shell时，我能够毫无问题地查询配置单元表。但是当我尝试使用自定义jar进行查询时，出现以下异常:java.lang.IllegalArgumentException:Errorwhileinstantiating'org.apache.spark.sql.hive.HiveSessionStateBuilder':atorg.apache.spark.sql.SparkSession$.org$

METASTORE_CLIENT_FACTORY_CLASS apache-spark apache spark HiveExternalCatalog hadoop hive amazon-emr

217 218 219220221 222 223