spark-submit_草庐IT

java - 从 Java 中的 spark 转换函数写入 HDFS 中的文件

我的问题类似于一个已经回答过的问题，该问题在scala中用于读取文件。ReadingfilesdynamicallyfromHDFSfromwithinsparktransformationfunctions我知道累加器使用它们将结果返回给驱动程序并写入驱动程序中的HDFS。在我们的用例中，每个执行程序的输出都很大，所以我正在寻找一种在Java转换中写入HDFS的方法。谢谢! 最佳答案终于找到了一个优雅的方式来实现这一目标。为hadoop配置创建一个广播变量Configurationconfiguration=JavaSparkC

hadoop - Ambari Hadoop/Spark 和 Elasticsearch SSL 集成

我通过Ambari(HDP-2.6.2.0)设置了Hadoop/Spark集群。现在我的集群正在运行，我想向其中输入一些数据。我们内部有一个Elasticsearch集群(5.6版)。我想设置Elastic提供的ES-Hadoop连接器(https://www.elastic.co/guide/en/elasticsearch/hadoop/current/doc-sections.html)，这样我就可以将一些数据从Elastic转储到HDFS。我用JARS抓取了ZIP文件，并按照CERN博客文章中的说明进行操作:https://db-blog.web.cern.ch/blog/pr

Elasticsearch hadoop section https apache-spark ambari

hadoop - Spark 与 Hadoop 有何不同？

我正在尝试学习Spark框架。在其主页上https://spark.apache.org/据说比Hadoop框架还好。但后来他们说:Spark运行在Hadoop上……我真的不明白为什么它可以运行在Hadoop上，而它应该比Hadoop更好。谁能给我解释一下这两者之间的层次结构？最佳答案 ApacheHadoop(2.0)提供两个主要组件，(1)HDFSHadoop分布式文件系统，用于在集群上存储数据(即文件)，以及(2)YARN集群计算资源管理系统(即CPU/RAM)。Hadoop2.0:存储管理:HDFS计算资源管理:YARNH

何不 hadoop Spark section apache-spark

scala - Spark 提交成功运行，但通过 oozie 提交时无法连接到配置单元

我正在使用CDH5.9.0、Spark1.6和Scala2.10.0。我创建了一个scala和spark程序来创建一个表并将数据从文件加载到配置单元。当我使用sparksubmit运行它时，它完成了。但是同样的程序通过oozie提交时，会抛出下面的异常。以下是异常(exception)。LogType:stdoutLogUploadTime:FriOct2710:08:28-04002017LogLength:1725842017-10-2710:08:20,652INFO[main]yarn.ApplicationMaster(SignalLogger.scala:register(

配置单 scala java apache hadoop apache-spark cloudera oozie-workflow

hadoop - 在 Spark 中计算行时将行插入 Hive

假设我想构建一个Spark应用程序，我希望它能够在中途终止。我仍然想保留成功完成的分区中的数据。我试图通过将它插入Hive表来实现。在(PySpark)伪代码中:defmyExpensiveProcess(x):...udfDoExpensiveThing=udf(myExpensiveProcess,StringType())myDataFrame\.repartition(100)\.withColumn("HardEarnedContent",udfDoExpensiveThing("InputColumn"))\.write.insertInto("SomeExistingHi

行时中计 section code udfDoExpensiveThing hadoop apache-spark hive

hadoop - 从 Oozie (CDH) 运行 Spark2

我正在尝试从Oozie运行一个spark作业(使用spark2-submit)，所以这个作业可以按计划运行。当运行我们从命令行在我们的服务帐户(不是Yarn)下运行shell脚本时，作业运行得很好。当我们将它作为Oozie工作流运行时，会发生以下情况:17/11/1612:03:55ERRORspark.SparkContext:ErrorinitializingSparkContext.org.apache.hadoop.security.AccessControlException:Permissiondenied:user=yarn,access=WRITE,inode="/us

hadoop Spark2 code section gt apache-spark cloudera oozie cloudera-cdh

hadoop - zeppelin standalone 用于 hdfs 和 spark 的学习目的我需要安装什么？

我不得不说我有点糊涂了，我没有超过apachezeppelindocumentation我有以下问题。我的最终目标是让本地zeppelin与本地hdfs和本地spark一起工作，以进行简单的练习，所需的安装最少。问题齐柏林飞艇安装就足够了吗？是否包括本地hdfs、spark的组件？如果没有，我还需要安装什么才能拥有本地spark和hdfs？我是否需要安装本地hdfs(假设我想使用hdfs)以及是否需要安装本地spark(假设我想使用本地spark)。谢谢最佳答案安装Zeppelin，看是否自带Spark解释器。我想是的，我知道t

standalone zeppelin section strong spark hadoop apache-spark apache-zeppelin

在 Eclipse 中运行 Spark Word Count 时出现 Java 错误

当我尝试使用Eclipse在SparkJava中运行一个简单的字数统计时，我在一个新的弹出式Java虚拟机启动器窗口中收到Java错误，其中显示-AJavaExceptionhasoccurred.java-versionJavaVirtualMachineLauncherjavaversion"1.7.0_80"Java(TM)SERuntimeEnvironment(build1.7.0_80-b15)JavaHotSpot(TM)64-BitServerVM(build24.80-b11,mixedmode)代码如下:packagecom.fd.spark;importjava.

中运时出 String Integer import java hadoop apache-spark word-count jdk1.7

python - 如果没有可用的指定分区路径，SPARK SQL 将失败

我在EMR中使用HiveMetastore。我可以通过HiveSQL手动查询表。但是当我在SparkJob中使用同一个表时，它说Inputpathdoesnotexist:s3://Causedby:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:s3://....我已经在s3://..中删除了上面的分区路径，但它仍然可以在我的Hive中工作，而无需在表级别删除分区。但无论如何它在pyspark中不起作用这是我的完整代码frompysparkimportSparkContext,HiveConte

python SPARK code section 34 hadoop apache-spark hive pyspark

sql-server - 通过 Spark 将 csv 文件加载到现有的 HIVE 表

下面是我编写的连接到RDBMS的代码，然后创建临时表，对该临时表执行SQL查询，通过databricks模块将SQL查询输出保存为.csv格式。frompysparkimportSparkContextsc=SparkContext("local","SimpleApp")frompyspark.sqlimportSQLContext,RowsqlContext=SQLContext(sc)frompyspark.sqlimportHiveContextsqlContext=HiveContext(sc)df=sqlContext.read.format("jdbc").option(

sql-server server 34 section option hadoop hive pyspark databricks