spark-submit

hadoop - Spark 节俭服务器无法启动

我在Windows中使用以下命令在安全的yarn-2.7.2上运行带有Hive-1.2.1的spark1.5.2thrift服务器spark-submit--classorg.apache.spark.sql.hive.thriftserver.HiveThriftServer2--masteryarn-client"C:\Spark\lib\spark-hive-thriftserver_2.10-1.5.2.jar"它因以下异常而停止，16/04/1112:31:00INFOAbstractService:Service:HiveServer2isstarted.16/04/111

节俭 hadoop thrift section TServerSocket apache-spark hive spark-thriftserver

hadoop - 加入两个数据集时如何在 Apache Spark 中指定键

我正在加载两个文件，如下所示-f1=sc.textFile("s3://testfolder1/file1")f2=sc.textFile("s3://testfolder2/file2")此加载操作为我提供了元组列表。为每一行创建一个元组。file1和file2的架构如下-f1(a,b,c,d,e,f,g,h,i)f2(x,y,z,a,b,c,f,r,u)我想根据字段a、b、c连接这两个数据集。我做了一些研究，发现下面的方法可能有用。rdd.keyBy(func)但是，我找不到一种简单的方法来指定键和连接两个数据集。任何人都可以演示如何在不使用DataFrames的情况下做到这一点吗

中指何在 code section testfolder hadoop apache-spark

hadoop - 我是否需要将 Spark 与 YARN 结合使用才能通过 HDFS 实现 NODE LOCAL 数据局部性？

我是否需要将Spark与YARN结合使用才能通过HDFS实现NODELOCAL数据局部性？如果我使用Spark独立集群管理器并将我的数据分布在HDFS集群中，Spark如何知道数据位于本地节点上？最佳答案 YARN是一个资源管理器。它处理内存和进程，而不处理HDFS或数据局部性的工作。既然Spark可以从HDFS源中读取，并且名称节点和数据节点负责YARN之外的所有HDFSblock数据管理，那么我认为答案是否定的，您不需要YARN。但是您已经拥有HDFS，这意味着您拥有Hadoop，那么为什么不利用将Spark集成到YARN中呢

hadoop Spark section HDFS apache-spark

hadoop - 如何以未压缩的文本格式将 Spark Dataframe 存储在配置单元中

我正在尝试将数据框存储到外部配置单元表中。当我执行以下操作时:recordDF.write.option("path","hdfs://quickstart.cloudera:8020/user/cloudera/hadoop/hive/warehouse/VerizonProduct").saveAsTable("productstoreHTable")在本应存在表的hdfs位置，我得到了这个:-rw-r--r--3clouderacloudera02016-12-2518:58hadoop/hive/warehouse/VerizonProduct/_SUCCESS-rw-r--r

配置单何以 cloudera VerizonProduct section hadoop apache-spark hive

scala - 如何根据两列订购spark RDD

我有以下RDD数据集:ABC[G4,G3,G1]3FFF[G5,G4,G3]3CDE[G5,G4,G3,G2]4XYZ[G4,G3]2需要先按最后一列desc排序，如果最后一列相同，则按第一个元组项desc顺序排序。预期的结果是CDE[G5,G4,G3,G2]4FFF[G5,G4,G3]3ABC[G4,G3,G1]3XYZ[G4,G3]2提前致谢。最佳答案您可以使用sortBy:rdd.sortBy(r=>(r._3,r._2(0)),false)上面的r._3代表最后一列，r._2(0)代表第二列的第一个元素(是一个数组),而

订购 scala 34 code section hadoop apache-spark rdd

hadoop - 来自文件夹(不是 HDFS)的 Apache Spark Streaming

我想知道是否有任何可靠的方法可以从物理位置创建Spark流？我使用的是“textFileStream”，但它似乎主要用于文件位于HDFS中的情况。如果您看到该函数的定义，它会显示“创建一个监视Hadoop兼容文件系统的输入流” 最佳答案您是在暗示HDFS不是物理位置吗？有物理存在的datanode目录...您应该能够将textFile与file://URI一起使用，但您需要确保集群中的所有节点都可以从该位置读取。来自Hadoop兼容文件系统的定义。Theselectionofwhichfilesystemtousecomesfro

Streaming hadoop section filesystem apache-spark spark-streaming

hadoop - Spark 应用程序报告内存不足的 Oozie 工作流

我尝试使用spark程序作为单步执行Oozie工作流。我使用了通过spark-submit或spark-shell成功执行的jar(相同的代码):spark-submit--packagescom.databricks:spark-csv_2.10:1.5.0--masteryarn-client--class"SimpleApp"/tmp/simple-project_2.10-1.1.jar应用程序不应需要大量资源——使用spark将单个csv(星火版本:1.6.0Oozie版本:4.1.0工作流是使用Hue、Oozie工作流编辑器创建的:Actionfailed,errormes

hadoop Spark gt lt apache-spark memory workflow oozie

hadoop - hadoop/hive/spark/有没有适合我管理大数据集群的开源软件？

我正在寻找一个开源系统来管理我的大数据集群，该集群由50多台机器组成，包括hadoop、hdfs、hive、spark、oozie、hbase等组件，动物园管理员，麒麟。我想在网络系统中管理它们。“管理”的含义是:我可以一键重新启动组件，例如当我点击“重启”按钮时，组件zookeeper将一台机器被另一台机器重启我只需单击一下即可部署一个组件，例如当我部署一个新的zookeeper，我可以准备一个编译好的zookeeper一台机器，然后我点击“部署”，它将部署到所有机器自动。我只需单击一下即可升级一个组件，例如当我想更新一个zookeeper集群，我可以把更新后的zookeeper在一

hadoop 大数 strong section ambari bigdata

hadoop - 输出状态为 : ACCEPTED in YARN MODE 的 Spark Hang

我的Spark环境Spark->2.1.0Hadoop->2.8.1Eclipse->Neon2我在yarn模式下获取spark上下文时卡住了，如何在yarn模式下获取spark上下文，请帮我解决。我的Hadoop、Yarn和Spark安装成功。$jps3200NameNode5264ExecutorLauncher5328CoarseGrainedExecutorBackend3555SecondaryNameNode5316CoarseGrainedExecutorBackend7590Jps3357DataNode4045NodeManager5118SparkSubmit372

ACCEPTED hadoop section spark code apache-spark hadoop-yarn

hadoop - spark history 不在 ambari 集群上启动

我们如下启动sparkhistory/usr/hdp/2.6.0.3-8/spark2/sbin/start-history-server.sh来自日志spark-root-org.apache.spark.deploy.history.HistoryServer-1-master01我们得到WARNAbstractLifeCycle:FAILEDServerConnector@14a54ef6{HTTP/1.1}{0.0.0.0:18081}:java.net.BindException:Addressalreadyinusejava.net.BindException:Addres

history hadoop code section spark apache-spark ambari apache-spark-2.0

197 198 199200201 202 203