spark-ml

hadoop - 来自文件夹(不是 HDFS)的 Apache Spark Streaming

我想知道是否有任何可靠的方法可以从物理位置创建Spark流？我使用的是“textFileStream”，但它似乎主要用于文件位于HDFS中的情况。如果您看到该函数的定义，它会显示“创建一个监视Hadoop兼容文件系统的输入流” 最佳答案您是在暗示HDFS不是物理位置吗？有物理存在的datanode目录...您应该能够将textFile与file://URI一起使用，但您需要确保集群中的所有节点都可以从该位置读取。来自Hadoop兼容文件系统的定义。Theselectionofwhichfilesystemtousecomesfro

hadoop - Spark 应用程序报告内存不足的 Oozie 工作流

我尝试使用spark程序作为单步执行Oozie工作流。我使用了通过spark-submit或spark-shell成功执行的jar(相同的代码):spark-submit--packagescom.databricks:spark-csv_2.10:1.5.0--masteryarn-client--class"SimpleApp"/tmp/simple-project_2.10-1.1.jar应用程序不应需要大量资源——使用spark将单个csv(星火版本:1.6.0Oozie版本:4.1.0工作流是使用Hue、Oozie工作流编辑器创建的:Actionfailed,errormes

hadoop Spark gt lt apache-spark memory workflow oozie

hadoop - hadoop/hive/spark/有没有适合我管理大数据集群的开源软件？

我正在寻找一个开源系统来管理我的大数据集群，该集群由50多台机器组成，包括hadoop、hdfs、hive、spark、oozie、hbase等组件，动物园管理员，麒麟。我想在网络系统中管理它们。“管理”的含义是:我可以一键重新启动组件，例如当我点击“重启”按钮时，组件zookeeper将一台机器被另一台机器重启我只需单击一下即可部署一个组件，例如当我部署一个新的zookeeper，我可以准备一个编译好的zookeeper一台机器，然后我点击“部署”，它将部署到所有机器自动。我只需单击一下即可升级一个组件，例如当我想更新一个zookeeper集群，我可以把更新后的zookeeper在一

hadoop 大数 strong section ambari bigdata

hadoop - 输出状态为 : ACCEPTED in YARN MODE 的 Spark Hang

我的Spark环境Spark->2.1.0Hadoop->2.8.1Eclipse->Neon2我在yarn模式下获取spark上下文时卡住了，如何在yarn模式下获取spark上下文，请帮我解决。我的Hadoop、Yarn和Spark安装成功。$jps3200NameNode5264ExecutorLauncher5328CoarseGrainedExecutorBackend3555SecondaryNameNode5316CoarseGrainedExecutorBackend7590Jps3357DataNode4045NodeManager5118SparkSubmit372

ACCEPTED hadoop section spark code apache-spark hadoop-yarn

hadoop - spark history 不在 ambari 集群上启动

我们如下启动sparkhistory/usr/hdp/2.6.0.3-8/spark2/sbin/start-history-server.sh来自日志spark-root-org.apache.spark.deploy.history.HistoryServer-1-master01我们得到WARNAbstractLifeCycle:FAILEDServerConnector@14a54ef6{HTTP/1.1}{0.0.0.0:18081}:java.net.BindException:Addressalreadyinusejava.net.BindException:Addres

history hadoop code section spark apache-spark ambari apache-spark-2.0

hadoop - Yarn 上的 Spark 作业 |性能调整和优化

优化部署在基于Yarn的集群上的Spark作业的最佳方法是什么？.根据配置而不是代码级别查找更改。我的问题是典型的设计级问题，应该使用什么方法来优化在SparkStreaming或SparkSQL上开发的作业。最佳答案有一个神话，认为大数据是神奇的，一旦部署到大数据集群，您的代码就会像梦一样工作。每个新手都有相同的信念:)还有一种误解，认为网络博客上的给定配置可以很好地解决所有问题。如果不深入了解您的集群，就没有通过Hadoop优化或调整作业的捷径。但考虑到以下方法，我确信您将能够在几个小时内优化您的工作。我更喜欢应用纯科学方法

hadoop Spark section 的 apache-spark apache-spark-sql spark-streaming

scala - 如何解决错误 : value reduceByKey is not a member of org. apache.spark.rdd.RDD[(Int, Int)]？

我正在学习apachespark并尝试在scala终端上执行一个小程序。我已经使用以下命令启动了dfs、yarn和历史服务器:start-dfs.shstart-yarn.shmr-jobhistory-deamon.shstarthistoryserver然后在scala终端中，我编写了以下命令:varfile=sc.textFile("/Users/****/Documents/backups/h/*****/input/ncdc/micro-tab/sample.txt");valrecords=lines.map(_.split("\t"));valfilters=record

reduceByKey Int section code scala hadoop apache-spark rdd hadoop2

apache-spark - apache spark 和 hadoop 之间的 Jar 冲突

我尝试设置并运行在YARN之上运行并使用HDFS的Spark集群。我首先使用hadoop-3.1.0为HDFS设置了Hadoop。然后我配置了YARN并启动了两者。我能够将数据上传到HDFS，yarn似乎也能正常工作。然后我只在我的master上安装了spark-2.3.0-bin-without-hadoop并尝试提交申请。由于它是没有Hadoop的spark，我不得不修改spark-env.sh，添加文档中提到的以下行:exportSPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoopclasspath)仅使用这一行我得到了以下异常:

apache spark hadoop section apache-spark hdfs hadoop-yarn

apache-spark - 如何将配置从 spark-submit 传递到 yarn cluster？

我想知道有什么方法可以让spark-submit临时更改yarn作业的配置？问题是因为我们的Sparkoveryarncluster的historyserver只允许admin访问，不方便用户检索自己job的log。我了解到mapreduce-default.xml中的“mapreduce.job.acl-view-job”可以更改特定作业的ACL。因为我正在使用spark-submit来启Action业，并且“--conf”是为spark本身保留的，但是我如何从命令行和应用程序一起设置yarn的配置？最佳答案您可以修改Spar

spark apache-spark code section hadoop mapreduce hadoop-yarn spark-submit

apache-spark - SAP Vora 2.1 是否需要 Hadoop/Spark 集群？并且可以使用 PySpark 吗？

根据文档SAP_Vora_Installation_Admin_Guide_2.0_en.pdf，需要运行Hadoop/Spark集群和运行Kubernetis集群。现在我的问题是，为什么需要这个Hadoop/Spark集群？因为SAPVora可以从HDFS、WebHDFS等读取。如果您有一个Spark作业，您是否可以在Spark集群上运行它，如果它需要来自HANA/Vora的数据，它可以访问它吗？还是Vora也使用Spark集群来处理数据？因为现在看起来Spark可以使用Vora但Vora不能使用Spark(VoraUI工具，如SQL编辑器等)。因为你可以附加到Vora上的Zeppe

apache-spark PySpark Spark Vora section hadoop sap

195 196 197198199 200 201