草庐IT

spark-ml

全部标签

hadoop - 来自文件夹(不是 HDFS)的 Apache Spark Streaming

我想知道是否有任何可靠的方法可以从物理位置创建Spark流?我使用的是“textFileStream”,但它似乎主要用于文件位于HDFS中的情况。如果您看到该函数的定义,它会显示“创建一个监视Hadoop兼容文件系统的输入流” 最佳答案 您是在暗示HDFS不是物理位置吗?有物理存在的datanode目录...您应该能够将textFile与file://URI一起使用,但您需要确保集群中的所有节点都可以从该位置读取。来自Hadoop兼容文件系统的定义。Theselectionofwhichfilesystemtousecomesfro

hadoop - Spark 应用程序报告内存不足的 Oozie 工作流

我尝试使用spark程序作为单步执行Oozie工作流。我使用了通过spark-submit或spark-shell成功执行的jar(相同的代码):spark-submit--packagescom.databricks:spark-csv_2.10:1.5.0--masteryarn-client--class"SimpleApp"/tmp/simple-project_2.10-1.1.jar应用程序不应需要大量资源——使用spark将单个csv(星火版本:1.6.0Oozie版本:4.1.0工作流是使用Hue、Oozie工作流编辑器创建的:Actionfailed,errormes

hadoop - hadoop/hive/spark/有没有适合我管理大数据集群的开源软件?

我正在寻找一个开源系统来管理我的大数据集群,该集群由50多台机器组成,包括hadoop、hdfs、hive、spark、oozie、hbase等组件,动物园管理员,麒麟。我想在网络系统中管理它们。“管理”的含义是:我可以一键重新启动组件,例如当我点击“重启”按钮时,组件zookeeper将一台机器被另一台机器重启我只需单击一下即可部署一个组件,例如当我部署一个新的zookeeper,我可以准备一个编译好的zookeeper一台机器,然后我点击“部署”,它将部署到所有机器自动。我只需单击一下即可升级一个组件,例如当我想更新一个zookeeper集群,我可以把更新后的zookeeper在一

hadoop - 输出状态为 : ACCEPTED in YARN MODE 的 Spark Hang

我的Spark环境Spark->2.1.0Hadoop->2.8.1Eclipse->Neon2我在yarn模式下获取spark上下文时卡住了,如何在yarn模式下获取spark上下文,请帮我解决。我的Hadoop、Yarn和Spark安装成功。$jps3200NameNode5264ExecutorLauncher5328CoarseGrainedExecutorBackend3555SecondaryNameNode5316CoarseGrainedExecutorBackend7590Jps3357DataNode4045NodeManager5118SparkSubmit372

hadoop - spark history 不在 ambari 集群上启动

我们如下启动sparkhistory/usr/hdp/2.6.0.3-8/spark2/sbin/start-history-server.sh来自日志spark-root-org.apache.spark.deploy.history.HistoryServer-1-master01我们得到WARNAbstractLifeCycle:FAILEDServerConnector@14a54ef6{HTTP/1.1}{0.0.0.0:18081}:java.net.BindException:Addressalreadyinusejava.net.BindException:Addres

hadoop - Yarn 上的 Spark 作业 |性能调整和优化

优化部署在基于Yarn的集群上的Spark作业的最佳方法是什么?.根据配置而不是代码级别查找更改。我的问题是典型的设计级问题,应该使用什么方法来优化在SparkStreaming或SparkSQL上开发的作业。 最佳答案 有一个神话,认为大数据是神奇的,一旦部署到大数据集群,您的代码就会像梦一样工作。每个新手都有相同的信念:)还有一种误解,认为网络博客上的给定配置可以很好地解决所有问题。如果不深入了解您的集群,就没有通过Hadoop优化或调整作业的捷径。但考虑到以下方法,我确信您将能够在几个小时内优化您的工作。我更喜欢应用纯科学方法

scala - 如何解决错误 : value reduceByKey is not a member of org. apache.spark.rdd.RDD[(Int, Int)]?

我正在学习apachespark并尝试在scala终端上执行一个小程序。我已经使用以下命令启动了dfs、yarn和历史服务器:start-dfs.shstart-yarn.shmr-jobhistory-deamon.shstarthistoryserver然后在scala终端中,我编写了以下命令:varfile=sc.textFile("/Users/****/Documents/backups/h/*****/input/ncdc/micro-tab/sample.txt");valrecords=lines.map(_.split("\t"));valfilters=record

apache-spark - apache spark 和 hadoop 之间的 Jar 冲突

我尝试设置并运行在YARN之上运行并使用HDFS的Spark集群。我首先使用hadoop-3.1.0为HDFS设置了Hadoop。然后我配置了YARN并启动了两者。我能够将数据上传到HDFS,yarn似乎也能正常工作。然后我只在我的master上安装了spark-2.3.0-bin-without-hadoop并尝试提交申请。由于它是没有Hadoop的spark,我不得不修改spark-env.sh,添加文档中提到的以下行:exportSPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoopclasspath)仅使用这一行我得到了以下异常:

apache-spark - 如何将配置从 spark-submit 传递到 yarn cluster?

我想知道有什么方法可以让spark-submit临时更改yarn作业的配置?问题是因为我们的Sparkoveryarncluster的historyserver只允许admin访问,不方便用户检索自己job的log。我了解到mapreduce-default.xml中的“mapreduce.job.acl-view-job”可以更改特定作业的ACL。因为我正在使用spark-submit来启Action业,并且“--conf”是为spark本身保留的,但是我如何从命令行和应用程序一起设置yarn的配置? 最佳答案 您可以修改Spar

apache-spark - SAP Vora 2.1 是否需要 Hadoop/Spark 集群?并且可以使用 PySpark 吗?

根据文档SAP_Vora_Installation_Admin_Guide_2.0_en.pdf,需要运行Hadoop/Spark集群和运行Kubernetis集群。现在我的问题是,为什么需要这个Hadoop/Spark集群?因为SAPVora可以从HDFS、WebHDFS等读取。如果您有一个Spark作业,您是否可以在Spark集群上运行它,如果它需要来自HANA/Vora的数据,它可以访问它吗?还是Vora也使用Spark集群来处理数据?因为现在看起来Spark可以使用Vora但Vora不能使用Spark(VoraUI工具,如SQL编辑器等)。因为你可以附加到Vora上的Zeppe