bubble_cluster_one

hadoop - Spark : yarn cluster mode can't read hdfs path (No such file or directory)

我在yarn模式下使用spark提交，但我收到了这个错误:显然我的输入路径hdfs://缺少一个'/'我正在通过hdfs://master:8020/usr/jimmy/Test/，但是日志输出是日志文件中的hdfs:/master:8020/usr/jimmy/Test/Personal1(Personal1在我的代码中指定)缺少的'/'显然是问题所在我能做什么？请帮帮我我的命令:./bin/spark-submit--masteryarn-cluster--classMovie.Movies/usr/jimmy/Move.jarhdfs://master:8020/usr/jimm

hadoop - cluster.getJob 在 hadoop 中返回 null

publicvoidsetup(Contextcontext)throwsIOException,InterruptedException{Configurationconf=context.getConfiguration();org.apache.hadoop.mapreduce.Clustercluster=neworg.apache.hadoop.mapreduce.Cluster(conf);JobcurrentJob=cluster.getJob(context.getJobID());mapperCounter=currentJob.getCounters().findC

hadoop cluster section

windows - 在 yarn cluster (linux) : Error no sheme for Filesystem "C" 上从客户端 (windows) 执行 spark

我想将一个spark应用程序(只是一个简单的HelloWorld应用程序)部署到我的hadoop集群。在我的Windows机器上使用spark提交，我使用--masteryarn在客户端模式下执行应用程序。连接到hadoop集群是成功的，在集群上的日志文件中可以看到。(hadoopconf文件已经从集群下载下来，保存在客户端windows机器上，环境变量已经设置好)。使用hadoop2.7和spark1.6这是使用的spark-submit命令:>spark-submit--masteryarn--class"SimpleApp"..\..\SimpleApp\target\scala

windows Filesystem sensored 10 INFO hadoop apache-spark client hadoop-yarn

hadoop - Spark-SQL 在 yarn-cluster 上的错误 hdfs 权限

我有一个简单的工作，就是通过sparksql在hdfs中读取hive。我首先在yarn-client模式下运行它，我没有遇到任何问题。几次之后，我开始通过yarn-cluster模式启动它，但我遇到了这个问题:我有这个hdfs权限错误:Causedby:MetaException(message:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=yarn,access=EXECUTE,inode="/Projects/SNB/directory/Private/table/table_ORC"

yarn-cluster Spark-SQL apache hadoop java apache-spark hive hdfs apache-spark-sql

rest - 它是 Hbase REST API `get version/cluster` 中的错误吗？

HbaseRESTAPI，此接口(interface)get'version/cluster'，当我使用headerAccept:application/json时，响应不是JSON而是纯文本。curl-XGET\-H"Accept:application/json"\"http://localhost:8888/version/cluster"#"1.2.2"但是当我使用Accept:text/xml时，响应是正确的XML。curl-XGET\-H"Accept:text/xml"\"http://localhost:8888/version/cluster"#1.2.2

cluster version section code 34 rest hadoop hbase bigdata

hadoop - pig 错误 0 : Scalar has more than one row in the output

我有两个文件，我试图在模式匹配的基础上加入这两个文件。File1:weather.bbc.co.uk,112ads.facebook.com,113ads.amazon.co.uk,114www.sky.com,115news.bbc.co.uk,116pics.facebook.com,117File2:facebook.com,facebookbbc.co.uk,bbcnetflix.com,netflixflipkart.com,flipkartoutput:weather.bbc.co.uk,112,bbc.co.uk,bbcads.facebook.com,113,faceb

hadoop Scalar POUserFunc executionengine file apache-pig

apache-spark - Apache Spark : Differences between client and cluster deploy modes

TL;DR:在SparkStandalone集群中，客户端和集群部署模式有何区别？如何设置我的应用程序要运行的模式？我们有一个包含三台机器的SparkStandalone集群，它们都装有Spark1.6.1:一台主机，也是我们使用spark-submit运行我们的应用程序的地方2台相同的worker机器来自SparkDocumentation，我读到:(...)Forstandaloneclusters,Sparkcurrentlysupportstwodeploymodes.Inclientmode,thedriverislaunchedinthesameprocessasthecl

apache-spark Differences code Spark section apache-spark-standalone

scala - Spark 流 : Write Data to HDFS by reading from one HDFSdir to another

我正在尝试使用SparkStreaming将数据从一个HDFS位置读取到另一个位置下面是我在spark-shell上的代码片段但我看不到在HDFS输出目录上创建的文件能否指出如何在HDFS上加载文件scala>sc.stop()scala>importorg.apache.spark.SparkConfscala>importorg.apache.spark.streamingscala>importorg.apache.spark.streaming.{StreamingContext,Seconds}scala>valconf=newSparkConf().setMaster("l

HDFSdir another scala section streamingcontext_dir apache-spark hadoop hdfs

apache-spark - 我们在yarn cluster中运行时在哪里可以看到spark输出控制台

我是Spark、Hadoop和Yarn的初学者。我用以下命令安装Spark:https://spark.apache.org/docs/2.3.0/和Hadoop/yarn:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html.我的目标是在yarncluster上运行spark应用程序，但我遇到了问题。我们怎么知道我们的设置何时工作？我会告诉你我的例子。完成设置后，我尝试运行测试jar:examples/jars/spark-examples*.jar。当我在

中运行时 spark section cluster apache-spark hadoop hadoop-yarn

scala - Spark : Would a dataframe repartitioned to one node experience a shuffle when a groupBy is called on it?

假设我有一些数据都在同一个分区上(我之前在数据帧上执行了.coalesce(1))。我现在想对数据进行分组并对其进行聚合。如果我在数据框上使用.groupBy，这些组会被放置到不同的节点上吗？如果这是真的，我想避免这种情况，因为我想对这些组执行这些计算而不需要过多改组。最佳答案首先，coalesce(1)并不能保证你的所有数据都在一个节点中，要确保你必须使用repartition(1)，这将迫使您将所有数据统一在一个节点中。coalesce仅对同一节点中的分区进行分组，因此如果您的数据分布在5个节点中(每个节点中有多个分区)，它

repartitioned experience 点中 code section scala apache-spark hadoop apache-spark-sql bigdata

91 92 939495 96 97