spark-submit

amazon-web-services - Spark - "spark.deploy.spreadOut = false"可以在 S3 上提供性能优势

我了解将“spark.deploy.spreadOut”设置为true可以使HDFS受益，但是对于S3，设置为false是否比true更有优势？最佳答案如果您正在运行Hadoop和HDFS，那么使用该属性适用的SparkStandalone调度程序不会对您有好处。相反，您应该运行YARN，并且ResourceManager确定执行程序的分布方式如果您在EC2中运行独立调度程序，则设置该属性会有所帮助，默认值为true。换句话说，你从哪里读取数据不是这里的决定因素，master的部署模式是更好的性能优势将来自您尝试读取的文件数量以

apache-spark - 如何使用 Spark Scala 连接 3 个 RDD

我想使用sparkrdd加入3个表。我使用sparksql实现了我的目标，但是当我尝试使用Rdd加入它时，我没有得到想要的结果。下面是我使用sparkSQL和output的查询:scala>actorDF.as("df1").join(movieCastDF.as("df2"),$"df1.act_id"===$"df2.act_id").join(movieDF.as("df3"),$"df2.mov_id"===$"df3.mov_id").filter(col("df3.mov_title")==="AnnieHall").select($"df1.act_fname",$"df

apache-spark apache 34 code String hadoop apache-spark-sql bigdata rdd

scala - 如何使用 Spark 读取不断更新的 HDFS 目录并根据字符串(行)将输出拆分为多个 HDFS 文件？

详细场景->HDFS目录，其中“提供”了多种类型的银行账户事件的新日志数据。每行代表一个随机事件类型，每行(String)包含文本“ActivityType=”。在Spark-Scala中，读取HDFS目录中的输入文件并输出多个HDFS文件的最佳方法是什么，其中每个ActivityType都写入其自己的新文件？最佳答案改编为声明的第一个答案:Thelocationofthe"key"stringisrandomwithintheparentString,theonlythingthatisguaranteedisthatitco

HDFS scala ActivityType section 34 apache-spark hadoop spark-streaming

apache-spark - 我如何从 Spark 写入 HDFS 以更快地访问该数据？

假设我不是像Hive或HBase这样的工具(Spark无论如何都无法使用Hive索引进行优化)，将数据写入HDFS以便更快地访问该数据的最佳方式是什么。我的想法是保存许多不同的文件，其名称由键标识。假设我们有一个由名字和姓氏识别的人的数据库。也许我可以用名字和姓氏的首字母保存文件。这样，我们将有26x26=676个文件。因此，例如，如果我们想查看AlanWalker的记录，我们只需要加载文件AW.这是做这种事情的好方法还是有更好的方法？最佳答案我相信索引是您所需要的。在HDFS中和在数据库中一样，索引在插入时有一些开销，但查询速

apache-spark apache section strong HDFS hadoop

apache-spark - 使用 Spark/Scala 读取序列文件时，无法序列化结果 : org. apache.hadoop.io.IntWritable

从逻辑上读取带有Int和String的序列文件，然后如果我这样做:valsequence_data=sc.sequenceFile("/seq_01/seq-directory/*",classOf[IntWritable],classOf[Text]).map{case(x,y)=>(x.toString(),y.toString().split("/")(0),y.toString().split("/")(1))}.collect这没问题，因为IntWritable已转换为String。如果我这样做:valsequence_data=sc.sequenceFile("/seq_0

apache apache-spark IntWritable section code hadoop serialization sequencefile

python - apache spark 加载内部文件夹

importfindsparkfindspark.init('C:\spark')frompyspark.sqlimportSparkSessionspark=SparkSession.builder.getOrCreate()a=[]i=1880whilei我运行代码但出现错误；dataset1=spark.read.format('csv').option('header','true').load('C://venq/uyh/'+a)类型错误:只能将str(不是“列表”)连接到str我有一个“C:\venq\uyh\1880\1880\verr.csv”格式的循环。我在嵌套文件夹

python apache section 39 spark python-3.x apache-spark hadoop

java - Spark wordcount 断言失败 : unsafe symbol Unstable

我已经使用HortonworksAmbari安装了HDFS、Yarn和Spark。我编写了简单的程序来读取/读取HDFS、Map-Reducewordcount，一切正常。然后我尝试测试Spark。我从官方Spark示例中复制了字数统计程序:publicfinalclassJavaWordCount{privatestaticfinalPatternSPACE=Pattern.compile("");publicstaticvoidmain(String[]args)throwsException{if(args.length");System.exit(1);}SparkSessio

wordcount Unstable scala reflect SynchronizedSymbols java apache-spark hadoop ambari

apache-spark - DCOS 集群上的 Spark 提交失败，出现 java.net.UnknownHostException : hdfs

我正在DCOS集群上以集群/休息模式运行spark-submit:$./spark-submit--deploy-modecluster--mastermesos://localhost:7077--confspark.master.rest.enabled=true--confspark.mesos.uris=http://api.hdfs.marathon.l4lb.thisdcos.directory/v1/endpoints/hdfs-site.xml,http://api.hdfs.marathon.l4lb.thisdcos.directory/v1/endpoints/c

UnknownHostException apache-spark java spark hdfs hadoop mesos dcos

java - 如何在 Cloudera 中安排/触发 Spark 作业？

目前我们的项目在MR上，我们使用Oozie来编排我们的MR作业。现在我们正在转向Spark，并且想知道在CDH集群上调度/触发Spark作业的推荐方法。请注意，CDHOozie不支持Spark2作业。所以请为此提供一个替代方案。最佳答案我上次查看时，Hue在Worlflow编辑器中有一个Spark选项。如果Cloudera不支持它，我不确定它为什么会在那里......虽然CDHOozie确实支持纯shell脚本，但您需要确保所有NodeManager都将在本地服务器上提供可用的spark-submit命令。如果这不起作用，它还支

中安何在 section Spark stackoverflow java scala apache-spark hadoop cloudera

apache-spark - PySpark:如何在读取 Parquet 时读取分区列

我将数据存储在Parquet文件和按年、月、日分区的配置单元表中。因此，每个parquet文件都存储在/table_name/year/month/day/文件夹中。我只想读入部分分区的数据。我有如下各个分区的路径列表:paths_to_files=['hdfs://data/table_name/2018/10/29','hdfs://data/table_name/2018/10/30']然后尝试做类似的事情:df=sqlContext.read.format("parquet").load(paths_to_files)但是，我的数据不包含关于年月日的信息，因为这不是数据本身的一

apache-spark 在读 code section 配置单 hadoop pyspark apache-spark-sql parquet

190 191 192193194 195 196