Spark-DataFrame

hadoop - mapreduce split和spark partition的区别

我想问一下，在使用Hadoop/MapReduce和Spark时，数据分区是否有任何显着差异？它们都在HDFS(TextInputFormat)上工作，因此理论上应该是相同的。是否存在数据分区程序可能不同的情况？任何见解都会对我的研究非常有帮助。谢谢最佳答案 IsanysignificantdifferenceindatapartitioningwhenworkingwithHadoop/mapreduceandSpark?Spark支持所有hadoopI/O格式，因为它使用相同的HadoopInputFormatAPI以及它自己

hadoop - spark + hadoop 数据本地化

我得到了一个文件名的RDD，所以是一个RDD[String]。我通过并行化文件名列表(hdfs中的文件)来获得它。现在我映射这个rdd，我的代码使用FileSystem.open(path)打开一个hadoop流。然后我处理它。当我运行我的任务时，我使用sparkUI/Stages，我看到所有任务的“LocalityLevel”=“PROCESS_LOCAL”。我认为spark不可能以我运行任务的方式(在4个数据节点的集群上)实现数据局部性，这怎么可能？最佳答案 WhenFileSystem.open(path)getsexecu

hadoop spark strong section PROCESS_LOCAL apache-spark hdfs

java - 有没有办法改变 Spark 中 RDD 的复制因子？

据我了解，集群中的RDD中的数据存在多份副本，这样当某个节点出现故障时，程序可以恢复。然而，在失败的可能性可以忽略不计的情况下，在RDD中拥有多个数据副本在内存方面的成本很高。那么，我的问题是，Spark中是否有一个参数可以用来降低RDD的复制因子？最佳答案首先，请注意Spark不会自动缓存所有RDD，这仅仅是因为应用程序可能会创建许多RDD，并且并非所有这些都将被重用。您必须对它们调用.persist()或.cache()。你可以设置你想要持久化一个RDD的存储级别myRDD.persist(StorageLevel.MEMO

Spark java code section StorageLevel scala hadoop apache-spark hadoop-yarn

hadoop - 是否可以使用 Apache Spark 读取 pdf/音频/视频文件(非结构化数据)？

是否可以使用ApacheSpark读取pdf/音频/视频文件(非结构化数据)？例如，我有数千张pdf发票，我想从中读取数据并对其进行一些分析。我必须执行哪些步骤来处理非结构化数据？最佳答案是的，是的。使用sparkContext.binaryFiles以二进制格式加载文件，然后使用map将值映射到其他格式-例如，使用ApacheTika或ApachePOI解析二进制文件。伪代码:valrawFile=sparkContext.binaryFiles(...valready=rawFile.map(hereparsingwitho

结构化 hadoop section code apache-spark bigdata

hadoop - 在 EMR 上运行 Spark 作业时 AWS 连接超时

我正在尝试在AmazonEMR集群中提交一个简单的Spark作业。我的集群有5个M4.2xlarge实例(1个主实例、4个从实例)，每个实例有16个vCPU和32GB内存。这是我的代码:defmain(args:Array[String]):Unit={valsparkConfig=newSparkConf().set("hive.exec.dynamic.partition","true").set("hive.exec.dynamic.partition.mode","nonstrict").set("hive.s3.max-client-retries","50").set("h

hadoop Spark apache java apache-spark amazon-s3 apache-spark-sql emr

hadoop - Spark 作业只是挂起大数据

我正在尝试从s3查询(15天的数据)。我尝试分别(每天)查询它们，效果很好。它也可以正常工作14天。但是当我查询15天时，作业一直运行(挂起)并且任务#没有更新。我的设置:我正在使用51节点集群r3.4xlarge，启用了动态分配和最大资源。我所做的只是=valstartTime="2017-11-21T08:00:00Z"valendTime="2017-12-05T08:00:00Z"valstart=DateUtils.getLocalTimeStamp(startTime)valend=DateUtils.getLocalTimeStamp(endTime)valdays:In

大数 hadoop section code li apache-spark hadoop-yarn emr amazon-emr

hadoop - 通过 ODBC 连接到 Spark SQL

根据此页面:https://spark.apache.org/sql/您可以通过ODBC或JDBC将现有的BI工具连接到SparkSQL:我不是说鲨鱼，因为这基本上是EOL:ItisforthisreasonthatweareendingdevelopmentinSharkasaseparateprojectandmovingallourdevelopmentresourcestoSparkSQL,anewcomponentinSpark.BI工具(如Tableau)如何通过ODBC连接到sharksql？最佳答案随着Spark

hadoop Spark section sql odbc apache-spark shark-sql

hadoop - Spark 作业未在 Hive 数据库中找到表

我在Hive的默认数据库中有一个表，并且可以在命令行中成功地从该表中获取记录:>hive:select*frommy_table;但是当我在Spark中创建一个作业来运行时，它只会抛出这样的异常:INFOmetastore.HiveMetaStore:0:get_table:db=defaulttbl=my_table16/01/0403:41:42INFOHiveMetaStore.audit:ugi=etlip=unknown-ip-addrcmd=get_table:db=defaulttbl=my_tableExceptioninthread"main"org.apache.s

hadoop Spark section table strong apache-spark hive

hadoop - 使用 HBASE 的 Spark 与使用 HDFS 的 Spark

我知道HBASE是一个列式数据库，将表的结构化数据按列而不是按行存储到HDFS中。我知道Spark可以从HDFS读取/写入，并且有一些用于Spark的HBASE连接器现在也可以读写HBASE表。问题:1)在HBASE之上分层Spark而不是单独使用HBASE带来了哪些附加功能？这仅取决于程序员的能力，或者是否有任何性能理由这样做？有没有Spark可以做而HBASE不能做的事情？2)源于上一个问题，什么时候应该在HDFS和SPARK之间添加HBASE而不是直接使用HDFS？最佳答案 1)Whataretheaddedcapabili

Spark hadoop HBASE section apache-spark hdfs

hadoop - 如何在 Hadoop/Spark 中重命名大量文件？

我有一个包含超过100,000个文件的输入文件夹。我想对它们进行批量操作，即以某种方式重命名它们，或者根据每个文件名中的信息将它们移动到新路径。我想使用Spark来做到这一点，但不幸的是，当我尝试以下代码时:finalorg.apache.hadoop.fs.FileSystemghfs=org.apache.hadoop.fs.FileSystem.get(newjava.net.URI(args[0]),neworg.apache.hadoop.conf.Configuration());org.apache.hadoop.fs.FileStatus[]paths=ghfs.lis

何在命名 section hadoop apache parallel-processing bigdata apache-spark

83 84 858687 88 89