草庐IT

Spark-DataFrame

全部标签

hadoop - mapreduce split和spark partition的区别

我想问一下,在使用Hadoop/MapReduce和Spark时,数据分区是否有任何显着差异?它们都在HDFS(TextInputFormat)上工作,因此理论上应该是相同的。是否存在数据分区程序可能不同的情况?任何见解都会对我的研究非常有帮助。谢谢 最佳答案 IsanysignificantdifferenceindatapartitioningwhenworkingwithHadoop/mapreduceandSpark?Spark支持所有hadoopI/O格式,因为它使用相同的HadoopInputFormatAPI以及它自己

hadoop - spark + hadoop 数据本地化

我得到了一个文件名的RDD,所以是一个RDD[String]。我通过并行化文件名列表(hdfs中的文件)来获得它。现在我映射这个rdd,我的代码使用FileSystem.open(path)打开一个hadoop流。然后我处理它。当我运行我的任务时,我使用sparkUI/Stages,我看到所有任务的“LocalityLevel”=“PROCESS_LOCAL”。我认为spark不可能以我运行任务的方式(在4个数据节点的集群上)实现数据局部性,这怎么可能? 最佳答案 WhenFileSystem.open(path)getsexecu

java - 有没有办法改变 Spark 中 RDD 的复制因子?

据我了解,集群中的RDD中的数据存在多份副本,这样当某个节点出现故障时,程序可以恢复。然而,在失败的可能性可以忽略不计的情况下,在RDD中拥有多个数据副本在内存方面的成本很高。那么,我的问题是,Spark中是否有一个参数可以用来降低RDD的复制因子? 最佳答案 首先,请注意Spark不会自动缓存所有RDD,这仅仅是因为应用程序可能会创建许多RDD,并且并非所有这些都将被重用。您必须对它们调用.persist()或.cache()。你可以设置你想要持久化一个RDD的存储级别myRDD.persist(StorageLevel.MEMO

hadoop - 是否可以使用 Apache Spark 读取 pdf/音频/视频文件(非结构化数据)?

是否可以使用ApacheSpark读取pdf/音频/视频文件(非结构化数据)?例如,我有数千张pdf发票,我想从中读取数据并对其进行一些分析。我必须执行哪些步骤来处理非结构化数据? 最佳答案 是的,是的。使用sparkContext.binaryFiles以二进制格式加载文件,然后使用map将值映射到其他格式-例如,使用ApacheTika或ApachePOI解析二进制文件。伪代码:valrawFile=sparkContext.binaryFiles(...valready=rawFile.map(hereparsingwitho

hadoop - 在 EMR 上运行 Spark 作业时 AWS 连接超时

我正在尝试在AmazonEMR集群中提交一个简单的Spark作业。我的集群有5个M4.2xlarge实例(1个主实例、4个从实例),每个实例有16个vCPU和32GB内存。这是我的代码:defmain(args:Array[String]):Unit={valsparkConfig=newSparkConf().set("hive.exec.dynamic.partition","true").set("hive.exec.dynamic.partition.mode","nonstrict").set("hive.s3.max-client-retries","50").set("h

hadoop - Spark 作业只是挂起大数据

我正在尝试从s3查询(15天的数据)。我尝试分别(每天)查询它们,效果很好。它也可以正常工作14天。但是当我查询15天时,作业一直运行(挂起)并且任务#没有更新。我的设置:我正在使用51节点集群r3.4xlarge,启用了动态分配和最大资源。我所做的只是=valstartTime="2017-11-21T08:00:00Z"valendTime="2017-12-05T08:00:00Z"valstart=DateUtils.getLocalTimeStamp(startTime)valend=DateUtils.getLocalTimeStamp(endTime)valdays:In

hadoop - 通过 ODBC 连接到 Spark SQL

根据此页面:https://spark.apache.org/sql/您可以通过ODBC或JDBC将现有的BI工具连接到SparkSQL:我不是说鲨鱼,因为这基本上是EOL:ItisforthisreasonthatweareendingdevelopmentinSharkasaseparateprojectandmovingallourdevelopmentresourcestoSparkSQL,anewcomponentinSpark.BI工具(如Tableau)如何通过ODBC连接到sharksql? 最佳答案 随着Spark

hadoop - Spark 作业未在 Hive 数据库中找到表

我在Hive的默认数据库中有一个表,并且可以在命令行中成功地从该表中获取记录:>hive:select*frommy_table;但是当我在Spark中创建一个作业来运行时,它只会抛出这样的异常:INFOmetastore.HiveMetaStore:0:get_table:db=defaulttbl=my_table16/01/0403:41:42INFOHiveMetaStore.audit:ugi=etlip=unknown-ip-addrcmd=get_table:db=defaulttbl=my_tableExceptioninthread"main"org.apache.s

hadoop - 使用 HBASE 的 Spark 与使用 HDFS 的 Spark

我知道HBASE是一个列式数据库,将表的结构化数据按列而不是按行存储到HDFS中。我知道Spark可以从HDFS读取/写入,并且有一些用于Spark的HBASE连接器现在也可以读写HBASE表。问题:1)在HBASE之上分层Spark而不是单独使用HBASE带来了哪些附加功能?这仅取决于程序员的能力,或者是否有任何性能理由这样做?有没有Spark可以做而HBASE不能做的事情?2)源于上一个问题,什么时候应该在HDFS和SPARK之间添加HBASE而不是直接使用HDFS? 最佳答案 1)Whataretheaddedcapabili

hadoop - 如何在 Hadoop/Spark 中重命名大量文件?

我有一个包含超过100,000个文件的输入文件夹。我想对它们进行批量操作,即以某种方式重命名它们,或者根据每个文件名中的信息将它们移动到新路径。我想使用Spark来做到这一点,但不幸的是,当我尝试以下代码时:finalorg.apache.hadoop.fs.FileSystemghfs=org.apache.hadoop.fs.FileSystem.get(newjava.net.URI(args[0]),neworg.apache.hadoop.conf.Configuration());org.apache.hadoop.fs.FileStatus[]paths=ghfs.lis