草庐IT

spark-csv

全部标签

apache-spark - 是否有 Hadoop 组件的兼容性矩阵?

我想知道是否有生态系统的各种Hadoop组件的兼容性矩阵?每次Hadoop升级都会对兼容性产生很大的影响,例如:ApacheSpark2.4不支持Hadoopv3,Hadoop不支持Java9和10,等等...我知道像Hortonworks这样的供应商会在每个版本的发行版中发布组件列表,但这并不适合广大公众,因为其中包括已打补丁的组件。是否必须通过Jira的所有错误跟踪器来查找每种工具的兼容性问题? 最佳答案 像Cloudera/Hortonworks这样的公司所做的关键事情之一就是采用构成Hadoop的所有开源项目,并确保它们能够

python - 在python中使用Hadoop处理大型csv文件

我有一个巨大的CSV文件,我想在AmazonEMR(python)上使用HadoopMapReduce进行处理。该文件有7个字段,但是,我只查看日期和数量字段。"date""receiptId""productId""quantity""price""posId""cashierId"首先是我的mapper.pyimportsysdefmain(argv):line=sys.stdin.readline()try:whileline:list=line.split('\t')#Ifdatemeetscriteria,addquantitytoexpresskeyifint(list[0

Hadoop:在 HDFS 中连接 CSV 文件的工具?

我有几个结构相同的巨大CSV文件存储在HDFS中。是否有任何工具可以将这些文件连接成一个CSV文件? 最佳答案 hadoopfs-catmyfiles/*.csv|hadoopfs-put-myfiles_together.csv这会连接文件内容,然后通过put将其传回HDFS。那里的-表示使用标准in作为文件内容,而不是一些本地文件。这比下拉然后向上推要好,因为它不使用磁盘。所以,您可能会说“嘿!那是不可扩展的!”好吧,不幸的是,没有可扩展的方法来在HDFS中写出一个大文件。您必须在单个线程中按顺序写入该单个文件。我的基本论点是,

scala - 用于 TB 级结构化数据的 Greenplum、Pivo​​tal HD + Spark 或 HAWQ?

我在Greenplum数据库中有数TB的结构化数据。我需要对我的数据运行本质上是MapReduce作业。我发现自己至少重新实现了MapReduce的功能,以便这些数据适合内存(以流方式)。然后我决定到别处寻找更完整的解决方案。我查看了PivotalHD+Spark,因为我使用的是Scala,而Spark基准测试是一个令人惊叹的因素。但我相信这背后的数据存储HDFS的效率将低于Greenplum。(注意“我相信”。我很高兴知道我错了,但请提供一些证据。)因此,为了与Greenplum存储层保持一致,我查看了Pivotal的HAWQ,它基本上是在Greenplum上使用SQL的Hadoop

Python 快速合并PDF表格转换输出CSV文件

单位的刷脸考勤机后台系统做得比较差,只能导出每个部门的出勤统计表pdf,格式如下:近期领导要看所有部门的考勤数据,于是动手快速写了个合并pdf并输出csv文件的脚本。安装模块pypdf2,pdfplumber,前者用于合并,后者用于读表格。C:\>pipinstallpypdf2Lookinginindexes:https://pypi.tuna.tsinghua.edu.cn/simpleCollectingpypdf2 Usingcachedhttps://pypi.tuna.tsinghua.edu.cn/packages/8e/5e/c86a5643653825d3c913719e78

hadoop - 具有 gzip 格式的大文本文件的 Spark 作业

我正在运行一个Spark作业,它花费了很长时间来处理输入文件。输入文件为6.8GBGzip格式,包含1.1亿行文本。我知道它是Gzip格式,所以它不可拆分,并且只有一个执行程序将用于读取该文件。作为调试过程的一部分,我决定只看看将gzip文件转换为parquet需要多长时间。我的想法是,一旦我转换为parquet文件,然后如果我在该文件上运行我的原始Spark作业,在这种情况下它将使用多个执行程序并且输入文件将被并行处理。但即使是小工作也比我预期的要花更长的时间。这是我的代码:valinput=sqlContext.read.text("input.gz")input.write.pa

sql - 在 hive 表中插入的值,双引号用于来自 csv 文件的字符串

我正在将一个csv文件导出到配置单元表中。关于csv文件:列值用双引号括起来,用逗号分隔。来自csv的示例记录"4","good""3","notbad""1","veryworst"我用下面的语句创建了一个hive表,创建外部表currys(review_ratingstring,review_commentstring)由','分隔的行格式字段;表已创建。现在我使用命令loaddatalocalinpath加载了数据并且成功了。当我查询表格时,select*fromcurrys;结果是:"4""good""3""notbad""1""veryworst"代替4good3notbad

scala - Spark : sc. WholeTextFiles 执行时间过长

我有一个集群,我执行了wholeTextFiles,它应该提取大约一百万个文本文件,总计大约10GB我有一个NameNode和两个DataNode,每个都有30GBRAM,每个有4个内核。数据存储在HDFS中。我没有运行任何特殊参数,作业仅读取数据就需要5个小时。这是预期的吗?是否有任何参数可以加快读取速度(spark配置或分区、执行程序数量?)我才刚刚起步,之前从未需要优化工作编辑:此外,有人可以准确解释wholeTextFiles函数的工作原理吗?(不是如何使用它,而是它是如何编程的)。我非常有兴趣了解分区参数等。编辑2:基准评估所以我尝试在wholeTextFile之后重新分区,

hadoop - Google Cloud Dataproc - Spark 和 Hadoop 版本

在GoogleCloudDataproc测试版中,Spark和Hadoop的版本是什么?Spark是为哪个版本的Scala编译的? 最佳答案 根据officialannouncement:Today,wearelaunchingwithclustersthathaveSpark1.5andHadoop2.7.1. 关于hadoop-GoogleCloudDataproc-Spark和Hadoop版本,我们在StackOverflow上找到一个类似的问题: ht

java - 使用带迭代器的 mapPartition 保存 spark RDD

我有一些中间数据需要存储在HDFS和本地。我正在使用Spark1.6。在作为中间形式的HDFS中,我在/output/testDummy/part-00000和/output/testDummy/part-00001中获取数据。我想使用Java/Scala将这些分区保存在本地,这样我就可以将它们保存为/users/home/indexes/index.nt(通过在本地合并)或/users/home/indexes/index-0000.nt和/home/indexes/index-0001.nt分开。这是我的代码:注意:testDummy与test相同,输出有两个分区。我想将它们单独存