草庐IT

parquet-mr

全部标签

performance - 如何知道 MR2 中的 HDFS 并发吞吐量

我是Hadoop新手。最近我正在尝试使用TestDFSIO来评估我的hdfs性能,我有一个关于并发吞吐量的问题:在MR1并发吞吐量=报告的吞吐量x映射槽数例如ThroughputMB/sec:141.4427MapSlots=2ConcurrentThroughput=282.8854MB/sec.但是在MR2中(YARN中不再存在map和reduceslot),如何计算并发吞吐量? 最佳答案 这是一篇很好的简单文章,它解释了这些“并发”词背后的大部分数学知识:BenchmarkingandStressTestinganHadoop

hadoop - OCR/Parquet文件的存储策略

假设我的HDFSblock大小等于256Mb,并且我需要在OCR/Parquet文件上存储20Gb的数据,将所有数据存储在一个OCR/Parquet文件上是否更好,还是最好将它存储在许多256Mb(HDFSblock大小)的ORC/Parquet文件中?提前致谢。 最佳答案 Mappers和Reducers负责处理您的核心数据处理需求。资源管理器负责根据您提供的输入和输入类型识别特定作业中涉及的数据,并尝试将其划分为多个任务并管理这些作业的执行。但是,您需要确保您提供的数据经过优化并平均分配,以便资源管理器可以将它们分配给映射器。注

java - 使用单独的映射器、 reducer 和驱动程序类运行 MR 程序

maxtempmapper.java类:packagecom.hadoop.gskCodeBase.maxTemp;importjava.io.IOException;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Mapper;publicclassMaxTempMapperextendsMapper{privatestaticfinalintM

unit-testing - 用于单元测试的 MR-Unit 与 JUnit

谁能解释一下使用MR-Unit进行单元测试MR作业与使用JUnit和Mockito相比有什么好处?具体来说,有哪些事情是我可以用JUnit做而不能做的,或者更难做?我的想法是将所有逻辑从映射器/缩减器转移到帮助器类,并且只验证是否在模拟上调用了适当的方法。为什么要使用MR-Unit? 最佳答案 我认为mrunit为您提供的最重要的东西是用于测试mapreduce作业的DSL。单元测试应该是关于可读性和讲述故事的,因此如果您有一个适合该领域的API,那么编写测试和稍后理解它们会变得更容易。另一件可能同样重要的事情是它提供了比JUnit

hadoop - 使用 Parquet-tools.jar 从 Parquet 文件转储特定列

我想使用parquet-tools-1.8.1.jar仅转储某些文本文件中的特定列。但无法这样做。我正在尝试以下命令。请注意我的列名有正斜杠。parquet-tools-1.8.1.jardump--column'dir1/log1/job12121''/hdfs-path/to/parquetfilewithspace.parquet'>/home/local/parquet/output.text 最佳答案 运行hadoopjarparquet-tools-1.8.1.jarparquet.tools.Maindump--col

hadoop - 使用parquet文件存储时创建Hive分区的优势

在使用parquet文件存储时创建Hive分区有什么好处吗?Parquet是一种列式存储文件格式,它将数据存储在列block中,所有列按索引顺序存储。当我们查询基于谓词的select列时,select列的索引会根据predicate跳转到需要的范围并打印值。分区有什么用?在面向行的Hive表中,分区很有用,因为我们只会命中指定的所需数据范围,但我无法理解它在parquet存储中有何帮助。 最佳答案 在非分区表中,hive必须读取表中的所有文件表的数据目录,然后对其应用过滤器。对于大表,它既慢又昂贵。在分区表中,它会根据分区列创建子目

hadoop - 如何查询制作压缩的parquet文件?

我使用apachedrill制作了数据格式更改程序。在这个程序中,如果csv文件转换成json,在hdfs中生成json文件但是我要输出的文件是压缩的。这可能吗?如果可以的话怎么做?? 最佳答案 是的,您可以在apachedrill中设置压缩类型。来自文档,YoucansetDrillqueryplanningandexecutionoptionspercluster,atthesystemorsessionlevel.Optionssetatthesessionlevelonlyapplytoqueriesthatyourundu

hadoop - 从非 hdfs 源读取时 namenode.LeaseExpiredException 而 df.write.parquet

我有一个在yarn集群上运行并使用databricks库将csv转换为parquet的spark代码。当csv源是hdfs时它工作正常。但是当csv源不是hdfs时(通常是这种情况),我遇到了这个异常。它不应该发生,因为相同的代码适用于hdfscsv源。问题的完整链接:https://issues.apache.org/jira/browse/SPARK-19344 最佳答案 如评论中所述。当文件位于驱动程序节点上,但节点无法访问时,读取将失败。当使用读取输入文件时(例如spark2.0中的spark.read),所有执行程序节点都

java - 以 Apache Parquet 格式写入数据

我有一个调度程序,它获取我们的集群指标并使用旧版本的ClouderaAPI将数据写入HDFS文件。但最近,我们更新了我们的JAR和原始代码错误。java.lang.ClassCastException:org.apache.hadoop.io.ArrayWritablecannotbecasttoorg.apache.hadoop.hive.serde2.io.ParquetHiveRecordatorg.apache.hadoop.hive.ql.io.parquet.write.DataWritableWriteSupport.write(DataWritableWriteSupp

hadoop - hive 表存储为 Parquet 失败

我在尝试将数据插入存储为parquet的配置单元表时正在接收。我有一张103209的table。当我在select语句中写limit子句时它起作用。CREATEEXTERNALTABLEtest_parquet(abigint,bint)STOREDASPARQUETLOCATION's3n://abc/test_parquet';insertintotest_parquetselecta,bfromstage_mri_travellimit100;---worksinsertintotest_parquetselecta,bfromstage_mri_travel;---failsE