草庐IT

parquet-mr

全部标签

hadoop - 如何增加MR或Hive CDH并行运行的Map任务数

MR作业启动时有128个映射器,但只有7个并行运行。如何增加并行运行的maptask的数量?谢谢 最佳答案 mapreduce.tasktracker.map.tasks.maximum这将设置可以在tasktracker级别同时运行的最大maptask数。要在作业级别设置它,您可以使用mapreduce.job.running.map.limit。 关于hadoop-如何增加MR或HiveCDH并行运行的Map任务数,我们在StackOverflow上找到一个类似的问题:

hadoop - Lunch TDCH to Load 将数据从 Hive parquet 表加载到 Teradata

我需要使用TDCH(Hadoop的Teradata连接器)将存储为parquet文件的Hive表中的数据加载到Teradata数据库。我使用TDCH1.5.3和CDH5.8.3。和Hive1.1.0我尝试启动TDCHusignhadoopjar命令并收到错误:java.lang.ClassNotFoundException:org.apache.parquet.hadoop.util.ContextUtil有人知道为什么会这样吗? 最佳答案 当查看您的问题时,您可能没有能够上传到Teradata所需的所有Hive库。这是一个可用于从

hadoop - 将 ORC 文件转换为 Parquet 文件

是否有任何已知的库/方法可以将ORC文件转换为Parquet文件?否则我正在考虑使用Spark将ORC导入数据框然后输出到Parquet文件 最佳答案 您提到使用Spark读取ORC文件、创建DataFrame,然后将这些DF存储为Parquet文件。这是一种完全有效且非常有效的方法!另外,根据您的偏好和用例,您甚至可以使用Hive或Pig[也许您可以在这里加入Tez以获得更好的性能]或JavaMapReduce甚至NiFi/StreamSets[取决于您的分布].这是一个非常简单的实现,你可以做任何最适合你的事情[或者任何你最喜欢

java - Parquet 文件可选字段不存在

我是使用Parquet文件的新手,我想开发一个mapreduce作业,它使用以下shcema读取许多输入的Parquet文件:{optionalint96dropoff_datetime;optionalfloatdropoff_latitude;optionalfloatdropoff_longitude;optionalint32dropoff_taxizone_id;optionalfloatehail_fee;optionalfloatextra;optionalfloatfare_amount;optionalfloatimprovement_surcharge;option

hadoop - Hive - 选择计数 (*) 不与 Tez 一起使用但与 MR 一起使用

我有一个包含Parquet数据的Hive外部表。当我运行selectcount(*)fromtable1时,它因Tez而失败。但是当执行引擎更改为MR时,它就可以工作了。知道为什么Tez失败了吗?我在使用Tez时遇到以下错误:Error:org.apache.hive.service.cli.HiveSQLException:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.tez.TezTaskatorg.apache.hive.servi

scala - 将 spark dataframe 写入现有的 parquet hive 表

想要将spark数据帧写入现有的parquethive表。我可以使用df.write.mode("append").insertIto("myexistinghivetable")来完成,但是如果我检查文件系统,我可以看到spark文件以.c000扩展名登陆.那些文件是什么意思?以及如何将dataframe写入parquethive表。 最佳答案 我们可以使用df.write.partitionBy("mypartitioncols").format("parquet").mode(SaveMode.Append).saveAsTa

json - 德鲁伊 Parquet 摄取性能差

在使用Parquet数据摄取时,是否有任何原因导致Druid摄取缓慢?我们观察到,摄取JSON数据时,摄取速度至少提高了2倍。一般来说,哪个更好?DruidHadoop批处理摄取上下文中的JSON或Parquet。 最佳答案 Parquet针对一次写入多次读取(WORM)范例进行了优化。它写起来很慢,但读起来却非常快,尤其是当您只访问全部列的一个子集时。由于parquet数据格式经过压缩和编码,因此与JSON数据格式相比,它的写入速度较慢。在这里,您可以使用parquet格式在数据摄取性能上做出妥协,但对于数据分析而言,由于其列格式

hadoop - 是否可以在具有不同模式的 Parquet 文件上创建外部配置单元表?

我的Parquet文件结构如下:+------+------------------+------------------+|col1|col2|col3|+------+------------------+------------------+|v0|{k1:v1,k2:v2}|{k3:v3,k4:v4}|+------+------------------+------------------+col2和col3是map列。我希望在此之上创建一个具有以下架构的配置单元表,如下所示:+-------+-----+-----+-----+-----+|col1|k1|k2|k3|k4

java - 如何在hadoop 0.23.0 MR2上运行和编译java程序

我创建了一个.java文件以在clouderahadoop上运行。编译它,javac-classpath$HADOOP_COMMON_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-3.0.0-SNAPSHOT.jar-dmultifetch_classesMultiFetch.java错误:MultiFetch.java:12:packageorg.apache.hadoop.confdoesnotexistimportorg.apache.hadoop.conf.Configuration;^MultiFetch.j

unit-testing - MR单元 : Tests fail with custom writable

我正在尝试使用MRUnit为我的hadoop作业实现单元测试.对于我自己的Writable,断言在withOutput(K2k2,V2v2)失败。我已经尝试覆盖Object的equals(Objecto)方法,但这没有帮助。当两个Writable实际上相同时,有什么想法可以告诉MRUnit吗? 最佳答案 为了使runTest()成功,必须覆盖inthashCode()。 关于unit-testing-MR单元:Testsfailwithcustomwritable,我们在StackOve