草庐IT

parquet-mr

全部标签

hadoop - 使用命令行 parquet-tools 查看 parquet 中的模式

我正在尝试运行parquet-tools命令仅查看我的Parquet文件的文件模式。我目前正在运行:$parquet-toolsmeta/tmp/my-file.parquet但这会显示文件架构加上数百个行组。我不想看到行组,只想看到文件架构。 最佳答案 尝试parquet-toolsschema/tmp/my-file.parquet 关于hadoop-使用命令行parquet-tools查看parquet中的模式,我们在StackOverflow上找到一个类似的问题:

hadoop - 如何找到 Parquet 文件在生成时使用的 COMPRESSION_CODEC?

通常在Impala中,我们在将数据插入底层文件为Parquet格式的表之前使用COMPRESSION_CODEC。用于设置COMPRESSION_CODEC的命令:setcompression_codec=snappy;setcompression_codec=gzip;是否可以通过对Parquet文件进行任何类型的操作来找出使用的压缩编解码器的类型? 最佳答案 找到ImpalaParquet表使用的压缩算法的一种方法是通过parquet-tools.例如,此实用程序与ClouderaCDH打包在一起,否则可以从源代码轻松构建。$p

Hadoop:MR 启动的映射器比指定的少

我在一台远程机器(四核超线程)上安装了Hadoop1.2.1,并且正在用1GB的文件(一个文件,未压缩)测试MR的性能当我将拆分大小设置为大约250MB时,我有四个映射器。在输出文件(_logs/history/job....)中,我看到上面写着TOTALMAPTASKS=4但是,当我将拆分大小设置为1GB/8以便它使用8个内核时,我看到日志显示TOTALMAPTASKS=7。当拆分大小为1GB/16以查看发生了什么时,日志显示TOTALMAPTASKS=14。是因为jobtracker指定了一个core不能用吗? 最佳答案 不幸的

Hadoop MapReduce : Is it possible to only use a fraction of the input data as the input to a MR job?

我的输入数据的关键类是WritableComparable,它以MapFile的形式存在。有没有什么方法可以设置最小和最大键值,并且只将记录传输到键值介于两者之间的映射器? 最佳答案 这是不可能的。因为对于map-reduce作业,我们只是指定输入。我们可以做的一件事是,在映射器中编写一个条件。如果键是黑白最小值和最大值,则只处理键值对并将输出发送到reducer。否则,什么都不做。但即使在这种情况下,我们的map阶段也会处理所有输入,而reduce阶段只会处理我们指定的键范围。更好的方法:当在给定输入上运行map-reduce作业

hadoop - 我们可以根据类型(MR、SPARK)将 hadoop 应用程序分配到公平调度程序队列中吗?

fair-scheduler是否支持基于应用类型的队列分配?就像所有SPARK作业都在Spark_Queue下,而MR作业在MR_Queue下一样。 最佳答案 提交/运行Spark作业时,您可以将YARN队列指定为--queue命令行参数、spark.yarn.queueSpark配置参数或SPARK_YARN_QUEUE环境变量。 关于hadoop-我们可以根据类型(MR、SPARK)将hadoop应用程序分配到公平调度程序队列中吗?,我们在StackOverflow上找到一个类似的问

hadoop - 如何在运行 MR 作业时找到存储和读取特定文件的数据节点?

我有9个文件,每个文件的大小都等于集群的BlockLength,存储在hadoop中。我需要获取文件所在的数据节点的地址。复制因子为3。是否有任何hadoopAPI可以执行此操作或任何其他可能的方式? 最佳答案 查找文件的block和数据节点的命令如下所示hadoopfsck/user/tom/part-00007-files-blocks-racks这将显示以下结果/user/tom/part-0000725582428bytes,1block(s):OK0.blk_-3724870485760122836_1035len=255

Hadoop MR2 作业统计

我的机器上安装了Hadoop2.6.0版。hduser@vagrant:/usr/local/hadoop$hadoopversionHadoop2.6.0此外,我使用bashsbin/start-dfs.sh启动了hadoop集群,并看到Datanode、namenode和secondarynode正在运行。hduser@vagrant:/usr/local/hadoop$jps2627DataNode2503NameNode3634Jps2825SecondaryNameNode我还能够提交作业并能够毫无问题地查看输出。hadoopjar./share/hadoop/mapredu

hadoop - 使用映射器将空值写入 Parquet 文件

我正在尝试执行以下操作:Stringx=null;Groupgroup=factory.newGroup().append("x",x);context.write(null,group)采用以下方案:StringwriteSchema="messageexample{\n"+"optionalbinaryx;\n"+"}";但是我在附加行中得到了NullPointerException。也许我在计划中遗漏了什么? 最佳答案 这里String对象本身是null。在写入文件系统时,它会尝试获取导致NullPointerExecepti

hadoop - Flink 转换为 parquet 错误

我正在尝试使用flink将csv文件编写为Parquet。我正在使用以下代码并收到错误。valparquetFormat=newHadoopOutputFormat[Void,String](newAvroParquetOutputFormat,job)FileOutputFormat.setOutputPath(job,newPath(outputPath))我收到以下构建错误。有人可以帮忙吗?typemismatch;found:parquet.avro.AvroParquetOutputFormatrequired:org.apache.hadoop.mapreduce.Outp

hadoop - 我可以索引 parquet 文件中的列以使其使用 Spark 更快地连接吗

我有两个DataFrame,每个都保存在一个parquet文件中。我需要通过唯一的增量“id”列加入这两个DF。我可以在id列上创建索引以便他们可以更快地加入吗?这是代码//FirstDFwhichcontainafewthousandsitemsvaldfExamples=sqlContext.parquetFile("file:///c:/temp/docVectors.parquet")//SecondDFwhichcontains10millionitemsvaldfDocVectors=sqlContext.parquetFile(docVectorsParquet)//Da