process_output

hadoop - Apache hive : LOAD DATA vs INSERT OVERWRITE OUTPUT FILE SIZE

我正在使用ApacheHive，我不明白为什么如果我使用INSERTOVERWRITE与LOAD加载数据，表的大小会加倍。问题说明如下:我创建了一个表项从item.dat加载数据(大约28MB)在Azure中发生的是文件item.dat将被移动到hive/warehouse并且当然大小保持不变现在，如果我创建另一个与item相同的表item2，然后使用以下命令将数据从item加载到item2:INSERTOVERWRITETABLEitem2SELECT*FROMitem表item2的大小是item的两倍(大约55MB)为什么会这样？有什么办法可以避免吗？附言。这只是为了说明问题。在实

import - HBase 导出/导入 : Unable to find output directory

我正在为我的应用程序使用HBase，我正在尝试使用org.apache.hadoop.hbase.mapreduce.Export导出数据，因为它是指示here.我面临的问题是，一旦执行了命令，创建导出时就没有错误。但是指定的输出目录并没有出现在它的位置。我使用的命令是$bin/hbaseorg.apache.hadoop.hbase.mapreduce.Exporttable_namedb_dump/ 最佳答案我得到了解决方案，因此我正在回复我自己的答案hadoop的conf目录下的hadoop-env.sh必须有如下两行exp

directory import hbase hadoop code export

hadoop - Java 映射减少 : how to store a list of LONGs in Hadoop Output

我有一个MapReduceJava程序，它输出一个数字列表作为String作为最终输出。但是数量比较长，占用空间太大。我想将每个数字转换为Long并存储。我怎样才能做到这一点？最佳答案 ArrayWritable可以扩展为publicclassLongArrayWritableextendsArrayWritable{publicLongArrayWritable(){super(Text.class);}publicLongArrayWritable(LongWritable[]values){super(LongWritabl

hadoop section LongWritable mapreduce

mongodb - "ERROR 6000, Output location validation failed"在 EMR 上使用 PIG MongoDB-Hadoop 连接器

我在EMR上的pig脚本中收到“输出位置验证失败”异常。将数据保存回S3时失败。我使用这个简单的脚本来缩小问题范围:REGISTER/home/hadoop/lib/mongo-java-driver-2.13.0.jarREGISTER/home/hadoop/lib/mongo-hadoop-core-1.3.2.jarREGISTER/home/hadoop/lib/mongo-hadoop-pig-1.3.2.jarexample=LOAD's3://xxx/example-full.bson'USINGcom.mongodb.hadoop.pig.BSONLoader();S

MongoDB-Hadoop validation apache java hadoop mongodb apache-pig amazon-emr

Hadoop HDFS : input/output error when creating user folder

我已按照Hadoopthedefinitiveguide,4thedition:AppendixA中的说明进行操作在伪分布式模式下配置Hadoop。一切正常，除了我尝试创建目录时:hadoopfs-mkdir-p/user/$USER命令返回以下消息:mkdir:/user/my_user_name':Input/outputerror。虽然，当我第一次登录到我的根帐户sudo-s然后键入hadoopfs-mkdir-p/user/$USER命令时，目录'user/root'被创建(路径中的所有目录)。我想我遇到了Hadoop权限问题。任何帮助将不胜感激，谢谢。

creating Hadoop section code hdfs

scala - 卡夫卡+ Spark 流: Multi topic processing in single job

Kafka中有40个主题和编写的SparkStreaming作业，每个主题处理5个表。sparkstreaming作业的唯一目标是读取5个kafka主题并将其写入相应的5个hdfs路径。大多数时候它工作正常，但有时它会将主题1数据写入其他hdfs路径。下面的代码试图归档一个sparkstreaming作业来处理5个主题并将其写入相应的hdfs，但是这个将主题1数据写入HDFS5而不是HDFS1。请提供您的建议:importjava.text.SimpleDateFormatimportorg.apache.kafka.common.serialization.StringDeseria

卡夫 processing 34 kafka section scala hadoop apache-spark apache-kafka spark-streaming

hadoop - AWS 弹性 map 减少 : output to SimpleDB

将ElasticMapReduce输出导入SimpleDB的最有效方法是什么？我知道我可以将结果输出到S3，下载它们，然后让脚本解析结果并插入到SimpleDB中。但是有没有更简单/更快速的方法可以直接将EMR输出插入SimpleDB(出于时间和效率的原因)？最佳答案请参阅以下Amazon入门文档的第12页，其中有一节是关于“将数据存储到AmazonSimpleDB中”:http://awsmedia.s3.amazonaws.com/pdf/introduction-to-amazon-elastic-mapreduce.pd

SimpleDB hadoop section introduction-to-amazon-elastic-ma amazon-simpledb elastic-map-reduce

hadoop - Spark 流 : How to process using multiple inputs to job?

输入1:KV数据流。输入2:一些静态数据分区(用于处理输入1中的流)问题可以建模为下图:与HDFS/RDD分区共置:我们如何确保流式任务Map1、Map2和Map3在存在HDFS/RDD分区的机器上运行？图像描述:假设K是流式key(不是元组)。FirstMap将其转换为元组(具有空值)并将其广播给3个映射器。每个映射器都在不同的节点上运行，这些节点包含RDD(或HDFS文件，这是第二个输入和静态数据)的不同分区。每个Mapper使用RDD分区来计算键的值。最后，我们要聚合键的值(使用reduceByKey_+_)。最佳答案如果

multiple process code strong section hadoop apache-spark stream spark-streaming flink-streaming

sql - Hive: java.lang.OutOfMemoryError: Java heap space and Job running in-process (local Hadoop)

我的设置:运行NixOSLinux的GoogleCloudPlatform中的4节点集群(1个主节点，3个工作节点)。我一直在使用TPC-DS工具包来生成数据和查询都是标准的。在较小的数据集/更简单的查询上，它们工作得很好。我从这里获取的查询:https://github.com/hortonworks/hive-testbench/tree/hdp3/sample-queries-tpcds这是第一个，query1.sql:WITHcustomer_total_returnAS(SELECTsr_customer_skASctr_customer_sk,sr_store_skASct

OutOfMemoryError in-process Stage customer store sql hadoop hive mapreduce hdfs

hadoop - Pig : How to send all Tuples to a UDF to be Processed without Grouping them? 或者如何在不分组的情况下将元组转换为包？

这就是我想要做的:A=LOAD'...'USINGPigStorage(',')AS(col1:int,col2:chararray);B=ORDERAbycol2;C=CUSTOM_UDF(A);CUSTOM_UDF遍历需要按顺序排列的元组。UDF会为每几个输入元组输出一个聚合元组；即，我不会以1:1的方式返回元组。本质上:publicclassCustomUdfextendsEvalFunc{publicTupleexec(Tupleinput)throwsIOException{AggregateaggregatedOutput=null;DataBagvalues=(DataB

何在 Processed input tuple hadoop mapreduce apache-pig cloudera