USE_COMPUTED_SIZE

hadoop - 使用 Kerberos 访问 Cloudera Hadoop 会出现 TokenCache 错误 : Can't get Master Kerberos principal for use as renewer

我正在尝试从MacBookProOSX10.8.4访问ClouderaHadoop设置(HIVE+Impala)。我们在Linux服务器上安装了ClouderaCDH-4.3.0。我已将CDH-4.2.0tarball提取到我的MacBookPro。我已经设置了正确的配置和Kerberos凭据，以便像“hadoop-fs-ls/”这样的命令可以工作并且HIVEshell可以启动。但是，当我执行“显示数据库”命令时，出现以下错误:>hive>showdatabases;>Failedwithexceptionjava.io.IOException:java.io.IOException:

hadoop - AVG 分组数据抛出错误 1046 :Use an Explicit Cast

我在一个txt文件中有一个MAP数据:[age#27,height#5.8][age#25,height#5.3][age#27,height#5.10][age#25,height#5.1]我想显示每个年龄组的平均高度。这是LAOD语句:records=LOAD'~/Documents/Pig_Map.txt'AS(details:map[]);records:{details:map[]}然后我根据年龄对数据进行分组:group_data=GROUPrecordsBYdetails#'age';group_data:{group:bytearray,records:{(detail

Explicit hadoop code records height mapreduce apache-pig bigdata

linux - hive 脚本(hivequery.hql)文件中的这个符号是什么意思 "use ${word:word}"

脚本(hivequery.hql:)如下所示:Use${platformType:platformName};select*fromhivetablename;这个脚本在bash脚本中被调用为#!/usr/bin/envbashhive-fhivequery.hql 最佳答案在hql文件中，use命令设置默认数据库。参见UseDatabase.${platformType:platformName}是Hive的变量表示法，其中platformType是命名空间，platformName是变量名。这在UsingVariables中有

word amp code section platformType linux bash shell hadoop hive

hadoop - 如何知道 Amazon EMR 实例的 MIN_CONTAINER_SIZE？

如何在AmazonEMR集群上获取MIN_CONTAINER_SIZE的默认设置？因为我想通过这个公式来计算EMR上每个节点的内存使用情况RAM-per-container=max(MIN_CONTAINER_SIZE,(TotalAvailableRAM)/containers))谢谢! 最佳答案在EMR4.x中，默认的最小容器大小为256M。但是上限将受到每个实例类型的节点管理器可用内存的限制(http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr

MIN_CONTAINER_SIZE CONTAINER section hadoop amazon-web-services amazon-ec2 hadoop2 emr

hadoop - hive 到 Hbase : wrong use case for Spark?

我最近遇到了一个关于将数据从Hive迁移到Hbase的问题。我们项目在cdh5.5.1集群上使用Spark(7个节点在SUSELinuxEnterprise上运行，具有48个内核，每个256GBRAM，hadoop2.6)。作为初学者，我认为使用Spark从Hive加载表数据是个好主意。我正在使用正确的Hive列/HbaseColumnFamily和列映射在HBase中插入数据。我找到了一些关于如何将数据批量插入Hbase的解决方案，例如我们可以使用hbaseContext.bulkPut或rdd.saveAsHadoopDataset(我测试了两者的结果相似).结果是一个功能正常的程

hadoop Hbase section field apache-spark hive

hadoop - 命令用法 :when to use hadoop fs and hdfs dfs

正如标题所说，我很困惑何时使用以“hdfsdfs”和“hadoopfs”开头的命令仅供引用，我是使用cloudera4.6quickstartvm的hadoop新手。最佳答案下面是三个看似相同但有细微差别的命令hadoopfs{args}hadoopdfs{args}hdfsdfs{args}hadoopfsFS与通用文件系统相关，它可以指向任何文件系统，如本地、HDFS等。因此，当您处理不同的文件系统(如LocalFS、HFTPFS、S3FS等)时，可以使用它hadoopdfsdfs非常特定于HDFS。将适用于与HDFS相关的

hadoop 用法 strong section hdfs cloudera

java - 如何调整hadoop集群中的 "DataNode maximum Java heap size"

我在google中搜索以查找有关如何调整值的信息-DataNodemaximumJavaheapsize，除了这个-https://community.hortonworks.com/articles/74076/datanode-high-heap-size-alert.htmlhttps://docs.oracle.com/cd/E19900-01/819-4742/abeik/index.html但未找到计算DataNode最大Java堆大小值的公式DataNode最大Java堆大小的默认值为1G我们将这个值增加到5G，因为在某些情况下我们从数据节点日志中看到关于堆大小的错误但这

amp DataNode strong hortonworks https java hadoop ambari

hadoop - mapred.min.split.size

我正在尝试在MapReduce中试验这个参数，但我有一些问题。这是否符合HDFS中的大小(无论是否压缩)？还是解压后的？我猜是前者，但只是想确认一下。最佳答案仅当您的输入格式支持拆分输入文件时才会使用此参数。常见的压缩编解码器(如gzip)不支持拆分文件，因此将被忽略。如果输入格式确实支持拆分，那么这与压缩后的大小有关。关于hadoop-mapred.min.split.size，我们在StackOverflow上找到一个类似的问题： https://s

hadoop mapred section stackoverflow questions mapreduce hdfs

Hadoop 映射器 : Appropriate input files size?

我的集群HDFSblock大小为64MB。我有包含100个纯文本文件的目录，每个文件的大小为100MB。作业的InputFormat是TextInputFormat。将运行多少个映射器？我在HadoopDeveloper考试中看到了这个问题。答案是100。其他三个答案选项是64、640、200。但我不确定100是怎么来的，或者答案是错误的。请指导。提前致谢。最佳答案我同意你的判断，这似乎是错误的当然除非有更多的考试问题没有发布:这些“纯”文本文件是否经过gzip压缩-在这种情况下它们不可拆分？)簇分割大小可能是64MB，但输入文

射器 Appropriate section code hadoop mapreduce

hadoop - 为什么 BytesWritable.setSize(size) 使字节空间为 1.5*size？

我正在使用hadoop编写程序。我的问题代码如下(代码在映射器中):byte[]tmp=newbyte[2];tmp[0]=0x01;tmp[1]=0x02;BytesWritableoutputKey=newBytesWritable();outputKey.set(tmp,0,2);然而，当我操作从mapper得到的reducer中的key时，却让我大吃一惊:byte[]reducerKey=key.getBytes();reducerKey如下:reducerKey[0]->0x01;reducerKey[1]->0x02;reducerKey[2]->0x00;为什么我输入的t

size BytesWritable section hadoop