CLOUDERA_草庐IT

amazon-web-services - 设置 AWS 凭证 - Cloudera Quickstart Docker Container

我正在尝试使用Cloudera的Quickstartdocker容器来测试简单的Hadoop/Hive作业。我希望能够在S3中的数据上运行作业，但到目前为止我遇到了问题。我已将以下属性添加到core-site.xml、hive-site.xml、hdfs-site.xml。fs.s3.awsAccessKeyIdXXXXXXfs.s3.awsSecretAccessKeyXXXXXX无论如何，在Hive中尝试创建指向S3位置的外部表时，我收到错误:FAILED:SemanticExceptionjava.lang.IllegalArgumentException:AWSAccessKe

amazon-web-services Quickstart section gt lt hadoop hive cloudera cloudera-quickstart-vm

apache - Hadoop:map reduce 作业中的错误类路径

我在3个虚拟机中运行一个cloudera集群，并尝试通过mapreduce作业执行hbase批量加载。但我总是得到错误:error:Classorg.apache.hadoop.hbase.mapreduce.HFileOutputFormatnotfound所以，似乎map进程没有找到类。所以我尝试了这个:1)将hbase.jar添加到每个节点上的HADOOP_CLASSPATH2)将TableMapReduceUtil.addDependencyJars(job)/TableMapReduceUtil.addDependencyJars(myConf,HFileOutputForm

apache Hadoop job code class mapreduce hbase cloudera

hadoop - fs.defaultFS 只监听localhost的8020端口

我有一个CDH4.3一体机启动并运行，我正在尝试远程安装一个hadoop客户端。我注意到，在不更改任何默认设置的情况下，我的hadoop集群正在监听127.0.0.1:8020。[cloudera@localhost~]$netstat-lent|grep8020tcp00127.0.0.1:80200.0.0.0:*LISTEN492100202[cloudera@localhost~]$telnet${all-in-onevmexternalIP}8020Trying${all-in-onevmexternalIP}...telnet:connecttoaddress${all-i

defaultFS localhost code hadoop section hdfs cloudera

hadoop - cloudera垃圾检查点间隔配置

Cloudera允许我配置fs.trash.interval。但它不允许我配置fs.trash.checkpoint.interval。那么hdfs什么时候创建检查点呢？这里有一个类似的问题没有回应:WhendoesHadoopFrameworkcreatesacheckpoint(expunge)toits"current"directoryintrash? 最佳答案 ApacheHadoop文档包括左侧导航中指向各种*-default.xml文件的链接。这些文件包含所有配置属性的默认设置。如果您点击*-default.xml链接

cloudera hadoop trash interval checkpoint hdfs

Hadoop 文件系统 mkdirs() 在传递 777 时创建具有 755 权限的目录

下面代码段中使用的文件系统对象已通过org.apache.hadoop.fs.FileSystem.get(Configurationconf)获得。下面传递的FsPermission对象已通过FsPermission.getDefault()获得，即777。publicintmkdirs(Pathf,FsPermissionpermission){try{returnfileSystem.mkdirs(f,permission)?0:1;}catch(IOExceptione){LOG.error("Failedtoexecute'mkdirs':"+e.getMessage());

传递 Hadoop code the permission hdfs cloudera hadoop2 hortonworks-data-platform

hadoop - PIG 中的标量投影无效

我在PIG中的数据列名为关键字、campaign_id、日期、时间、display_site、was_clicked、cpc、国家/地区、展示位置我想做的是找到点击率高的关键字。所以，我试图理解为什么下面的代码会给我无效的标量投影错误grouped=GROUPdataBYkeyword;by_keyword=FOREACHgrouped{clicked=FILTERdataBYwas_clicked==1;total=COUNT(data.keyword);GENERATEgroup,((double)COUNT(clicked)/total)ASctr;}我得到的错误:37,632[

hadoop PIG chararray code clicked apache-pig cloudera

从 Windows 到 Linux 的 HTTP 协商失败

我正在尝试将我的本地Windows10计算机验证为在docker容器内运行的Web服务。更具体地说，这个容器正在运行Hadoop服务和MITKerberosKDC。我已经在我的本地机器上安装了适用于Windows的MITKerberos并成功获得了一张票hadoop/quickstart.cloudera@CLOUDERA来自KDC。当我在我的容器中使用相同的主体进行身份验证并调用此命令时:curl-i--negotiate-u:"http://quickstart.cloudera:50070/webhdfs/v1/?op=GETFILESTATUS"我得到一个有效的回应。但是，从我

Windows Linux lt cloudera no-cache http hadoop curl kerberos spnego

performance - Impala 上的多维数据集运算符

在Impala和PrestoDB之间进行基准测试时，我们注意到在Imapala中构建数据透视表非常困难，因为它不像Presto那样具有Cube运算符。以下是Presto中的两个示例:TheCUBEoperatorgeneratesallpossiblegroupingsets(i.e.apowerset)foragivensetofcolumns.Forexample,thequery:`SELECTorigin_state,destination_state,sum(package_weight)FROMshippingGROUPBYCUBE(origin_state,destina

多维运算符 state destination_state origin_state performance hadoop cloudera impala presto

hadoop - 为什么 MapReduce 映射内存大于集群上的 block 大小？

下面是HadoopYarn中的观察结果:a)对于每个InputSplit或block，都会触发一个新的映射。b)集群的典型block大小为128MB。c)在大多数集群中，MapReduce.map.memory.mb将配置为大于1GB。事实上，Cloudera建议的block大小是128MB，而MapReduce.map.memory.mb是1GB当block大小只有128MB时，为什么我们需要分配1GB给映射内存(MapReduce.map.memory.mb)？理想情况下，最多128MB应该可以满足需要。为什么我们为map内存提供的block大小甚至超过block大小？

MapReduce hadoop section block hdfs hadoop-yarn cloudera

hadoop - 如何复制到 HDFS 文件并仍然保留权限？

我创建了一个具有特定所有者和权限的零字节文件，权限为600-rw-------3clouderahdfs562014-04-0118:47Data/input/test.datcloudera:/home/cloudera当我尝试通过api运行副本时，我看到它将权限从600翻转为644。如何保留权限？任何帮助将不胜感激。复制前***>hadoopfs-lsData/input/Found1items-rw-------3clouderacloudera102014-04-0119:54Data/input/test.dat复制后***>hadoopfs-lsData/input/Fou

仍然 hadoop cloudera section hdfs