Hadoop-Solr_草庐IT

hadoop - 通过 PIG 加载多个 hbase 表限定符

我有一个名为USERS的hbase表，其列族名称为USER_INFO。USER_INFO有两个限定符EMAIL、AGE。当我尝试通过PIG加载单个限定符值时，它成功了。使用命令:R=LOAD'USERS'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('USER_INFO:EMAIL','-loadKey')AS(key:chararray,EMAIL:chararray);dumpR;但我无法使用这两个限定符加载表格。即电子邮件、年龄。我试过这个:S=LOAD'USERS'USINGorg.apache.pig.backen

hadoop hbase section 39 USER_INFO mapreduce apache-pig

hadoop 存储目录使用的空间超过 HDFS 上的总数据

我有一个三节点hadoop集群，复制因子=3。存储目录是每个系统的/app/hadoop/tmp/dfs/。每个datanode系统的硬盘容量为221GB。HDFS的有效数据为62GB，复制62*3=186GB。现在的问题是我的存储空间不足，即使我在660GB集群上只有186GB数据:HDFS显示可用空间的巨大差异:datanode1=7.47GBdatanode2=17.7GBdatanode3=143GB为了确保这些空间被hadoop本地存储使用，我在每个数据节点上运行了这个命令。对于数据节点1du-h--max-depth=1/app/hadoop/tmp/63G/app/had

hadoop HDFS strong section mapreduce

hadoop - 创建一个使用可以返回列名的 UDF 函数的 hiveQL 查询

我想创建一个HiveUDF函数，该函数根据某些值返回特定的列名，例如retreivecol(age)。如果年龄为20，则返回要在选择查询中使用的列名列表，例如“name,email,fbuserid、friend列表等，如果年龄小于20岁，则单独返回“姓名”。所以我希望我的HIVEQL查询看起来像从User_Data中选择retreivecol(age);上面的查询只打印列的名称，如“name、email、fbuserid、friendslist”等，而不是将它们视为列名称并基于相同的名称进行过滤。感谢任何指针。最佳答案我不确定

列名 hadoop section email hive hiveql

hadoop - 我在哪里可以找到 SVM 在 Hadoop 上的实现？

我在http://code.google.com/p/cascadesvm/中找到了一个实现.但是，没有关于此的规范。有人试过吗？或者我在哪里可以找到SVM在Hadoop上的替代实现？非常感谢~ 最佳答案看起来有人在Mahout项目中这样做了，不确定它是否已合并到主干中，但这看起来是一个不错的起点:https://issues.apache.org/jira/browse/MAHOUT-232 关于hadoop-我在哪里可以找到SVM在Hadoop上的实现？，我们在StackOverf

hadoop section noreferrer https svm

hadoop - 使用 piggybank 和 AvroStorage 解决 EMR 问题

我在EMR上运行一个pig脚本，它读取以Avro格式存储的数据。它一直在本地工作，但为了让脚本的其他部分在EMR上工作，我不得不将我使用的piggybank.jar恢复为0.9.2而不是0.10.0。进行该更改后，AvroStorage静默地无法读取任何数据并仅返回零记录。日志或任何内容中均未提及。这是脚本:REGISTER../../../lib/avro-1.7.0.jarREGISTER../../../lib/json-simple-1.1.1.jarREGISTER../../../lib/jackson-core-asl-1.5.2.jarREGISTER../../../

AvroStorage piggybank section REGISTER hadoop apache-pig elastic-map-reduce amazon-emr avro

【Hadoop】集群配置之主要配置文件（hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml...）

Hadoop配置文件模板core-site.xmlhadoop-env.shhdfs-site.xmlyarn-env-shyarn-site.xmlmapred-site.xmlslavesHadoop配置文件模板参考官方配置文档：https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html#Configuring_Environment_of_Hadoop_DaemonsHadoop的配置文件都在$HADOOP_HOME/etc/hadoop下面。比如我这里是：Hadoop

site 配置 span class token hadoop xml hdfs

Hadoop/Yarn (v0.23.3) 伪分布式模式设置::无作业节点

我刚刚在伪分布式模式下设置了Hadoop/Yarn2.x(特别是v0.23.3)。我遵循了一些博客和网站的说明，它们或多或少提供了设置它的相同处方。我也关注了O'reilly的第3版Hadoop书(具有讽刺意味的是，它是最没有帮助的)。问题:Afterrunning"start-dfs.sh"andthen"start-yarn.sh",whileallofthedaemonsdostart(asindicatedbyjps(1)),theResourceManagerwebportal(Here:http://localhost:8088/cluster/nodes)indicate

Hadoop 23.3 gt lt mapreduce hadoop-yarn mrv2

hadoop - 如何在 HADOOP 中并行运行多个迭代作业

我有一个针对单个文件迭代运行的hadoop作业。现在，如果我必须为目录中的每个文件并行运行多个作业，那么在HADOOP中休假的最佳实践是什么。最佳答案可以引用项目haloop它解决了迭代映射减少。然后，如果文件很大，那么继续使用haloop，否则你可能会合并小文件以获得更好的性能。关于hadoop-如何在HADOOP中并行运行多个迭代作业，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/ques

何在 hadoop section haloop stackoverflow

hadoop - 如何在hdfs中持久化namenode信息

我在我的桌面上设置了一个单节点集群。问题是我不能让我的桌面一直运行。我确实执行了stop-all.sh，稍后当我执行start-all.sh时，我的名称节点没有启动。最后我必须做%hadoopnamenode-format，通过丢失我的所有数据继续那里。最佳答案出了点严重的问题。请检查名称节点写入的图像和编辑文件发生了什么。如果它们没问题——NameNode可以启动。另外...存储NN数据的最后一个地方是HDFS-因为你会遇到鸡蛋和鸡肉的问题。没有NN数据HDFS不可访问。关于ha

何在持久 section stackoverflow questions hadoop hdfs

java - mapreduce 时的 Hadoop 库冲突

我有一个使用HadoopAPI来启动各种远程mapreduce作业的jar(即，我没有使用命令行来启Action业)。执行各种作业的服务jar是使用maven的“jar-with-dependencies”构建的。除了使用commons-codec1.7的作业外，我的所有作业都运行良好，我得到:FATALorg.apache.hadoop.mapred.Child:Errorrunningchild:java.lang.NoSuchMethodError:org.apache.commons.codec.binary.Base64.encodeAsString([B)Ljava/lan

mapreduce Hadoop commons-codec commons section java maven