草庐IT

Hadoop-Solr

全部标签

hadoop - 通过 PIG 加载多个 hbase 表限定符

我有一个名为USERS的hbase表,其列族名称为USER_INFO。USER_INFO有两个限定符EMAIL、AGE。当我尝试通过PIG加载单个限定符值时,它成功了。使用命令:R=LOAD'USERS'USINGorg.apache.pig.backend.hadoop.hbase.HBaseStorage('USER_INFO:EMAIL','-loadKey')AS(key:chararray,EMAIL:chararray);dumpR;但我无法使用这两个限定符加载表格。即电子邮件、年龄。我试过这个:S=LOAD'USERS'USINGorg.apache.pig.backen

hadoop 存储目录使用的空间超过 HDFS 上的总数据

我有一个三节点hadoop集群,复制因子=3。存储目录是每个系统的/app/hadoop/tmp/dfs/。每个datanode系统的硬盘容量为221GB。HDFS的有效数据为62GB,复制62*3=186GB。现在的问题是我的存储空间不足,即使我在660GB集群上只有186GB数据:HDFS显示可用空间的巨大差异:datanode1=7.47GBdatanode2=17.7GBdatanode3=143GB为了确保这些空间被hadoop本地存储使用,我在每个数据节点上运行了这个命令。对于数据节点1du-h--max-depth=1/app/hadoop/tmp/63G/app/had

hadoop - 创建一个使用可以返回列名的 UDF 函数的 hiveQL 查询

我想创建一个HiveUDF函数,该函数根据某些值返回特定的列名,例如retreivecol(age)。如果年龄为20,则返回要在选择查询中使用的列名列表,例如“name,email,fbuserid、friend列表等,如果年龄小于20岁,则单独返回“姓名”。所以我希望我的HIVEQL查询看起来像从User_Data中选择retreivecol(age);上面的查询只打印列的名称,如“name、email、fbuserid、friendslist”等,而不是将它们视为列名称并基于相同的名称进行过滤。感谢任何指针。 最佳答案 我不确定

hadoop - 我在哪里可以找到 SVM 在 Hadoop 上的实现?

我在http://code.google.com/p/cascadesvm/中找到了一个实现.但是,没有关于此的规范。有人试过吗?或者我在哪里可以找到SVM在Hadoop上的替代实现?非常感谢~ 最佳答案 看起来有人在Mahout项目中这样做了,不确定它是否已合并到主干中,但这看起来是一个不错的起点:https://issues.apache.org/jira/browse/MAHOUT-232 关于hadoop-我在哪里可以找到SVM在Hadoop上的实现?,我们在StackOverf

hadoop - 使用 piggybank 和 AvroStorage 解决 EMR 问题

我在EMR上运行一个pig脚本,它读取以Avro格式存储的数据。它一直在本地工作,但为了让脚本的其他部分在EMR上工作,我不得不将我使用的piggybank.jar恢复为0.9.2而不是0.10.0。进行该更改后,AvroStorage静默地无法读取任何数据并仅返回零记录。日志或任何内容中均未提及。这是脚本:REGISTER../../../lib/avro-1.7.0.jarREGISTER../../../lib/json-simple-1.1.1.jarREGISTER../../../lib/jackson-core-asl-1.5.2.jarREGISTER../../../

【Hadoop】集群配置之主要配置文件(hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml...)

Hadoop配置文件模板core-site.xmlhadoop-env.shhdfs-site.xmlyarn-env-shyarn-site.xmlmapred-site.xmlslavesHadoop配置文件模板参考官方配置文档:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html#Configuring_Environment_of_Hadoop_DaemonsHadoop的配置文件都在$HADOOP_HOME/etc/hadoop下面。比如我这里是:Hadoop

Hadoop/Yarn (v0.23.3) 伪分布式模式设置::无作业节点

我刚刚在伪分布式模式下设置了Hadoop/Yarn2.x(特别是v0.23.3)。我遵循了一些博客和网站的说明,它们或多或少提供了设置它的相同处方。我也关注了O'reilly的第3版Hadoop书(具有讽刺意味的是,它是最没有帮助的)。问题:Afterrunning"start-dfs.sh"andthen"start-yarn.sh",whileallofthedaemonsdostart(asindicatedbyjps(1)),theResourceManagerwebportal(Here:http://localhost:8088/cluster/nodes)indicate

hadoop - 如何在 HADOOP 中并行运行多个迭代作业

我有一个针对单个文件迭代运行的hadoop作业。现在,如果我必须为目录中的每个文件并行运行多个作业,那么在HADOOP中休假的最佳实践是什么。 最佳答案 可以引用项目haloop它解决了迭代映射减少。然后,如果文件很大,那么继续使用haloop,否则你可能会合并小文件以获得更好的性能。 关于hadoop-如何在HADOOP中并行运行多个迭代作业,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/ques

hadoop - 如何在hdfs中持久化namenode信息

我在我的桌面上设置了一个单节点集群。问题是我不能让我的桌面一直运行。我确实执行了stop-all.sh,稍后当我执行start-all.sh时,我的名称节点没有启动。最后我必须做%hadoopnamenode-format,通过丢失我的所有数据继续那里。 最佳答案 出了点严重的问题。请检查名称节点写入的图像和编辑文件发生了什么。如果它们没问题——NameNode可以启动。另外...存储NN数据的最后一个地方是HDFS-因为你会遇到鸡蛋和鸡肉的问题。没有NN数据HDFS不可访问。 关于ha

java - mapreduce 时的 Hadoop 库冲突

我有一个使用HadoopAPI来启动各种远程mapreduce作业的jar(即,我没有使用命令行来启Action业)。执行各种作业的服务jar是使用maven的“jar-with-dependencies”构建的。除了使用commons-codec1.7的作业外,我的所有作业都运行良好,我得到:FATALorg.apache.hadoop.mapred.Child:Errorrunningchild:java.lang.NoSuchMethodError:org.apache.commons.codec.binary.Base64.encodeAsString([B)Ljava/lan