草庐IT

hadoop-examples

全部标签

hadoop - hadoop 集群所有数据节点上的 Apache DrillBit 服务

我正在使用一个10节点的hadoop集群,如下所示:1-名称节点1-资源管理器8-数据节点我的复制因子设置为3。我打算使用ApacheDrill来查询hadoop数据。是否需要在所有节点上安装drillbit还是我只能在3个节点上安装它?提前致谢。 最佳答案 您可以将其安装在任意数量的节点上。在分布式模式下运行Drill时,确保-Zookeeper在集群上运行编辑drill-override.conf:drill.exec:{cluster-id:"",zk.connect:":,:,:"}所有节点(运行drill的节点)必须具有相

hadoop - hadoop -getmerge 有替代方案吗?

我尝试使用hadoopgetmerge将80GB的文件合并到一个集群中,但由于hadoopgetmerge具有将文件从hdfs复制到本地文件系统的属性,我必须先复制到本地,然后再从本地复制到hdfs,hadoopfs-getmergehdfs:///path_in_hdfs/*./local_pathhadoopfs-copyFromLocal./local_pathhdfs://Destination_hdfs_Path/我的问题是本地数据节点小于80GB,我需要知道是否有-getmerge的替代方法,其中合并直接从HDFS发生到HDFS我也试过hadoop-cat但它不工作..

Hadoop 的 NameNode 和 DataNode Service 没有运行在 single_mode

我在Ubuntu16.04上以单一模式安装了Hadoop2.7.2。但是在启动Hadoop之后,NameNode和DataNodeServices都没有运行。hduser@saber-Studio-1435:/usr/local/hadoop$start-all.shThisscriptisDeprecated.Insteadusestart-dfs.shandstart-yarn.sh16/06/2015:34:56WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuil

hadoop - 是否可以使用 Exiftool 获取 Hdfs 图像/视频文件元数据

exiftoolimage.jpg给我linux上图像文件的元数据。我正在尝试获取HDFS图像文件元数据,例如exiftoolhdfs://10.253.11.10:8020/tmp/user/vid2.avi。但是出现类似Filenotfound:的错误。如何读取HDFS文件的元数据? 最佳答案 你可以使用管道:hdfsdfs-cathdfs://10.253.11.10:8020/tmp/user/vid2.avi|exiftool- 关于hadoop-是否可以使用Exiftool获

hadoop - 将 hdfs 文件复制到 hive 表后复制的文件总数

假设如果我将hdfs中的文件加载到配置单元表中,那么该文件的总副本数是多少。在hdfs中,文件被复制了3次,现在复制到hive表会产生额外的副本,总计是否有6个副本?? 最佳答案 在HDFS中,副本数基于复制因子集。在您的情况下,由于复制因子为3,因此将有三个副本。当您执行sqoop从hdfs导入到hive(到内部表)时,数据仅从hdfs上的一个位置复制到hive中的表。但是Hive数据的复制再次根据您的复制因子进行。总共你将得到3(hdfs)+1(hivecopy)*3=>HDFS上的3个副本和hive存储的数据的3个副本(这不是

java.lang.NoSuchMethodError : org. apache.hadoop.tracing.TraceUtils.wrapHadoopConf 错误

我正在尝试执行此中可用的MapReduce单元测试link我正在运行BasicMRTest.java我的POM.xml是4.0.0cooltooltool1.0.0-SNAPSHOTclouderahttps://repository.cloudera.com/artifactory/cloudera-repos/org.apache.hadoophadoop-mapreduce-client-core2.7.2jarprovidedorg.apache.hadoophadoop-common2.7.2org.apache.hadoophadoop-test2.6.0-mr1-cdh5

hadoop - 可用于创建数据管道的不同工具

我需要在hadoop中创建数据管道。我有数据导入、导出、清理数据设置的脚本,现在需要在管道中进行设置。我一直在使用Oozie进行数据导入和导出计划,但现在还需要集成R脚本来进行数据清理过程。我看到falcon也用于相同的目的。如何在cloudera中安装falcon?还有哪些其他工具可用于在hadoop中创建数据管道? 最佳答案 2)我很想回答Hortonworks的nifi,因为这个postonlinkedin它已经成长了很多,并且非常接近于取代oozie。当我写这个答案时,oozie和nifi之间的区别在于它们运行的​​地方:外

hadoop - 将日期 '11/2/2014' (mm/d/yyyy) 转换为配置单元中的时间戳

我想使用Hive将日期“11/2/2014”转换为时间戳。此日期为字符串格式。我尝试了很多方法,但我得到的是NULL值。 最佳答案 这是语法:CAST(FROM_UNIXTIME(UNIX_TIMESTAMP(,'MM/dd/yyyy'))asTIMESTAMP)您总是需要转到unix_timestamp,然后从unix时间戳转换为普通时间戳。它看起来不太好,但它确实有效。只是检查一下,可能是您的语法正确但格式错误。也许您的格式是dd/MM/yyyy?这就是为什么你应该让我们尝试让它下次工作的原因。

hadoop - Hive外部表能否智能识别分区?

每当我需要挂载分区时,我都需要运行它。有没有一种方法可以自动检测外部配置单元表中的分区,而不是我手动执行它ALTERTABLETableNameADDIFNOTEXISTSPARTITION()location'locationpath'; 最佳答案 恢复分区(MSCK修复表)https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-RecoverPartitions(MSCKREPAIRTABLE)MSCKREPAIR

hadoop - pig 是否支持 NOT IN 子句?

我在PIG中使用了In子句作为emp=FILTERemployee_tableBYemployee_idIN('873','809','819','829');现在我需要使用NOTIN子句no_emp=FILTERemployee_tableBYemployee_idNOTIN('873','809','819','829');产生错误为2016-08-2913:22:46,165[main]ERRORorg.apache.pig.tools.grunt.Grunt-ERROR1200:Syntaxerror,unexpectedsymbolatornear'NOT'有没有其他方法可以