草庐IT

java - 使用 spring xd 在 Hadoop 中加载数据

我正在尝试在HTTP源和HDFS接收器之间创建一个流。我的springXD和HDFS安装在不同的机器上**,但我能够成功触发hadoopfsls/命令。创建和部署流后,当我使用以下方式发布数据时:httppost--targethttp://{ipaddressofhdfsmachine:8020}--data"hello"它抛出错误:failedtosenddatatohttpendpointhttp://{ipaddressofhdfsmachine:8020}当我使用带有端口9000的localhost时,它成功完成但没有显示在hdfs中。是否必须在同一台机器上安装hdfs和sp

csv - 如何使用 Flume 将一组 csv 文件从我的本地目录复制到 HDFS

如何使用Flume将一组csv文件从我的本地目录复制到HDFS?我尝试使用假脱机目录作为我的来源,但未能复制。然后我使用以下水槽配置来获得我的结果:agent1.sources=tailagent1.channels=MemoryChannel-2agent1.sinks=HDFSagent1.sources.tail.type=execagent1.sources.tail.command=tail-F/home/cloudera/runs/*agent1.sources.tail.channels=MemoryChannel-2agent1.sinks.HDFS.channel=M

hadoop - hadoop dfs 使用什么算法在节点上存储数据?或者它随机选择节点?

hdfs是如何确定哪个数据block存储在哪个节点上的?数据block选择数据节点一定有算法,我想了解一下。 最佳答案 HDFS副本放置是机架感知的。也就是说,它将尝试将副本放置在不同的机架上以提供更好的可靠性。还有让HDFS运行在多层存储和运行在虚拟化中的工作,这些也会影响放置算法您可以在Hadooparchitectureguide中阅读当前副本放置策略 关于hadoop-hadoopdfs使用什么算法在节点上存储数据?或者它随机选择节点?,我们在StackOverflow上找到一个

hadoop - 如何验证存储在Hadoop中的数据?

有什么框架或库可以用来验证元组吗?这些验证应根据配置的验证规则测试类型、长度、可空性等。根据验证结果,这将生成验证文件索引失败的元组,并提供失败原因的详细信息。 最佳答案 jumbune的数据验证模块将允许您这样做。它可以检查hdfs数据是否存在正则表达式、空值和数据类型冲突。只需在用户机器上部署jumbune,在namenode上运行一个小jar,启动jumbune并在hdfsvalidation选项卡上提供详细信息,详细信息,如元组分隔符、字段分隔符、要执行的验证的数目和类型。结果将包含冲突总数、文件名和行号以及冲突的确切细节。

eclipse - 连接到 Eclipse 中的 Hortonworks VM 以进行 MapReduce 作业的 ConnectTimeoutException?

我正在尝试在Eclipse中运行MapReduce作业。我正在尝试连接到HortonworksVM并读取HDFS中的文件之一。这是HDFS中文件的显示:我正在使用以下代码访问该文件:FileInputFormat.setInputPaths(conf,newPath("hdfs://127.0.0.1:8020/user/hue/smallClaimData.txt"));我非常有信心这个路径是正确的,因为我第一次尝试运行它时出现错误:“文件不存在”。我添加了用户文件夹名称(我第一次省略了)并且错误消失了。因此,我假设我在HDFS中正确引用了这个文件但是,当我运行mapreduce作业

shell - Oozie 电子邮件操作附件

我正在尝试获取一个hdfs位置并将其作为电子邮件附件提供给oozie电子邮件操作。我的hdfs位置只能使用shell操作找到。现在我如何传递我的shell操作的输出,这将是我的oozie电子邮件操作的hdfs路径。这可以使用oozie实现吗?...[COMMA-SEPARATED-TO-ADDRESSES][SUBJECT][BODY][CONTENT-TYPE]**[COMMA-SEPARATED-HDFS-FILE-PATHS]**... 最佳答案 查看我的评论,但对于检查此问题的其他人,答案是:捕获shell操作的输出并将其作

java - Hadoop 将多个部分文件组合成单个文件

目前我有part-00001part-00002我知道使用hdfs-getmerge是将这些文件合并为一个文件的最佳方式。但是,是否可以以编程方式做到这一点?我试过使用MultipleOutput,但它不起作用。我也尝试编写自己的CustomOutputFormat但是由于在将它并行写入文件时有多个reducer,它会出现org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException关闭数据输出流时出错。 最佳答案 您始终可以使用FileSystemclass从你的java代

hadoop - 我的 hdfs 总是向许多损坏的 block 报告

我有一个运行hdfs(hadoop2.6.0)的集群,但它的名称节点向我报告了一个关于丢失block的错误:Thereare102missingblocks.Thefollowingfilesmaybecorrupted:当我跳转到名称节点并读取登录(名称节点文件日志)时,我收到许多警告,例如:ErrorreportfromDatanodeRegistration(10.3.24.71,datanodeUuid=b1aa43eb-bd9c-4e1a-b919-d7c99ad0fcdf,infoPort=50075,ipcPort=50020,storageInfo=lv=-56;cid

java - 由于 ClosedChannelException (DFSOutputStream.checkClosed) 而导致的 Spark 作业失败

我有一个spark应用程序。我使用saveAsNewAPIHadoopDataset在hdfs上存储一个rdd,利用AvroKeyOutputFormat。对于大型RDD,有时我会收到太多ClosedChannelException,以至于应用程序最终中止。我在某处读到设置hadoopConf.set("fs.hdfs.impl.disable.cache","false");有帮助。以下是我如何保存我的rdd:hadoopConf.set("fs.hdfs.impl.disable.cache","false");finalJobjob=Job.getInstance(hadoopC

hadoop - Flink 在 YARN : Amazon S3 wrongly used instead of HDFS 上

我关注了FlinkonYARN'ssetupdocumentation.但是,当我使用./bin/yarn-session.sh-n2-jm1024-tm2048运行时,在向Kerberos进行身份验证时,出现以下错误:2016-06-1617:46:47,760WARNorg.apache.hadoop.util.NativeCodeLoader-Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable2016-06-1617:46:48,518INFOorg.a