Hdfs

java - 使用 spring xd 在 Hadoop 中加载数据

我正在尝试在HTTP源和HDFS接收器之间创建一个流。我的springXD和HDFS安装在不同的机器上**，但我能够成功触发hadoopfsls/命令。创建和部署流后，当我使用以下方式发布数据时:httppost--targethttp://{ipaddressofhdfsmachine:8020}--data"hello"它抛出错误:failedtosenddatatohttpendpointhttp://{ipaddressofhdfsmachine:8020}当我使用带有端口9000的localhost时，它成功完成但没有显示在hdfs中。是否必须在同一台机器上安装hdfs和sp

中加 Hadoop code test section java spring hdfs spring-xd

csv - 如何使用 Flume 将一组 csv 文件从我的本地目录复制到 HDFS

如何使用Flume将一组csv文件从我的本地目录复制到HDFS？我尝试使用假脱机目录作为我的来源，但未能复制。然后我使用以下水槽配置来获得我的结果:agent1.sources=tailagent1.channels=MemoryChannel-2agent1.sinks=HDFSagent1.sources.tail.type=execagent1.sources.tail.command=tail-F/home/cloudera/runs/*agent1.sources.tail.channels=MemoryChannel-2agent1.sinks.HDFS.channel=M

csv Flume agent agent_slave slave hadoop flume-ng

hadoop - hadoop dfs 使用什么算法在节点上存储数据？或者它随机选择节点？

hdfs是如何确定哪个数据block存储在哪个节点上的？数据block选择数据节点一定有算法，我想了解一下。最佳答案 HDFS副本放置是机架感知的。也就是说，它将尝试将副本放置在不同的机架上以提供更好的可靠性。还有让HDFS运行在多层存储和运行在虚拟化中的工作，这些也会影响放置算法您可以在Hadooparchitectureguide中阅读当前副本放置策略关于hadoop-hadoopdfs使用什么算法在节点上存储数据？或者它随机选择节点？，我们在StackOverflow上找到一个

hadoop dfs section stackoverflow hdfs

hadoop - 如何验证存储在Hadoop中的数据？

有什么框架或库可以用来验证元组吗？这些验证应根据配置的验证规则测试类型、长度、可空性等。根据验证结果，这将生成验证文件索引失败的元组，并提供失败原因的详细信息。最佳答案 jumbune的数据验证模块将允许您这样做。它可以检查hdfs数据是否存在正则表达式、空值和数据类型冲突。只需在用户机器上部署jumbune，在namenode上运行一个小jar，启动jumbune并在hdfsvalidation选项卡上提供详细信息，详细信息，如元组分隔符、字段分隔符、要执行的验证的数目和类型。结果将包含冲突总数、文件名和行号以及冲突的确切细节。

hadoop section jumbune 行号 hdfs validation

eclipse - 连接到 Eclipse 中的 Hortonworks VM 以进行 MapReduce 作业的 ConnectTimeoutException？

我正在尝试在Eclipse中运行MapReduce作业。我正在尝试连接到HortonworksVM并读取HDFS中的文件之一。这是HDFS中文件的显示:我正在使用以下代码访问该文件:FileInputFormat.setInputPaths(conf,newPath("hdfs://127.0.0.1:8020/user/hue/smallClaimData.txt"));我非常有信心这个路径是正确的，因为我第一次尝试运行它时出现错误:“文件不存在”。我添加了用户文件夹名称(我第一次省略了)并且错误消失了。因此，我假设我在HDFS中正确引用了这个文件但是，当我运行mapreduce作业

ConnectTimeoutException Hortonworks hadoop apache java eclipse mapreduce hdfs hortonworks-data-platform

shell - Oozie 电子邮件操作附件

我正在尝试获取一个hdfs位置并将其作为电子邮件附件提供给oozie电子邮件操作。我的hdfs位置只能使用shell操作找到。现在我如何传递我的shell操作的输出，这将是我的oozie电子邮件操作的hdfs路径。这可以使用oozie实现吗？...[COMMA-SEPARATED-TO-ADDRESSES][SUBJECT][BODY][CONTENT-TYPE]**[COMMA-SEPARATED-HDFS-FILE-PATHS]**... 最佳答案查看我的评论，但对于检查此问题的其他人，答案是:捕获shell操作的输出并将其作

shell Oozie section gt lt hadoop hdfs oozie-coordinator

java - Hadoop 将多个部分文件组合成单个文件

目前我有part-00001part-00002我知道使用hdfs-getmerge是将这些文件合并为一个文件的最佳方式。但是，是否可以以编程方式做到这一点？我试过使用MultipleOutput，但它不起作用。我也尝试编写自己的CustomOutputFormat但是由于在将它并行写入文件时有多个reducer，它会出现org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException关闭数据输出流时出错。最佳答案您始终可以使用FileSystemclass从你的java代

个部分文 code section apache java hadoop mapreduce hdfs

hadoop - 我的 hdfs 总是向许多损坏的 block 报告

我有一个运行hdfs(hadoop2.6.0)的集群，但它的名称节点向我报告了一个关于丢失block的错误:Thereare102missingblocks.Thefollowingfilesmaybecorrupted:当我跳转到名称节点并读取登录(名称节点文件日志)时，我收到许多警告，例如:ErrorreportfromDatanodeRegistration(10.3.24.71,datanodeUuid=b1aa43eb-bd9c-4e1a-b919-d7c99ad0fcdf,infoPort=50075,ipcPort=50020,storageInfo=lv=-56;cid

许多 hadoop section strong block hdfs bigdata

java - 由于 ClosedChannelException (DFSOutputStream.checkClosed) 而导致的 Spark 作业失败

我有一个spark应用程序。我使用saveAsNewAPIHadoopDataset在hdfs上存储一个rdd，利用AvroKeyOutputFormat。对于大型RDD，有时我会收到太多ClosedChannelException，以至于应用程序最终中止。我在某处读到设置hadoopConf.set("fs.hdfs.impl.disable.cache","false");有帮助。以下是我如何保存我的rdd:hadoopConf.set("fs.hdfs.impl.disable.cache","false");finalJobjob=Job.getInstance(hadoopC

ClosedChannelException DFSOutputStream apache java DataFileWriter hadoop apache-spark hdfs avro

hadoop - Flink 在 YARN : Amazon S3 wrongly used instead of HDFS 上

我关注了FlinkonYARN'ssetupdocumentation.但是，当我使用./bin/yarn-session.sh-n2-jm1024-tm2048运行时，在向Kerberos进行身份验证时，出现以下错误:2016-06-1617:46:47,760WARNorg.apache.hadoop.util.NativeCodeLoader-Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable2016-06-1617:46:48,518INFOorg.a

wrongly instead java apache FileSystem hadoop amazon-s3 hadoop-yarn apache-flink flink-cep

49 50 515253 54 55