Hdfs

hadoop - 当客户端关闭连接时，Hadoop 如何处理未复制的数据？

我正在运行Hadoop2.5.0-cdh5.3.2集群。Flume正在别处运行，正在向这个集群写入数据。当集群负载较重时，flume-agent完成写入并尝试在HDFS完成数据复制之前关闭文件。关闭失败并重试，但flume-agent配置了超时，当关闭无法及时完成时，flume-agent断开连接。HDFS对没有完成复制的文件做了什么？我的印象是后台线程会完成复制，但我在我的集群中只看到部分写入的block。该block有一个好的副本，并且副本仅部分写入，因此HDFS认为该block已损坏。我已经通读了recoveryprocess没想到我会留下未写的block。我有以下客户端设置

何处 hadoop block section replace-datanode-on-failure hdfs flume

hadoop - 如果我们使用Sqoop从MySql导入数据到HDFS，HDFS存储的文件格式是什么？

如果我们使用Sqoop从MySql导入数据到HDFS，HDFS存储的文件格式是什么最佳答案 Sqoop已将您的数据导入为逗号分隔的文本文件。它支持许多其他文件格式，可以使用下面列出的参数激活控制导入命令文件格式的mSqoop参数参数--as-avrodatafileDataisimportedasAvrofiles.--as-sequencefileDataisimportedasSequenceFiles.--as-textfileThedefaultfileformat,withimporteddataasCSVtextfil

HDFS hadoop section imported

hadoop - 由于找不到方法错误，在 Hbase 中上传 HFiles 失败

我正在尝试使用bulkload将Hfile上传到Hbase。这样做时我遇到了找不到方法的错误。在下面提供日志和命令。命令hadoopjar/usr/lib/hbase/lib/hbase-server-0.98.11-hadoop2.jarcompletebulkload/outputNBAFinal2010其中output是Hfiles输出文件夹，NBAFinal2010是Hbase中的表。日志:-15/05/0513:20:12ERRORmapreduce.LoadIncrementalHFiles:Unexpectedexecutionexceptionduringbulkloa

中上 hadoop section hbase mapreduce hdfs

security - 在 HDFS 中创建一次写入文件

我有一个正在努力解决的要求。我的目标是创建一个在后台自动捕获的用户进程和命令的历史文件，创建一个实时存档到Hadoop的历史文件。日志系统连接终止后，用户不应编辑或删除该文件。我当前的结构将我的日志系统通过管道传输到hadoopfs-put-命令。问题是创建的文件归用户所有，使他们能够删除该文件。有没有办法让目录级别的执行权限覆盖HDFS中的用户所有权权限？还有另一种方法可以解决这个问题吗？最佳答案我不确定，您是在寻找hdfs-chmod还是-chown命令？关于security-

建一中创 section 历史文件该文 security hadoop hdfs

java - 如何使用 hue 界面将 Java Action 作为 oozie 工作流运行

我创建了一个接受args[0]=Hadoop的javamain方法的测试可执行jar。java程序接受这个参数并在文本文件中写入以下字符串；“currentTimeStamp/t欢迎使用Hadoop!/n”100,000次。我使用hue界面为java操作创建了一个oozie-workflow。请参阅下面的workflow.xml。然而，oozie-workflow执行成功，但操作不会创建或写入文本文件。文本文件路径为/user/ruben123/test.txt。当我使用命令java-jarTestRunner.jar"Hadoop"在本地unix服务器中运行jar文件时，它会正确执行

Action oozie gt lt section java hadoop hdfs hue

hadoop - 无法在 WebHdfs 中创建目录或文件

HortonworksSandbox文件浏览器显示WebHdfsException，并且在CLI中我无法创建目录或文件。怎么了？WebHdfsExceptionat/filebrowser/RequestMethod:GETRequestURL:http://127.0.0.1:8000/filebrowser/DjangoVersion:1.2.3ExceptionType:WebHdfsExceptionExceptionValue:异常位置:/usr/lib/hue/desktop/libs/hadoop/src/hadoop/fs/webhdfs.pyin_stats,line

WebHdfs hadoop lib site-packages 39 hdfs hortonworks-data-platform

hadoop - Jcascalog 查询 HDFS 上的 thrift 数据

我读了NathanMarz关于lambda架构的书。实际上，我正在对这个解决方案进行概念验证。我在构建Jcascalog查询时遇到困难。这是我们感兴趣的节俭模式的一部分:unionArticlePropertyValue{1:decimalquantity,2:stringname;}unionArticleID{1:intid;}structArticleProperty{1:requiredArticleIDid;2:requiredArticlePropertyValueproperty;}unionDataUnit{1:TicketPropertyticket_property

Jcascalog hadoop 34 predicate section hdfs thrift cascalog lambda-architecture

hadoop - 为什么我们在hadoop中使用分布式缓存？

无论如何，mapreduce框架中有很多跨节点的文件传输。那么分布式缓存的使用是如何提高性能的。最佳答案 DistributedCache是Map-Reduce框架提供的一种设施，用于缓存应用程序所需的文件。一旦你为你的工作缓存了一个文件，hadoop框架将使它在你运行映射/reducetask的每个数据节点(在文件系统中，而不是在内存中)上可用。文件通过网络传输，通常通过HDFS。与将HDFS用于任何非数据本地任务相比，它不会对网络造成更多压力。关于hadoop-为什么我们在had

hadoop 为什么 section stackoverflow mapreduce hdfs reduce distributed-cache

java - Mapreduce 程序无法读取输入文件

我在hdfs上的这个位置有一个小的csv文件:"hdfs://csehadoop/user/department.csv"。我在我的mapreduce程序中使用以下代码来读取文件的内容并将其存储在hashmap中。brReader=newBufferedReader(newFileReader("hdfs://csehadoop/user/department.csv"));while((strLineRead=brReader.readLine())!=null){StringdeptFieldArray[]=strLineRead.split(",");System.out.pri

Mapreduce java code section deptFieldArray hadoop hdfs

hadoop - 将 MS Access 数据 Sqooping 到 HDFS - Hadoop

我有一个用例，我需要将MicrosoftAccess数据导入/Sqoop到hdfs。是否有任何驱动程序可用于MS访问Sqoop数据。有没有人遇到过这样的情况。请留下您的评论和意见。最佳答案看起来不支持访问。Here是sqoop支持的数据库列表。最近的是MicrosoftSQL服务器here.主要要求是连接到数据库的jdbc驱动程序。关于hadoop-将MSAccess数据Sqooping到HDFS-Hadoop，我们在StackOverflow上找到一个类似的问题：

Sqooping hadoop section noreferrer noopener ms-access-2010 hdfs sqoop cloudera-cdh

32 33 343536 37 38