hdfs

java - Hadoop HDFS PutMerge 不起作用

我尝试在我的计算机上运行PutMergeinHadoopinAction。但它不起作用。我在本地机器上创建了几个文件以下是代码packageorg.apache.hadoop.examples;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FSDataInputStream;importorg.apache.hadoop.fs.FSDataOutputStream;importorg.apache.hadoop.fs.FileStatus;i

hadoop - Apache Shark 0.9.1 无法连接到 HDFS？

在Shark中，当我运行时:CREATEEXTERNALTABLEtest(memberIdSTRING,categorySTRING,messageSTRING,sourceSTRING,event_typeSTRING,log_levelSTRING,pathSTRING,hostSTRING,event_timestampSTRING,eventFieldsMAP)PARTITIONEDBY(datePartSTRING)ROWFORMATSERDE'com.company.eventserde.EventSerde'LOCATION'/user/ubuntu/test';我得到

hadoop Apache STRING code section apache-spark shark-sql

hadoop - HDFS 中的最大文件名大小

我对hdfs中文件名的最大大小和hdfs中文件路径的最大大小(文件结构可以嵌套多深)有疑问。我已经编写了一个Map-Reduce作业，我正在为Reducer在输出中生成的文件生成自定义名称。所以只需要知道文件名的最大大小和目录结构的最大深度，这样我就可以确保在我的代码中不超过最大可能的大小。提前致谢。最佳答案这取决于操作系统下的文件系统。例子:对于extFS(目前Linux上使用最多的):maxfilenamelength:255bytesmaxpathlength:noneFS不知道扩展名，它有255个字节，包括扩展名(你可以

hadoop HDFS section 小和扩展名

file - HDFS 文件何时可见

假设默认的Hadoop设置，如果我将一个128MB大小的文件写入HDFS。客户端需要将2个block写入HDFS。所以我的问题是第一个block写入HDFS后文件是否可供其他人读取，还是必须等待第二个block也写入？第二种情况，文件大小为64MB，2.有人可以读取当前写入HDFS的block吗？或者有人必须等待写入完成。最佳答案 HDFS以block的形式思考。因此，如果您的文件由2个block组成，并且您的一个block已写入，您可以读取该block。但是，由于它只是文件的一个block而不是整个文件，您必须在dfs.data

何时 file block section HDFS hadoop

hadoop - Flume-ng hdfs 安全

我是hadoop和FlumeNG的新手，我需要一些帮助。我不明白hdfs安全性是如何实现的。以下是Flume用户指南中的配置行:#hdfs-Cluster1-sink的属性agent_foo.sinks.hdfs-Cluster1-sink.type=hdfsagent_foo.sinks.hdfs-Cluster1-sink.hdfs.path=hdfs://namenode/flume/webdata这是否意味着任何知道我的hdfs路径的人都可以向我的hdfs写入任何数据？最佳答案这个问题是很久以前的，但我会尝试为任何其他处

Flume-ng hadoop Kerberos hdfs section cloudera flume

hadoop - HDFS 平衡器会强制执行新的机架感知配置吗？

假设我有一个包含多个机架的HDFS集群(v2.0.5)，但它最初没有设置机架感知。已使用默认的3x复制将数据加载到其中。如果我现在将HDFS配置为机架感知，一个block的三个副本很可能位于同一机架上，这不是我想要的。如果我的集群已经平衡，运行HDFS平衡器是否会强制执行block复制策略并适本地随机排列block，即一个机架上有一个block，另一个机架上有两个block？从我读到的内容来看，如果集群是平衡的，它似乎会简单地退出进程。如果没有，我如何强制HDFS将所需的block重新复制到单独的机架？最佳答案如果您更改机架配置

平衡器 hadoop section block hdfs

hadoop - 从 hdfs 加载数据到 hive 结果表中输出 null

我正在尝试使用配置单元序列化和反序列化查询将数据从HDFS加载到配置单元数据仓库中，但从表中检索结果为空输出。谁能帮帮我？hive>createtablestations(usafstring,wbanstring,namestring)>rowformatserde'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'>withSERDEPROPERTIES(>"input.regex"="(\\d{6})(\\d{5})(.{29}).*">);hive>loaddatainpath'/user/cloudera/input-new/n

hadoop hdfs section string code hive

hadoop - 将带有 .tsv 文件的 HDFS 目录映射到 Hive

我将数据以.tsv格式存入HFDS。我需要将它们加载到Hive表中。我需要一些帮助。HDFS中的数据是这样的:/ad_data/raw/reg_logs/utc_date=2014-06-11/utc_hour=03注意:数据每天和每小时加载到HDFS目录/ad_data/raw/reg_logs。此HDFS目录中有3个.tsv文件:funel1.tsvfunel2.tsvfunel3.tsv每个.tsv文件都有3列，由制表符分隔，数据如下:2344-392232344-234432394-43982377-1233......我想创建一个包含3列idint、region_codein

hadoop HDFS code logs reg_logs hive

hadoop - 如何文件监视目录然后自动加载到 HDFS

我对Hadoop非常陌生，在过去的几天里，我一直在努力掌握它。我一直在阅读TomWhite的“Hadoop:权威指南”并浏览HortonWorks上的各种教程。我还在本地VM上设置了一个沙盒来玩。基本上我们将在系统上有一个目录，文件将被转储到该目录。每当一个文件被放置在这个目录中时，它应该被远程移动/复制到我们的HDFS中。这听起来应该是一个常见的用例，但我似乎找不到关于此类事情的太多信息。我简要地研究了Oozie和Falcon，因为它们似乎是工作流工具/管理系统。但我真的找不到能做我想做的事情。我宁愿使用内置于Hadoop或通常配置的东西，然后使用我自己的文件观察器或服务来完成它。我

hadoop HDFS section 的

node.js - 如何从 node.js 中删除 hdfs 文件

我在hdfs中有以下文件hdfs://localhost.localdomain:8020/user/cloudera/direccionbikes.out我在node.js中写了一个进程，我需要删除这个文件。我使用apiwebhdfs。我在这个程序中使用了createReadStream和createWriteStream。但是我不知道如何从node.js中删除这个文件我在哪里可以看到关于这个问题的信息(webhdfs) 最佳答案您可以在此处阅读有关API的信息-https://hadoop.apache.org/docs/r1

node js section webhdfs code node.js hadoop hdfs

195 196 197198199 200 201