hdfs_rtp

hadoop - hbase 命名空间/表数据存储在 hdfs 上的什么位置？

hbase在哪里存储命名空间/表的数据文件？我找到了这篇文章:HowHbasewriteitsdataandwhere但我需要一个完整的路径位置，只是为了将权限分离到不同的命名空间。在Hive中，文件位于hive_warehouse_path/database/table/partition中，我正在寻找相同的文件，但在Hbase中。你能帮忙吗？问候帕维尔编辑:顺便说一下，我发现了一个关于HBase文件结构的有趣幻灯片:http://www.slideshare.net/enissoz/hbase-and-hdfs-understanding-filesystem-usage

hadoop - hdfs mv命令如何工作

我想知道hdfs中的mv命令是如何工作的？这是否只是一个象征性的变化，没有任何实际的数据移动？如果moveTo目录存在(可能在diff分区上)如果moveTo是一个新目录在hadoop中移动大文件时是否可能损坏数据？那么cp或distcp哪个更安全？最佳答案当用户调用hdfsdfs-mv时，HDFS保证重命名操作的原子性。运行此命令时，客户端对NameNode进行RPC调用。此RPC的NameNode实现在修改inode树时持有锁，并且仅在重命名完成后释放该锁，无论成功或失败。(它可能会因权限或配额违规等原因而失败。)由于实现完

hadoop hdfs code section filesystems

R+Hadoop : How to read CSV file from HDFS and execute mapreduce?

在下面的例子中:small.ints=to.dfs(1:1000)mapreduce(input=small.ints,map=function(k,v)cbind(v,v^2))mapreduce函数的数据输入是一个名为small.ints的对象，它引用了HDFS中的block。现在我有一个CSV文件已经存储在HDFS中"hdfs://172.16.1.58:8020/tmp/test_short.csv"如何为它获取一个对象？据我所知(这可能是错误的)，如果我想将CSV文件中的数据作为mapreduce的输入，我必须首先在R中生成一个表，其中包含CSV文件中的所有值。我确实有这样的

mapreduce execute section test_short r hadoop rhadoop

Hadoop:HDFS 文件写入和读取

我有一个关于HDFS文件读写的基本问题。例如，如果我正在写一个文件，使用默认配置，Hadoop内部必须将每个block写入3个数据节点。我的理解是，对于每个block，首先客户端将block写入管道中的第一个数据节点，然后通知第二个数据节点，依此类推。一旦第三个数据节点成功接收到block，它会向数据节点2提供确认，最后通过数据节点1向客户端提供确认。只有在收到block的确认后，写入才被视为成功，客户端继续进行写下一个block。如果是这种情况，那么写入每个block所花费的时间是不是比传统的文件写入要多，因为-复制因子(默认为3)和写入过程按block顺序进行。如果我理解有误，请指

Hadoop HDFS section block strong

hadoop - 具有在 HDFS 上查找数据的 Kafka Streams

我正在使用KafkaStreams(v0.10.0.1)编写应用程序，并希望使用查找数据丰富我正在处理的记录。此数据(带时间戳的文件)每天(或每天2-3次)写入HDFS目录。如何在KafkaStreams应用程序中加载它并加入实际的KStream？当新文件到达那里时从HDFS重新读取数据的最佳做法是什么？或者切换到KafkaConnect并将RDBMS表内容写入Kafka主题，所有KafkaStreams应用程序实例都可以使用它会更好吗？更新:正如建议的那样，KafkaConnect将是必经之路。因为查找数据在RDBMS中以每日为基础进行更新，所以我正在考虑按计划运行KafkaConn

Streams hadoop Kafka Connect strong apache-kafka apache-kafka-streams confluent-platform apache-kafka-connect

hadoop - 如何知道一个新数据被添加到 HDFS？

我正在实现一个基于发布订阅模型的通知系统，以在数据到达/加载到HDFS时通知数据的可用性。我没有找到在哪里寻找这个的方法。是否有任何HDFSAPI可用于执行此操作，或者我应该使用什么方法来获取写入HDFS的新数据的信息？我正在使用Hadoopv2.0.2，我不想使用HCatalog，我想实现我自己的工具来执行此操作。最佳答案您正在寻找的是OozieCoordinator。HDFS是一个文件系统，因此必须在HDFS之上构建一些东西来检查文件可用性。HBase有触发过程的协处理器。但它仅适用于HBase表。因此它不能用于检测HDFS

hadoop HDFS section Oozie mapreduce

java - NoSuchMethodError 使用 Builder 将 Avro 对象写入 HDFS

将对象写入HDFS时出现此异常:Exceptioninthread"main"java.lang.NoSuchMethodError:org.apache.avro.Schema$Parser.parse(Ljava/lang/String;[Ljava/lang/String;)Lorg/apache/avro/Schema;atcom.blah.SomeType.(SomeType.java:10)它在生成的代码中引用的行是这样的:publicclassSomeTypeextendsorg.apache.avro.specific.SpecificRecordBaseimpleme

NoSuchMethodError Builder avro apache Schema java scala hadoop hdfs

hadoop - hdfs dfs 命令很慢 - 有没有办法让它更快？

我在Hadoop2.2.0上运行单节点设置。我的理解是hdfsdfs-ls很慢，因为它每次被调用时都会启动一个JVM。有没有办法让它保持JVM运行，以便简单的命令可以更快地完成？最佳答案我想告知您我们为解决此问题所做的解决方案。我们创建了一个新的实用程序-HDFSShell以更快地使用HDFS。https://github.com/avast/hdfs-shellHDFSDFS为每个命令调用启动JVM，HDFSShell只启动一次-这意味着当您需要更频繁地使用HDFS时速度会大大提高可以使用简短的方式使用命令-例如。hdfsdf

hadoop hdfs code section strong

hadoop - 如何将 Kafka 主题加载到 HDFS？

我正在使用hortonworks沙箱。创建主题:./kafka-topics.sh--create--zookeeper10.25.3.207:2181--replication-factor1--partitions1--topiclognew跟踪apache访问日志目录:tail-f/var/log/httpd/access_log|./kafka-console-producer.sh--broker-list10.25.3.207:6667--topiclognew在另一个终端(kafkabin)启动消费者:./kafka-console-consumer.sh--zookee

hadoop Kafka data strong section apache-kafka

java - 用于在 hdfs 中列出目录的主机和端口

首先，我使用HortonWorksSandbox作为Hadoopdist，完全没有自定义配置。一旦连接到沙箱，我就可以列出HDFS目录的文件:[root@sandbox~]#hadoopfs-lshdfs:///user/guest但如果我尝试指定主机和端口，我只会收到错误消息:[root@sandbox~]#hadoopfs-lshdfs://localhost:8020/user/guestls:从sandbox.hortonworks.com/10.0.2.15到localhost:8020的调用在连接异常时失败:java.net.ConnectException:Connexi

java hdfs code sandbox hortonworks hadoop hortonworks-data-platform

52 53 545556 57 58