hdfs-audit

file - 我可以在 hdfs (hadoop) 中复制数据吗

我是hadoop的新手(v2.6.0)我在我的论文中使用hadoop(Linux)中的遗传算法。我的问题:1:我想在所有从机的hdfs位置复制文件输入(文本)(不分区文件)例如，我有一个文件(200Mb)，我想将所有文件发送给从属设备。(从属设备1为200，从属设备2为200...等等)这可能吗？如果可能的话，这样做的关键是什么？2:第二个问题:我有2个slaves和1个master...当我启动时，我的程序是否默认在所有slaves中执行？或者hadoop决定哪个slave将执行程序？如果hadoop决定我如何让我的程序在所有slaves中无一异常(exception)地可执行？我希

hadoop - 递归查找 HDFS 文件夹中的最大文件或子目录

我想递归地查找HDFS文件夹中的最大文件或子目录。有没有什么命令或者脚本可以引用？提前致谢，林最佳答案试试这个shell脚本，如果你想找到最大大小的文件:h1out="/path/to/out/file/hadoop-ls-out.txt"a1out="/path/to/out/file/hadoop-awk-out.txt"h1="`hadoopfs-lsr/usr>$h1out`"a1="`awk'{print$5,$8}'$h1out>$a1out`"a2="`awk'BEGIN{first=1;}{if(first){m

子目子目录 strong code out hadoop hdfs

hadoop - 尝试从 hdfs 输出中读取 hadoop

这是我的程序，我想从我的hdfs中读取它，它是我使用mapreduce程序创建的，但它不显示任何输出。没有任何编译时和运行时错误。importjava.io.BufferedReader;importjava.io.InputStreamReader;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;publicclassCat{publicstaticvoidmain(String[]args)throwsEx

hadoop hdfs section import mapreduce

hadoop - HDFS 复制因子 - 最小化数据丢失风险

编辑-长话短说:在写入HDFS被认为成功之前，所有副本节点是否必须存储文件(其所有block)？如果是这样，复制因子是否会影响写入延迟？原始问题:在Hadoop2中，我可以通过将dfs.replication属性设置为大于1的值来控制数据block副本的数量(默认值并不总是3in一些hadoop发行版，如EMR)。据我了解，HDFS的行为是同步写入第一个副本，而其他副本则通过管道传输，并且复制以异步方式进行。这个对吗？如果上述情况成立，那么如果第一个节点向namenode发送ack然后在能够完成异步复制之前被陨石击中，则始终存在数据丢失的风险。有没有办法保证至少有X个节点在写入bloc

最小化 hadoop block the strong mapreduce hdfs replication

hadoop - 在 hive 表下看不到 HDFS 文件中的数据

我必须从oracle表中的数据创建一个配置单元表。我正在做一个sqoop，从而将oracle数据转换为HDFS文件。然后我在HDFS文件上创建一个配置单元表。sqoop成功完成，文件也在HDFS目标目录中生成。然后我在配置单元中运行创建表脚本。表被创建。但它是一个空表，hive表中没有看到任何数据。有人遇到过类似的问题吗？最佳答案 Hive默认分隔符是ctrlA，如果你没有指定任何分隔符，它将采用默认分隔符。在您的配置单元脚本中添加以下行。以'\t'结尾的行格式分隔字段关于hadoo

hadoop HDFS section 配置单中运 hive sqoop hadoop-partitioning

hadoop - 使用 Pig/Python 检查 HDFS avro 格式的字段是否存在

我在HDFS中有一组以Avro格式存储的文件。其中一些有一个名为id:int的列，如下所示{"type":"record","name":"metric","fields":[{"name":"timestamp","type":"long"},{"name":"id","type":"long"},{"name":"metric","type":"string"},{"name":"value","type":"double"}]}我需要标记具有“id”列的文件(输出文件名)。有没有办法在Python中使用Pig/PythonUDF/Pig流或嵌入式Pig来完成它。我已经将Pytho

hadoop Python 34 avro apache-pig hadoop-streaming

java - Hadoop HDFS 部署

我试图了解HDFS和variousotherconstituents之间的关系一个典型的Hadoop集群。HDFS是只应该在NameNodes和DataNodes上运行，还是在每个节点类型(MasterNode、SlaveNodes、ZooKeeperNode等)？最佳答案读写过程可以引用Hadoop-ThedefinitveGuidebook中的read/write过程。并非所有数据都存储在每个节点上。很少有概念可以经常监视流程并相应地进行交互。请重新审视您的理论概念。快乐学习关

Hadoop java section code hdfs

java - 真正的大数据如何在数据科学家老死之前导入HDFS？

我是Hadoop的新手并且相信我开始看到数据分析(“离线”)与超低延迟的网络应用程序世界有多少不同.我仍在努力理解的一件重要事情是，真正的“大数据”最初是如何进入HDFS的。假设我在各种系统(RDBMS、NoSQL、日志数据等)中存储了500TB的数据。我的理解是，如果我想编写MR作业来查询和分析这些数据，我需要先将其全部导入/摄取到HDFS。但即使我在每个不同的系统和我的Hadoop集群之间有一个1Gbps的网络连接，这也是500TB=500*1000Gb=500,000GB的数据，在1Gbps下，是500,000秒或~138小时将所有数据移植到我的HDFS集群上。差不多一周了。而且

大数老死 section 的 java hadoop hdfs bigdata

hadoop - Hadoop中的HBASE和HDFS有什么区别？

实际区别是什么，当需要存储数据时应该何时使用另一个？最佳答案请阅读此post一个很好的解释。但一般来说，HBASE运行在HDFS之上。HDFS是一个分布式文件系统，就像任何其他文件系统(Unix/Windows)一样，而HBASE就像一个数据库，它像任何其他数据库(MySQL、MSSQL)一样从该文件系统读取和写入。关于hadoop-Hadoop中的HBASE和HDFS有什么区别？，我们在StackOverflow上找到一个类似的问题： https://

hadoop section stackoverflow HBASE

hadoop - 是否可以将一个 oozie 操作的输出用于其他操作而无需从 hdfs 保存和加载？子工作流选项在这方面有用吗？

我必须编写一个运行多个pig操作的oozie工作流。这些pig操作可能相互依赖。我的意思是一个pig脚本的输出将对其他脚本有用。我想避免从hdfs进行多次保存和加载。这是如何实现的？我可以使用TEZDAG将DAG结构中的所有pig脚本组合起来，并从Oozie运行一个JavaAction吗？最佳答案在oozie中，你不能将一个节点的输出传递到另一个节点(不存储在HDFS中)。您可以实现PigServer(pigjavaAPI)来执行多个pig脚本。在一个使用pigserver的java程序中，它总是很容易满足您的要求。

这方这方面 section pig 合起 hadoop bigdata oozie apache-tez

4 5 678 9 10