Hdfs

hadoop - 在 hive 表下看不到 HDFS 文件中的数据

我必须从oracle表中的数据创建一个配置单元表。我正在做一个sqoop，从而将oracle数据转换为HDFS文件。然后我在HDFS文件上创建一个配置单元表。sqoop成功完成，文件也在HDFS目标目录中生成。然后我在配置单元中运行创建表脚本。表被创建。但它是一个空表，hive表中没有看到任何数据。有人遇到过类似的问题吗？最佳答案 Hive默认分隔符是ctrlA，如果你没有指定任何分隔符，它将采用默认分隔符。在您的配置单元脚本中添加以下行。以'\t'结尾的行格式分隔字段关于hadoo

hadoop HDFS section 配置单中运 hive sqoop hadoop-partitioning

Hadoop Basic - 创建目录时出错

我最近开始学习hadoop，但在创建新文件夹时出现以下错误-vm4learning@vm4learning:~/Installations/hadoop-1.2.1/bin$./hadoopfs-mkdirhelloworldWarning:$HADOOP_HOMEisdeprecated.15/06/1419:46:35INFOipc.Client:Retryingconnecttoserver:localhost/127.0.0.1:9000.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(

时出 Hadoop server NameNode hdfs

hadoop - 使用 Pig/Python 检查 HDFS avro 格式的字段是否存在

我在HDFS中有一组以Avro格式存储的文件。其中一些有一个名为id:int的列，如下所示{"type":"record","name":"metric","fields":[{"name":"timestamp","type":"long"},{"name":"id","type":"long"},{"name":"metric","type":"string"},{"name":"value","type":"double"}]}我需要标记具有“id”列的文件(输出文件名)。有没有办法在Python中使用Pig/PythonUDF/Pig流或嵌入式Pig来完成它。我已经将Pytho

hadoop Python 34 avro apache-pig hadoop-streaming

文件缓存选项

我需要开发一个中间层应用程序以从HDFS存储库中获取请求的文件。这很容易。但是，我正在考虑一种方法，如何缓存那些请求的文件以供进一步请求，以防止从HDFS一次又一次地查询该文件。为此，我应该使用什么最佳缓存选项？请注意，这些文件非常大。(接近GB) 最佳答案 HDFS支持缓存，更多信息here.不确定在哪个版本中引入了此功能。关于文件缓存选项，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/ques

文件缓存文件 section hadoop stackoverflow caching hdfs hadoop-streaming

apache - Hadoop 文件系统复制 - 名称节点与数据节点

我需要将一个文件从我的文件系统复制到HDFS，下面是我在hdfs-site.xml中的配置。我应该如何使用“hadoopfs”命令将/home/text.txt中的文件复制到HDFS中？我应该将它复制到名称节点还是数据节点？dfs.replication1dfs.namenode.name.dirfile:/usr/local/hadoop_store/hdfs/namenodedfs.datanode.data.dirfile:/usr/local/hadoop_store/hdfs/datanode 最佳答案您使用的是什么版本

apache Hadoop section code gt filesystems hdfs

java - Hadoop HDFS 部署

我试图了解HDFS和variousotherconstituents之间的关系一个典型的Hadoop集群。HDFS是只应该在NameNodes和DataNodes上运行，还是在每个节点类型(MasterNode、SlaveNodes、ZooKeeperNode等)？最佳答案读写过程可以引用Hadoop-ThedefinitveGuidebook中的read/write过程。并非所有数据都存储在每个节点上。很少有概念可以经常监视流程并相应地进行交互。请重新审视您的理论概念。快乐学习关

Hadoop java section code hdfs

java - Hadoop如何在 "real-time"针对非陈旧数据运行？

我对Hadoop及其“数据摄取”工具(例如Flume或Sqoop)的极度初级理解是，Hadoop必须始终针对数据运行其MR作业存储在其HDFS上的结构化文件中。而且，这些工具(同样是Flume、Sqoop等)基本上负责将数据从不同的系统(RDBMS、NoSQL等)导入HDFS。对我来说，这意味着Hadoop将始终在“陈旧”(缺少更好的词)数据(分钟/小时/等)上运行。老的。因为，将大数据从这些不同的系统导入到HDFS需要时间。当MR甚至可以运行时，数据已经过时并且可能不再相关。假设我们有一个应用程序，它具有在发生某事后500毫秒内做出决定的实时限制。假设我们有大量数据流正在导入HDFS

何在 amp section https java hadoop hdfs real-time sqoop

java - 真正的大数据如何在数据科学家老死之前导入HDFS？

我是Hadoop的新手并且相信我开始看到数据分析(“离线”)与超低延迟的网络应用程序世界有多少不同.我仍在努力理解的一件重要事情是，真正的“大数据”最初是如何进入HDFS的。假设我在各种系统(RDBMS、NoSQL、日志数据等)中存储了500TB的数据。我的理解是，如果我想编写MR作业来查询和分析这些数据，我需要先将其全部导入/摄取到HDFS。但即使我在每个不同的系统和我的Hadoop集群之间有一个1Gbps的网络连接，这也是500TB=500*1000Gb=500,000GB的数据，在1Gbps下，是500,000秒或~138小时将所有数据移植到我的HDFS集群上。差不多一周了。而且

大数老死 section 的 java hadoop hdfs bigdata

hadoop - Hadoop中的HBASE和HDFS有什么区别？

实际区别是什么，当需要存储数据时应该何时使用另一个？最佳答案请阅读此post一个很好的解释。但一般来说，HBASE运行在HDFS之上。HDFS是一个分布式文件系统，就像任何其他文件系统(Unix/Windows)一样，而HBASE就像一个数据库，它像任何其他数据库(MySQL、MSSQL)一样从该文件系统读取和写入。关于hadoop-Hadoop中的HBASE和HDFS有什么区别？，我们在StackOverflow上找到一个类似的问题： https://

hadoop section stackoverflow HBASE

hadoop - Hadoop 中的内部存储

我是Hadoop新手，对它的内部存储有疑问。据我所知，HDFS中的所有内容都存储为键/值对。现在，在Yarn的帮助下，出现了不同的技术来从RDMBS(使用Sqoop)导入不同类型的数据，如流和数据。这些类型的数据如何存储在HDFS内部？例如，关系表的行是否以某种方式转换为键/值对？即使使用Hive和Hcatalog，您也可以创建表并向其中加载数据。所有这些都是如何在hadoop内部完成的？提前致谢最佳答案我认为数据不会作为键/值存储在HDFS上。它的存储方式与普通文件一样，以非结构化格式存储。但是，当您运行MapReduce作业

hadoop section 的如流 relational-database hdfs sqoop

5 6 789 10 11