草庐IT

hadoop - 在 hive 表下看不到 HDFS 文件中的数据

我必须从oracle表中的数据创建一个配置单元表。我正在做一个sqoop,从而将oracle数据转换为HDFS文件。然后我在HDFS文件上创建一个配置单元表。sqoop成功完成,文件也在HDFS目标目录中生成。然后我在配置单元中运行创建表脚本。表被创建。但它是一个空表,hive表中没有看到任何数据。有人遇到过类似的问题吗? 最佳答案 Hive默认分隔符是ctrlA,如果你没有指定任何分隔符,它将采用默认分隔符。在您的配置单元脚本中添加以下行。以'\t'结尾的行格式分隔字段 关于hadoo

Hadoop Basic - 创建目录时出错

我最近开始学习hadoop,但在创建新文件夹时出现以下错误-vm4learning@vm4learning:~/Installations/hadoop-1.2.1/bin$./hadoopfs-mkdirhelloworldWarning:$HADOOP_HOMEisdeprecated.15/06/1419:46:35INFOipc.Client:Retryingconnecttoserver:localhost/127.0.0.1:9000.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(

hadoop - 使用 Pig/Python 检查 HDFS avro 格式的字段是否存在

我在HDFS中有一组以Avro格式存储的文件。其中一些有一个名为id:int的列,如下所示{"type":"record","name":"metric","fields":[{"name":"timestamp","type":"long"},{"name":"id","type":"long"},{"name":"metric","type":"string"},{"name":"value","type":"double"}]}我需要标记具有“id”列的文件(输出文件名)。有没有办法在Python中使用Pig/PythonUDF/Pig流或嵌入式Pig来完成它。我已经将Pytho

文件缓存选项

我需要开发一个中间层应用程序以从HDFS存储库中获取请求的文件。这很容易。但是,我正在考虑一种方法,如何缓存那些请求的文件以供进一步请求,以防止从HDFS一次又一次地查询该文件。为此,我应该使用什么最佳缓存选项?请注意,这些文件非常大。(接近GB) 最佳答案 HDFS支持缓存,更多信息here.不确定在哪个版本中引入了此功能。 关于文件缓存选项,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/ques

apache - Hadoop 文件系统复制 - 名称节点与数据节点

我需要将一个文件从我的文件系统复制到HDFS,下面是我在hdfs-site.xml中的配置。我应该如何使用“hadoopfs”命令将/home/text.txt中的文件复制到HDFS中?我应该将它复制到名称节点还是数据节点?dfs.replication1dfs.namenode.name.dirfile:/usr/local/hadoop_store/hdfs/namenodedfs.datanode.data.dirfile:/usr/local/hadoop_store/hdfs/datanode 最佳答案 您使用的是什么版本

java - Hadoop HDFS 部署

我试图了解HDFS和variousotherconstituents之间的关系一个典型的Hadoop集群。HDFS是只应该在NameNodes和DataNodes上运行,还是在每个节点类型(MasterNode、SlaveNodes、ZooKeeperNode等)? 最佳答案 读写过程可以引用Hadoop-ThedefinitveGuidebook中的read/write过程。并非所有数据都存储在每个节点上。很少有概念可以经常监视流程并相应地进行交互。请重新审视您的理论概念。快乐学习 关

java - Hadoop如何在 "real-time"针对非陈旧数据运行?

我对Hadoop及其“数据摄取”工具(例如Flume或Sqoop)的极度初级理解是,Hadoop必须始终针对数据运行其MR作业存储在其HDFS上的结构化文件中。而且,这些工具(同样是Flume、Sqoop等)基本上负责将数据从不同的系统(RDBMS、NoSQL等)导入HDFS。对我来说,这意味着Hadoop将始终在“陈旧”(缺少更好的词)数据(分钟/小时/等)上运行。老的。因为,将大数据从这些不同的系统导入到HDFS需要时间。当MR甚至可以运行时,数据已经过时并且可能不再相关。假设我们有一个应用程序,它具有在发生某事后500毫秒内做出决定的实时限制。假设我们有大量数据流正在导入HDFS

java - 真正的大数据如何在数据科学家老死之前导入HDFS?

我是Hadoop的新手并且相信我开始看到数据分析(“离线”)与超低延迟的网络应用程序世界有多少不同.我仍在努力理解的一件重要事情是,真正的“大数据”最初是如何进入HDFS的。假设我在各种系统(RDBMS、NoSQL、日志数据等)中存储了500TB的数据。我的理解是,如果我想编写MR作业来查询和分析这些数据,我需要先将其全部导入/摄取到HDFS。但即使我在每个不同的系统和我的Hadoop集群之间有一个1Gbps的网络连接,这也是500TB=500*1000Gb=500,000GB的数据,在1Gbps下,是500,000秒或~138小时将所有数据移植到我的HDFS集群上。差不多一周了。而且

hadoop - Hadoop中的HBASE和HDFS有什么区别?

实际区别是什么,当需要存储数据时应该何时使用另一个? 最佳答案 请阅读此post一个很好的解释。但一般来说,HBASE运行在HDFS之上。HDFS是一个分布式文件系统,就像任何其他文件系统(Unix/Windows)一样,而HBASE就像一个数据库,它像任何其他数据库(MySQL、MSSQL)一样从该文件系统读取和写入。 关于hadoop-Hadoop中的HBASE和HDFS有什么区别?,我们在StackOverflow上找到一个类似的问题: https://

hadoop - Hadoop 中的内部存储

我是Hadoop新手,对它的内部存储有疑问。据我所知,HDFS中的所有内容都存储为键/值对。现在,在Yarn的帮助下,出现了不同的技术来从RDMBS(使用Sqoop)导入不同类型的数据,如流和数据。这些类型的数据如何存储在HDFS内部?例如,关系表的行是否以某种方式转换为键/值对?即使使用Hive和Hcatalog,您也可以创建表并向其中加载数据。所有这些都是如何在hadoop内部完成的?提前致谢 最佳答案 我认为数据不会作为键/值存储在HDFS上。它的存储方式与普通文件一样,以非结构化格式存储。但是,当您运行MapReduce作业