四元数

hadoop - 在 HDFS 中写入元数据

我们正在使用nutch来抓取我们的内部网站。我们在索引阶段提取xml文件中的元数据(我们修改了indexer.java的代码)，当以本地模式运行时，它为我们提供了所需的元数据。现在，我们想到了在集群模式下使用nutch(使用hadoop)，当我们在集群中爬取nutch时，我们能够获得索引但不能获得我们以前使用的元数据，我们使用的是本地模式(java的IO类将元数据写入文件)。对于hadoop，我们将其更改为hadoop文件系统io类。然而我们无法获得元数据。是否有任何解决方案，或者我们是否遗漏了什么？提前致谢，地理位置最佳答案 W

hadoop HDFS section 的 nutch indexer

apache - Hbase 元数据错误 "tables no found"

我在hbase(hdfs)表中有一些数据，我将其复制到我的本地文件系统。然后在我的第二台机器上，我使用copyFromLocalhadoop命令将数据从本地复制到hdfs。现在，当我在hbase中(在第二台机器上)运行命令“list”时。显示没有表。我将表复制到hdfs中的一个目录中，该目录是hbase的数据目录，因此该表应该出现在hbase中。问题出在哪里？在两台机器上，hbase和hadoop的版本相同。如何将hbase表从一个集群复制到第二个集群？最佳答案已经有一些工具可用于管理此类任务(全部记录在此处:http://hb

amp apache hbase org hadoop hdfs

hadoop - 默认情况下，HIVE 元数据存储在哪里？

我使用以下方法在Hive中创建了一个外部表:createexternaltablehpd_txt(WbanNumINT,YearMonthDayINT,TimeINT,HourlyPrecipINT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','LINESTERMINATEDBY'\n'storedastextfilelocation'hdfs://localhost:9000/user/hive/external';现在该表已在位置*/hive/external中创建。第1步:我使用以下方法在此表中加载数据:loaddatainpath'/input/

hadoop HIVE code external section hdfs

hadoop - 如何强制配置单元数据类型

假设我有一个具有以下架构的表“A”:field1Decimalfield2Decimalfield3String和具有以下架构的表“B”:field1Stringfield2Stringfield3String现在，当我运行命令时INSERTOVERWRITEtableASELECT*FROMB,表A现在包含第1列和第2列中的所有NULL值。有没有一种方法可以强制类型，以便在插入或查询时引发异常，而不是在列中显示NULL？最佳答案如果数据类型不匹配，hive将插入空数据。您可以在从表b中选择时转换为所需的数据类型。从b中选择ca

配置单 hadoop section code field hive hql

hadoop - 如何获取hive表、列、 View 、约束键和注释列的元数据？

请帮我看看如何获取Hive表、列、View、约束键和注释列的元数据。最佳答案如果您有Hue可用，您可以从顶部菜单数据浏览器转到Metastore表。您可以在那里找到所有可用模式的元数据。您可以从Hive尝试:使用DB_NAME;DESCRIBEFORMATTEDTABLE_NAME;或者DESCRIBEEXTENDEDTABLE_NAME; 关于hadoop-如何获取hive表、列、View、约束键和注释列的元数据？，我们在StackOverflow上找到一个类似的问题：

hadoop View section code stackoverflow hive

hadoop - 关于 Hadoop 的大文件和小文件的元数据

我阅读了Hadoop的HDFS，了解到hadoop旨在处理少量的大文件，而不是处理大量的小文件。这是因为如果有大量的小文件，Namenode的内存会很快被吃掉。我很难理解这个论点。考虑以下场景:1000个小文件，每个文件大小为128MB(与hdfsblock的block大小相同)。因此，这意味着Namenode的内存中有1000个条目保存此信息。现在，考虑以下场景:一个大文件，block大小为128MB*1000。现在Namenode不会有1000个条目用于这个大的单个文件吗？这个结论是否正确，在这两种情况下，Namenode在内存中将有相同数量的关于文件block信息的条目？如果是这

大文 hadoop Number strong Namenode hdfs

hadoop - 如何更新 Apache Atlas 元数据？

我有一个Hortonworks沙盒。我运行了一个Atlas应用程序。已经有来自Hive的所有数据库、表和列。我在Hive中添加了一个新表，但它没有自动出现在Atlas中。如何更新Atlas元数据？Atlas是否有任何好的教程显示如何开始，例如如何从现有集群导入数据？问候帕维尔最佳答案所有元数据都会自动报告给Atlas。Hive应该与负责此类报告的atlashook一起运行。如果您将hive作为hortonworks平台的一部分安装，它应该在那里，否则ApacheAtlas文档中有关于如何安装HiveHook的明确说明(这是一种额

hadoop Apache section Atlas Hive apache-atlas

Hadoop - HDFS Namenode 元数据 - FSImage

我知道在主节点中我们有名称节点，它在两个文件中维护一个元数据。一个是FSImage，另一个是Editlogs。所以这个FSImage最初是在hadoop系统启动时加载的，这个FSImage包含了集群的目录结构和存储的数据。然后，对于发生的每个事务，都会更新编辑日志文件。我的问题如下:这些只是包含所有信息(FSImage和EditLogs)的文件还是还有更多？这是否意味着FSImage文件只会被写入一次？如果是，那为什么它总是被复制到二级名称节点？这不是增加了一个待完成的任务吗？假设我在hdfs中添加或删除了一个新文件；那么这个FSImage不会被更新吗？最

Namenode FSImage section li hadoop metadata hdfs

hadoop - 谁来更新 Hadoop 中 Namenode 中的元数据？

在HDFS的情况下，写入如何在名称节点中更新元数据。一旦客户端将数据写入数据节点。数据节点或HDFS客户端将更新名称节点中的元数据。最佳答案名称节点中的元数据始终由namenode更新服务。关于hadoop-谁来更新Hadoop中Namenode中的元数据？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/41851281/

Namenode hadoop section 点中 stackoverflow hadoop2 hadoop-streaming hadoop-partitioning

java - 如何在java客户端获取HDFS服务器的元数据信息？

我需要构建一个实用程序类来测试与HDFS的连接。测试应显示HDFS的服务器端版本和任何其他元数据。虽然，有很多可用的客户端演示，但没有关于提取服务器元数据的演示。有人可以帮忙吗？请注意，我的客户端是一个远程java客户端，没有hadoop和HDFS配置文件来初始化配置。我需要通过动态使用其URL连接到HDFS名称节点服务来完成此操作。最佳答案 Hadoop通过HTTP公开一些您可以使用的信息。参见Cloudera的文章。可能最简单的方法是连接到NNUI并解析内容服务器返回:URLurl=newURL("http://myhost:

java 何在 hadoop apache println connection client hdfs

55 56 575859 60 61