草庐IT

四元数

全部标签

hadoop - 在 HDFS 中写入元数据

我们正在使用nutch来抓取我们的内部网站。我们在索引阶段提取xml文件中的元数据(我们修改了indexer.java的代码),当以本地模式运行时,它为我们提供了所需的元数据。现在,我们想到了在集群模式下使用nutch(使用hadoop),当我们在集群中爬取nutch时,我们能够获得索引但不能获得我们以前使用的元数据,我们使用的是本地模式(java的IO类将元数据写入文件)。对于hadoop,我们将其更改为hadoop文件系统io类。然而我们无法获得元数据。是否有任何解决方案,或者我们是否遗漏了什么?提前致谢,地理位置 最佳答案 W

apache - Hbase 元数据错误 "tables no found"

我在hbase(hdfs)表中有一些数据,我将其复制到我的本地文件系统。然后在我的第二台机器上,我使用copyFromLocalhadoop命令将数据从本地复制到hdfs。现在,当我在hbase中(在第二台机器上)运行命令“list”时。显示没有表。我将表复制到hdfs中的一个目录中,该目录是hbase的数据目录,因此该表应该出现在hbase中。问题出在哪里?在两台机器上,hbase和hadoop的版本相同。如何将hbase表从一个集群复制到第二个集群? 最佳答案 已经有一些工具可用于管理此类任务(全部记录在此处:http://hb

hadoop - 默认情况下,HIVE 元数据存储在哪里?

我使用以下方法在Hive中创建了一个外部表:createexternaltablehpd_txt(WbanNumINT,YearMonthDayINT,TimeINT,HourlyPrecipINT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','LINESTERMINATEDBY'\n'storedastextfilelocation'hdfs://localhost:9000/user/hive/external';现在该表已在位置*/hive/external中创建。第1步:我使用以下方法在此表中加载数据:loaddatainpath'/input/

hadoop - 如何强制配置单元数据类型

假设我有一个具有以下架构的表“A”:field1Decimalfield2Decimalfield3String和具有以下架构的表“B”:field1Stringfield2Stringfield3String现在,当我运行命令时INSERTOVERWRITEtableASELECT*FROMB,表A现在包含第1列和第2列中的所有NULL值。有没有一种方法可以强制类型,以便在插入或查询时引发异常,而不是在列中显示NULL? 最佳答案 如果数据类型不匹配,hive将插入空数据。您可以在从表b中选择时转换为所需的数据类型。从b中选择ca

hadoop - 如何获取hive表、列、 View 、约束键和注释列的元数据?

请帮我看看如何获​​取Hive表、列、View、约束键和注释列的元数据。 最佳答案 如果您有Hue可用,您可以从顶部菜单数据浏览器转到Metastore表。您可以在那里找到所有可用模式的元数据。您可以从Hive尝试:使用DB_NAME;DESCRIBEFORMATTEDTABLE_NAME;或者DESCRIBEEXTENDEDTABLE_NAME; 关于hadoop-如何获取hive表、列、View、约束键和注释列的元数据?,我们在StackOverflow上找到一个类似的问题:

hadoop - 关于 Hadoop 的大文件和小文件的元数据

我阅读了Hadoop的HDFS,了解到hadoop旨在处理少量的大文件,而不是处理大量的小文件。这是因为如果有大量的小文件,Namenode的内存会很快被吃掉。我很难理解这个论点。考虑以下场景:1000个小文件,每个文件大小为128MB(与hdfsblock的block大小相同)。因此,这意味着Namenode的内存中有1000个条目保存此信息。现在,考虑以下场景:一个大文件,block大小为128MB*1000。现在Namenode不会有1000个条目用于这个大的单个文件吗?这个结论是否正确,在这两种情况下,Namenode在内存中将有相同数量的关于文件block信息的条目?如果是这

hadoop - 如何更新 Apache Atlas 元数据?

我有一个Hortonworks沙盒。我运行了一个Atlas应用程序。已经有来自Hive的所有数据库、表和列。我在Hive中添加了一个新表,但它没有自动出现在Atlas中。如何更新Atlas元数据?Atlas是否有任何好的教程显示如何开始,例如如何从现有集群导入数据?问候帕维尔 最佳答案 所有元数据都会自动报告给Atlas。Hive应该与负责此类报告的atlashook一起运行。如果您将hive作为hortonworks平台的一部分安装,它应该在那里,否则ApacheAtlas文档中有关于如何安装HiveHook的明确说明(这是一种额

Hadoop - HDFS Namenode 元数据 - FSImage

我知道在主节点中我们有名称节点,它在两个文件中维护一个元数据。一个是FSImage,另一个是Editlogs。所以这个FSImage最初是在hadoop系统启动时加载的,这个FSImage包含了集群的目录结构和存储的数据。然后,对于发生的每个事务,都会更新编辑日志文件。我的问题如下:这些只是包含所有信息(FSImage和EditLogs)的文件还是还有更多?这是否意味着FSImage文件只会被写入一次?如果是,那为什么它总是被复制到二级名称节点?这不是增加了一个待完成的任务吗?假设我在hdfs中添加或删除了一个新文件;那么这个FSImage不会被更新吗? 最

hadoop - 谁来更新 Hadoop 中 Namenode 中的元数据?

在HDFS的情况下,写入如何在名称节点中更新元数据。一旦客户端将数据写入数据节点。数据节点或HDFS客户端将更新名称节点中的元数据。 最佳答案 名称节点中的元数据始终由namenode更新服务。 关于hadoop-谁来更新Hadoop中Namenode中的元数据?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/41851281/

java - 如何在java客户端获取HDFS服务器的元数据信息?

我需要构建一个实用程序类来测试与HDFS的连接。测试应显示HDFS的服务器端版本和任何其他元数据。虽然,有很多可用的客户端演示,但没有关于提取服务器元数据的演示。有人可以帮忙吗?请注意,我的客户端是一个远程java客户端,没有hadoop和HDFS配置文件来初始化配置。我需要通过动态使用其URL连接到HDFS名称节点服务来完成此操作。 最佳答案 Hadoop通过HTTP公开一些您可以使用的信息。参见Cloudera的文章。可能最简单的方法是连接到NNUI并解析内容服务器返回:URLurl=newURL("http://myhost: