hdfs_clusters

hadoop - 心跳到 <hostname> :7182 failed during Cloudera Installation on 3 node cluster

我正在使用ClouderaManager创建一个3节点的cloudera集群。我遵循了cloudera文档:[1]https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ig_install_path_b.html#concept_wkg_kpb_pn登录到cloudera管理器并输入3个节点的主机名后，当我尝试安装它时会出现以下消息:安装失败。无法从代理接收心跳。确保主机的主机名配置正确。确保端口7182可在ClouderaManagerServer上访问(检查防火墙规则)。确保正在添加的主机上未使用端口9

hadoop - 如何使用 kafka-connect-hdfs 将数据从 kafka avro 控制台流式传输到 HDFS？

我正在尝试运行kafka-connect-hdfs但没有成功。我已将以下行添加到.bash_profile并运行“source~/.bash_profile”exportLOG_DIR=~/logsquickstart-hdfs.properties配置文件为name=hdfs-sinkconnector.class=io.confluent.connect.hdfs.HdfsSinkConnectortasks.max=1hdfs.url=xxx.xxx.xxx.xxx:xxxx#placeholderflush.size=3hadoop.conf.dir=/etc/hadoop/c

流式 kafka connect java hdfs hadoop apache-kafka apache-kafka-connect confluent-platform

hadoop - HDFS 名称节点高可用性

我使用ambari启用了Namenode高可用性。我想在开始编码之前使用dfs.nameservices(名称服务ID)验证连接。是否有任何命令行或工具可以验证它？最佳答案您可以使用普通的HDFSCLI。hdfsdfs-lshdfs://nameservice/user这也应该和一样工作hdfsdfs-lshdfs:///user或者提供你的事件名称节点hdfsdfs-lshdfs://namenode-1:port/user如果你提供standbynamenode，它会说operationREADnotsupportedins

hadoop HDFS section code high-availability

hadoop - 当文件不在目录中时将文件从 HDFS 加载到配置单元的替代方法

ROWFORMATDELIMITEDFIELDSTERMINATEDBY'${database_delimiter}'LINESTERMINATEDBY'\n'STOREDASTEXTFILELOCATION'${database_location}/Person';这里的person应该是一个目录。而person是part-m文件而不是目录。最佳答案如果我对问题的理解正确，Hive确实无法在文件上创建表。它需要是一个目录位置。因此，无论您有什么进程，都需要制作上述目录。例如，无论您有什么映射器进程，您都需要指定一个输出目录，如

中时配置单 database_location location section hadoop hive hdfs hiveql

hadoop - 在 hdfs 上格式化 namenode 后如何格式化 datanodes？

我最近一直在伪分布式模式下设置hadoop，我创建了数据并将其加载到HDFS中。后来因为一个问题格式化了namenode。现在，当我这样做时，我发现之前在数据节点上已经存在的目录和文件不再显示了。(虽然“格式化”这个词是有道理的)但是现在，我确实有这个疑问。由于名称节点不再保存文件的元数据，是否会中断对先前加载文件的访问？如果是，那么我们如何删除数据节点上已有的数据？最佳答案是的，您以前的数据节点目录现在已经过时了。您需要手动遍历每个数据节点并删除这些目录的内容。通过HadoopCLI没有这样的格式命令数据节点目录默认是/tmp

datanodes namenode section stackoverflow strong hadoop datanode

hadoop - 如何获取 hdfs 文件上最后添加的数据？

我有数据以一定的速度传输到HDFS文件中。我有一个建立在它之上的外部配置单元表。Data有一个timestamp列和一个int列。每5分钟，将添加一行。我有一个JDBC程序，如果int列值是否超过限制，它需要检查最后添加的行。我以为我会为新的时间戳写一个搜索查询，获取行并检查它的int列值。但是，它遍历整个表以搜索最后附加的行。我可以在时间戳列上创建索引。有没有其他方法可以检索最近添加的数据，这样性能就不会下降？最佳答案按日期(例如load_date)对表进行分区，您可以使用date()函数从时间戳字段中导出日期。当然，您还需要

hadoop hdfs section load_date date jdbc hive mapreduce

java - 使用java代码将数据从postgresql迁移到hdfs

我是Hadoop新手，任务是使用Java代码将结构化数据迁移到HDFS。我知道Sqoop可以完成同样的任务，但这不是我的任务。有人可以解释一下执行此操作的可能方法吗？我确实尝试过这样做。我所做的是使用jdbc驱动程序从psql服务器复制数据，然后将其以csv格式存储在HDFS中。这是解决此问题的正确方法吗？我读到Hadoop有自己的数据类型来存储结构化数据。你能解释一下这是怎么发生的吗？谢谢。最佳答案最先进的技术是使用(pullETL)sqoop作为常规批处理从RDBM获取数据。然而，这种方式对RDBMS来说既资源消耗(通常sq

java postgresql section strong RDBMS hadoop hdfs sqoop

hadoop - 如何检查 hdfs 目录中的总文件大小

有没有办法以GB或MB为单位计算HDFS文件目录的总文件大小？我不想使用du命令。没有那个也有办法目录-/test/my_dir 最佳答案你可以使用df或report、'hadoopfs-count-q-h它会显示总大小[root@hadoop0~]#hadoopfs-df-h/FilesystemSizeUsedAvailableUse%hdfs://hadoop0:8020119.9G27.8G62.3G23%[root@hadoop0~]#hadoopdfsadmin-reportDEPRECATED:Useofthissc

hadoop hdfs section code

hadoop - 数据节点故障后恢复的 hdfs

我有一个包含2个主节点和2个数据节点的4节点hadoop集群。我在这个集群中有很多文件。我的一个数据节点崩溃了(从aws控制台意外终止)。因为我有复制因子1，所以我认为这不会导致任何数据丢失。我添加了新节点并将其作为数据节点。但是现在我的hdfsdfsadmin-report说很多缺失的block。为什么是这样？我怎样才能从这里恢复过来？我不能执行fsck-delete，因为这些文件对我很重要。当我尝试从这个集群到另一个新创建的集群的distcp时，我得到了丢失的block异常。添加新数据节点后是否需要执行任何步骤？最佳答案 Ha

hadoop hdfs section stackoverflow image

Hadoop:不推荐使用 dfs 但找不到 hdfs 类

我是Hadoop的新手，正在尝试检查HDFS中有哪些数据可用。但是，dfs命令返回一个响应，指示该类已弃用，应使用hdfs:-bash-4.2$hadoopdfs-lsDEPRECATED:Useofthisscripttoexecutehdfscommandisdeprecated.Insteadusethehdfscommandforit.ls:`.':Nosuchfileordirectory但是，当我尝试使用hdfs命令时，我得到了一个Java类查找错误:-bash-4.2$hadoophdfs-lsError:Couldnotfindorloadmainclasshdfs我的

Hadoop hdfs code section

11 12 131415 16 17