Hdfs

Hadoop - 映射器输出能否超过 block 大小

我们将其中一个mapreduce作业的dfs.blocksize设置为512MB，这是一个maponly作业。但是，一些映射器输出超过512MB。例如:512.9MB。我相信，映射器block大小应该受到dfs.blocksize的限制。感谢任何输入。谢谢最佳答案 Ibelieve,themapperblocksizeshouldberestrainedbythedfs.blocksize.这不是真的。文件可以大于block大小。在这种情况下，它们只会跨越多个block。关于Hado

射器 Hadoop section block hdfs mapper

apache-spark - Spark - 获取部分文件后缀

当Spark使用Hadoopwriter写入部分文件时(使用saveAsTextFile())，这是它保存文件的通用格式“part-NNNNN”。如何在运行时在Spark中检索这个后缀“NNNNN”？附言。我不想列出文件然后检索后缀。最佳答案文件名为part-00000、part-00001等。每个RDD分区都写入一个part-文件。因此，输出文件的数量将取决于正在写入的RDD中的分区。您可以检查正在写入的RDD的分区数(比如5)，然后访问文件part-00000到part-00004。插图通过查询Hive表构建DataFram

apache-spark apache process_output code process hadoop mapreduce hdfs

hadoop - 无法使用 Hadoop 命令创建目录？

我一直在启动NameNode和DataNode，但是当我尝试使用HDFS命令创建目录(在任何地方)时，它不起作用。这是我的命令:./hdfsdfs-mkdir-p/usr/master/datas我还尝试更改我的路径格式:./hdfsdfs-mkdir-p"/usr/master/datas"但我得到了相同的结果。我刚刚开始学习大数据。谁能告诉我如何解决这个问题以及如何调试这个问题？最佳答案 /usr在HDFS上不存在。那是一个Unix目录。HDFS中的用户目录是/user。此外，您需要成为HDFSsuper用户才能在根路径下创建

hadoop section code HDFS

hadoop - HDFS 名称节点高可用性

我使用ambari启用了Namenode高可用性。我想在开始编码之前使用dfs.nameservices(名称服务ID)验证连接。是否有任何命令行或工具可以验证它？最佳答案您可以使用普通的HDFSCLI。hdfsdfs-lshdfs://nameservice/user这也应该和一样工作hdfsdfs-lshdfs:///user或者提供你的事件名称节点hdfsdfs-lshdfs://namenode-1:port/user如果你提供standbynamenode，它会说operationREADnotsupportedins

hadoop HDFS section code high-availability

hadoop - 当文件不在目录中时将文件从 HDFS 加载到配置单元的替代方法

ROWFORMATDELIMITEDFIELDSTERMINATEDBY'${database_delimiter}'LINESTERMINATEDBY'\n'STOREDASTEXTFILELOCATION'${database_location}/Person';这里的person应该是一个目录。而person是part-m文件而不是目录。最佳答案如果我对问题的理解正确，Hive确实无法在文件上创建表。它需要是一个目录位置。因此，无论您有什么进程，都需要制作上述目录。例如，无论您有什么映射器进程，您都需要指定一个输出目录，如

中时配置单 database_location location section hadoop hive hdfs hiveql

hadoop - Apache hadoop 中节点之间的距离是什么意思？

我正在阅读Hadoop中的一个采访问题，它说:如何获取ApacheHadoop中两个节点之间的距离？有一个解决方案，但我不太理解两个节点之间的距离这个术语。这是什么意思？最佳答案这是一个很好的答案:https://qr.ae/pGRAyl您可以在此处找到更多实现细节:https://hadoop.apache.org/docs/r2.10.0/hadoop-project-dist/hadoop-common/RackAwareness.html 关于hadoop-Apachehad

hadoop Apache section https hdfs

hadoop - 在 hdfs 上格式化 namenode 后如何格式化 datanodes？

我最近一直在伪分布式模式下设置hadoop，我创建了数据并将其加载到HDFS中。后来因为一个问题格式化了namenode。现在，当我这样做时，我发现之前在数据节点上已经存在的目录和文件不再显示了。(虽然“格式化”这个词是有道理的)但是现在，我确实有这个疑问。由于名称节点不再保存文件的元数据，是否会中断对先前加载文件的访问？如果是，那么我们如何删除数据节点上已有的数据？最佳答案是的，您以前的数据节点目录现在已经过时了。您需要手动遍历每个数据节点并删除这些目录的内容。通过HadoopCLI没有这样的格式命令数据节点目录默认是/tmp

datanodes namenode section stackoverflow strong hadoop datanode

hadoop - 如何获取 hdfs 文件上最后添加的数据？

我有数据以一定的速度传输到HDFS文件中。我有一个建立在它之上的外部配置单元表。Data有一个timestamp列和一个int列。每5分钟，将添加一行。我有一个JDBC程序，如果int列值是否超过限制，它需要检查最后添加的行。我以为我会为新的时间戳写一个搜索查询，获取行并检查它的int列值。但是，它遍历整个表以搜索最后附加的行。我可以在时间戳列上创建索引。有没有其他方法可以检索最近添加的数据，这样性能就不会下降？最佳答案按日期(例如load_date)对表进行分区，您可以使用date()函数从时间戳字段中导出日期。当然，您还需要

hadoop hdfs section load_date date jdbc hive mapreduce

java - 使用java代码将数据从postgresql迁移到hdfs

我是Hadoop新手，任务是使用Java代码将结构化数据迁移到HDFS。我知道Sqoop可以完成同样的任务，但这不是我的任务。有人可以解释一下执行此操作的可能方法吗？我确实尝试过这样做。我所做的是使用jdbc驱动程序从psql服务器复制数据，然后将其以csv格式存储在HDFS中。这是解决此问题的正确方法吗？我读到Hadoop有自己的数据类型来存储结构化数据。你能解释一下这是怎么发生的吗？谢谢。最佳答案最先进的技术是使用(pullETL)sqoop作为常规批处理从RDBM获取数据。然而，这种方式对RDBMS来说既资源消耗(通常sq

java postgresql section strong RDBMS hadoop hdfs sqoop

java - Spark Java API，数据集操作？

我是新的sparkJavaAPI。我的数据集包含两列(account,Lib)。我想显示具有不同库的帐户。事实上我的数据集是这样的。ds1+---------+------------+|account|Lib|+---------+------------+|222222|bbbb||222222|bbbb||222222|bbbb|||||333333|aaaa||333333|bbbb||333333|cccc|||||444444|dddd||444444|dddd||444444|dddd|||||555555|vvvv||555555|hhhh||555555|vvvv|我

Spark java section 34 account apache-spark hadoop hdfs

14 15 161718 19 20