Namenode-HDFS

hadoop - 当文件不在目录中时将文件从 HDFS 加载到配置单元的替代方法

ROWFORMATDELIMITEDFIELDSTERMINATEDBY'${database_delimiter}'LINESTERMINATEDBY'\n'STOREDASTEXTFILELOCATION'${database_location}/Person';这里的person应该是一个目录。而person是part-m文件而不是目录。最佳答案如果我对问题的理解正确，Hive确实无法在文件上创建表。它需要是一个目录位置。因此，无论您有什么进程，都需要制作上述目录。例如，无论您有什么映射器进程，您都需要指定一个输出目录，如

中时配置单 database_location location section hadoop hive hdfs hiveql

hadoop - 在 hdfs 上格式化 namenode 后如何格式化 datanodes？

我最近一直在伪分布式模式下设置hadoop，我创建了数据并将其加载到HDFS中。后来因为一个问题格式化了namenode。现在，当我这样做时，我发现之前在数据节点上已经存在的目录和文件不再显示了。(虽然“格式化”这个词是有道理的)但是现在，我确实有这个疑问。由于名称节点不再保存文件的元数据，是否会中断对先前加载文件的访问？如果是，那么我们如何删除数据节点上已有的数据？最佳答案是的，您以前的数据节点目录现在已经过时了。您需要手动遍历每个数据节点并删除这些目录的内容。通过HadoopCLI没有这样的格式命令数据节点目录默认是/tmp

datanodes namenode section stackoverflow strong hadoop datanode

hadoop - 如何获取 hdfs 文件上最后添加的数据？

我有数据以一定的速度传输到HDFS文件中。我有一个建立在它之上的外部配置单元表。Data有一个timestamp列和一个int列。每5分钟，将添加一行。我有一个JDBC程序，如果int列值是否超过限制，它需要检查最后添加的行。我以为我会为新的时间戳写一个搜索查询，获取行并检查它的int列值。但是，它遍历整个表以搜索最后附加的行。我可以在时间戳列上创建索引。有没有其他方法可以检索最近添加的数据，这样性能就不会下降？最佳答案按日期(例如load_date)对表进行分区，您可以使用date()函数从时间戳字段中导出日期。当然，您还需要

hadoop hdfs section load_date date jdbc hive mapreduce

java - 使用java代码将数据从postgresql迁移到hdfs

我是Hadoop新手，任务是使用Java代码将结构化数据迁移到HDFS。我知道Sqoop可以完成同样的任务，但这不是我的任务。有人可以解释一下执行此操作的可能方法吗？我确实尝试过这样做。我所做的是使用jdbc驱动程序从psql服务器复制数据，然后将其以csv格式存储在HDFS中。这是解决此问题的正确方法吗？我读到Hadoop有自己的数据类型来存储结构化数据。你能解释一下这是怎么发生的吗？谢谢。最佳答案最先进的技术是使用(pullETL)sqoop作为常规批处理从RDBM获取数据。然而，这种方式对RDBMS来说既资源消耗(通常sq

java postgresql section strong RDBMS hadoop hdfs sqoop

hadoop - 如何检查 hdfs 目录中的总文件大小

有没有办法以GB或MB为单位计算HDFS文件目录的总文件大小？我不想使用du命令。没有那个也有办法目录-/test/my_dir 最佳答案你可以使用df或report、'hadoopfs-count-q-h它会显示总大小[root@hadoop0~]#hadoopfs-df-h/FilesystemSizeUsedAvailableUse%hdfs://hadoop0:8020119.9G27.8G62.3G23%[root@hadoop0~]#hadoopdfsadmin-reportDEPRECATED:Useofthissc

hadoop hdfs section code

hadoop - 数据节点故障后恢复的 hdfs

我有一个包含2个主节点和2个数据节点的4节点hadoop集群。我在这个集群中有很多文件。我的一个数据节点崩溃了(从aws控制台意外终止)。因为我有复制因子1，所以我认为这不会导致任何数据丢失。我添加了新节点并将其作为数据节点。但是现在我的hdfsdfsadmin-report说很多缺失的block。为什么是这样？我怎样才能从这里恢复过来？我不能执行fsck-delete，因为这些文件对我很重要。当我尝试从这个集群到另一个新创建的集群的distcp时，我得到了丢失的block异常。添加新数据节点后是否需要执行任何步骤？最佳答案 Ha

hadoop hdfs section stackoverflow image

Hadoop:不推荐使用 dfs 但找不到 hdfs 类

我是Hadoop的新手，正在尝试检查HDFS中有哪些数据可用。但是，dfs命令返回一个响应，指示该类已弃用，应使用hdfs:-bash-4.2$hadoopdfs-lsDEPRECATED:Useofthisscripttoexecutehdfscommandisdeprecated.Insteadusethehdfscommandforit.ls:`.':Nosuchfileordirectory但是，当我尝试使用hdfs命令时，我得到了一个Java类查找错误:-bash-4.2$hadoophdfs-lsError:Couldnotfindorloadmainclasshdfs我的

Hadoop hdfs code section

shell - 模式匹配 "hdfs ds -ls"输出时如何忽略时间戳？

我有存储在HDFS上的文件，其名称后缀有日期，与文件的修改日期不同，如下所示:$hdfsdfs-ls/a/b/c/d/e/*Found5itemsdrwxr-xr-x-xuserxuser02015-05-0113:59/a/b/c/d/e/exp_dt=2016-01-05drwxr-xr-x-xuserxuser02017-10-1015:42/a/b/c/d/e/exp_dt=2015-05-01我正在尝试查找仅具有给定exp_dt的文件。目前，努力如下:inputDir=/a/b/c/d/e/countCmd='hdfsdfs-ls$inputDir|grep'\.2015$'

amp shell code pre exp_dt hadoop sh

java - 尝试使用 spark shell 计算托管在本地 HDFS 上的文件中的行数时出现 HadoopRDD 错误

我是ApacheSpark、Scala和Hadoop工具的新手。我已经设置了一个新的本地单节点Hadoop集群，如前所述here并且还设置了spark以提供对此Hadoop环境的引用，如前所述here.我能够验证spark-shell、sparkUI已启动并正在运行。此外，我可以使用localhost查看HDFS。.为了更进一步，我将示例文件上传到HDFS，并使用Hadooplocalhost验证它是否可用。现在，我尝试使用Java和spark-shell(Scala)来计算文件中的行数，但是这两个调用都因该堆栈跟踪而失败。Exceptioninthread"dag-scheduler

时出 HadoopRDD spark apache Hadoop java scala apache-spark bigdata

apache - 控制 HDFS 复制、映射器数量和 reducer 识别

我正在尝试以分布式方式(使用3台计算机的集群)运行ApacheHadoop2.65，并且我想决定映射器和缩减器的数量。我正在使用复制数为1的HDFS，我的输入是3个文件(表)。我想调整数据在系统中的流动方式，为此，我想通过以下方式获得一些帮助吗？以及如何以及在哪里可以更改它？HDFS的复制-我可以干扰HDFS的复制方式吗？例如，确保每个文件存储在不同的计算机上？如果可以，我可以选择哪个它将存储在计算机上吗？映射器数量-我可以更改映射器或输入拆分的数量吗？我知道这取决于输入拆分的数量和block大小。它在网上说我可以通过更改以下参数来做到这一点，但我不知道在哪里？-Dmapred.map

射器 reducer section strong apache hadoop hdfs hadoop-yarn

9 10 111213 14 15