hdfs_rtp

hadoop - cloudera BDR HDFS复制和快照有什么区别

测试Cloudera5.15.1BDR，对HDFS复制与HDFS快照有点混淆。使用BDR，它将HDFS数据和快照复制到DR站点。HDFS复制与快照之间到底有什么区别？具有BDR的HDFS复制在内部如何工作？最佳答案 snapshotsallowyoutocreatepoint-in-timebackupsofdirectoriesortheentirefilesystemwithoutactuallycloningthedata另一方面，副本是数据副本。关于它们的工作原理，快照对我来说就像是一个Namenode备份——某个时间点的

hadoop - 从 hdfs 加载文件 csv

我正在尝试将CSV文件上传到分布式文件系统hdfs:hadoopfs-putButIgetthefollowingerror:put:´.´:Nosuchfileordirectory:´hdfs://localhost:54310/user/hduser´ 最佳答案先创建一个DestinationHDFS目录。HDFS中似乎没有/user/hduser目录。hdfsdfs-mkdir-p/user/hduser然后将文件复制到HDFS。hdfsdfs-putLOCAL_FILE_PATHDESTINATION_HDFS_PATH

hadoop hdfs section code pre

Hadoop : HDFS space quota

有什么方法可以检查特定HDFS目录上是否应用了任何空间配额？我找不到任何提供此类信息的命令here 最佳答案也许你错过了这个页面？https://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HdfsQuotaAdminGuide.html#Administrative_CommandsanextensiontothecountcommandoftheHDFSshellreportsquotavaluesandthecurrentcountofnames

Hadoop space section quota hdfs hadoop2

hadoop - 如何恢复HDFS中损坏文件的部分内容

我在HDFS中有一个损坏的文件，我想尽可能多地恢复它。有没有办法以普通用户的身份执行此操作？我的意思是试图省略缺失block的内容？如果这是一个愚蠢的问题，请提前道歉，我真的不知道在HDFS中恢复部分文件的过程是怎样的。问候! 最佳答案据我所知，作为“普通用户”，您无法恢复损坏文件的任何block。为此，您必须拥有管理员权限。一个不太优雅的解决方案，可能是检查您是否可以看到损坏文件的部分内容:hdfsdfs-cat并将输出重定向到本地文件系统的另一个文件:hdfsdfs-cat>>my-new-file.txt然后就可以上传到hd

hadoop HDFS section code path-to-file

hadoop - HDFS文件系统需要格式化datanode还是只需要格式化namenode

在搭建伪集群或全集群时，是否需要格式化datanode来安装HDFS文件系统，还是只需要格式化namenode。我问这个是因为，我在很多博客上读到过，HDFS在硬盘上按顺序存储数据，它是一个抽象层，将数据存储在大块上，而不是默认block大小存储提供的主机文件系统。如果我们不格式化datanode，HDFS的强大功能就来折腾了。最佳答案格式化和挂载硬盘驱动器与格式化HDFS没有直接关系。从概念上讲，“格式化”的想法是相同的。但这两个任务是完全独立的，没有直接关系。hadoopformat命令不会格式化或挂载硬盘。硬盘驱动器应该已

datanode namenode section HDFS 来安 hadoop

hadoop - 为什么大公司使用其他数据库，为什么不使用HDFS？

我知道hadoop是用于以较便宜的成本存储数据(分布式)的，而在我想到一个问题后，YouTube会提供YouTube提供的视频和文本数据，因此它们必须使用HDFS，但是当我用Google对其搜索时，我惊讶的是他们使用了Vitess，BigTable和MariaDB。所以我的问题是，为什么HDFS无法满足要求？为什么不使用HDFS？以及数据如何像视频用户数据注释等一样存储在youtube中，它们是使用结构化/非结构化还是半结构化架构来存储所有不同类型的数据。如果我错了，请告诉我，正确的方法是什么？最佳答案 HDFSisnotfulf

hadoop HDFS section br nosql bigdata

hadoop - Hive managed table drop 不会删除 HDFS 上的文件。任何解决方案？

从hive中删除托管表时，它与hdfs中的关联文件不会被删除(在azure-databricks上)。我收到以下错误:[Simba]SparkJDBCDriverERRORprocessingquery/statement.ErrorCode:0,SQLstate:org.apache.spark.sql.AnalysisException:Cannotcreatethemanagedtable('`schema`.`XXXXX`').Theassociatedlocation('dbfs:/user/hive/warehouse/schema.db/XXXXX)alreadyexis

managed hadoop section schema stackoverflow hive hdfs azure-databricks

mongodb - 将外部数据导入 hdfs : is edge node a bottle neck?

我是大数据的新手。我正在尝试将MongoDB集合摄取到hdfs中，并且可以选择使用mongoDBjavaAPI+HDFSjavaAPI，而不是SparkMongoDB连接器。这两种方法有何不同？我检查了SparkMongoDB连接器源代码，它也使用mongoDBjavaAPI写入mongoDB，但使用sparkSession从mongoDB读取。由于在我们的案例中MongoDB和HDFS集群不同，边缘节点是否充当MongoDB和HDFS集群之间的暂存区？如果是这样，如果mongoDB集合太大，边缘节点会成为瓶颈吗？概括这个问题，当将外部数据源(RDBM、NoSQL等)摄取到HDFS时，

mongodb bottle section apache-spark hadoop hdfs bigdata

excel - 实时更新Excel数据到HDFS

我在本地机器上有一个excel，在远程RHEL服务器上有HDFS。我想将这个excel数据加载到HDFS并实时更新它。例如，如果在excel中插入一些新记录，则需要在HDFS中实时捕获和更新这些记录。我现在有两种方法:1)定期拉取excel文件并加载到HDFS中，然后在其上创建一个hive表。但是这种方法不必要地每天多次运行作业，并不是真正的实时场景。2)另一种解决方案是编写一个生产者代码，在循环中逐行读取excel，如果捕获到一些变化，将数据推送到Kafka主题，稍后可以使用Spark-Streaming使用。但这两个选项都不是很简单，第二个选项需要大量编码。有没有更好的方法来实现这

实时更新 excel section HDFS hadoop apache-kafka streaming

hadoop - 将文件从 NFS 或本地 FS 复制到 HDFS

我正在尝试将大量文件(超过100k，总大小为2TB)从NFS复制到HDFS。什么是有效的方法。将其安装到边缘节点后，我尝试了以下选项hdfsdfs-put:它因内存错误而失败，传输也很慢distcp:获取由以下原因引起的错误:org.apache.hadoop.tools.mapred.RetriableFileCopyCommand$CopyReadException:java.io.FileNotFoundException:但是文件存在。我在不使用NFS安装位置的情况下对本地文件进行了相同的尝试。我知道distcp的警告之一是必须分发目的地。它也适用于来源吗？或者它是一个错误并且

hadoop HDFS apache java nfs distributed-system distcp

160 161 162163164 165 166