hdfs

hadoop - Hive managed table drop 不会删除 HDFS 上的文件。任何解决方案？

从hive中删除托管表时，它与hdfs中的关联文件不会被删除(在azure-databricks上)。我收到以下错误:[Simba]SparkJDBCDriverERRORprocessingquery/statement.ErrorCode:0,SQLstate:org.apache.spark.sql.AnalysisException:Cannotcreatethemanagedtable('`schema`.`XXXXX`').Theassociatedlocation('dbfs:/user/hive/warehouse/schema.db/XXXXX)alreadyexis

mongodb - 将外部数据导入 hdfs : is edge node a bottle neck?

我是大数据的新手。我正在尝试将MongoDB集合摄取到hdfs中，并且可以选择使用mongoDBjavaAPI+HDFSjavaAPI，而不是SparkMongoDB连接器。这两种方法有何不同？我检查了SparkMongoDB连接器源代码，它也使用mongoDBjavaAPI写入mongoDB，但使用sparkSession从mongoDB读取。由于在我们的案例中MongoDB和HDFS集群不同，边缘节点是否充当MongoDB和HDFS集群之间的暂存区？如果是这样，如果mongoDB集合太大，边缘节点会成为瓶颈吗？概括这个问题，当将外部数据源(RDBM、NoSQL等)摄取到HDFS时，

mongodb bottle section apache-spark hadoop hdfs bigdata

excel - 实时更新Excel数据到HDFS

我在本地机器上有一个excel，在远程RHEL服务器上有HDFS。我想将这个excel数据加载到HDFS并实时更新它。例如，如果在excel中插入一些新记录，则需要在HDFS中实时捕获和更新这些记录。我现在有两种方法:1)定期拉取excel文件并加载到HDFS中，然后在其上创建一个hive表。但是这种方法不必要地每天多次运行作业，并不是真正的实时场景。2)另一种解决方案是编写一个生产者代码，在循环中逐行读取excel，如果捕获到一些变化，将数据推送到Kafka主题，稍后可以使用Spark-Streaming使用。但这两个选项都不是很简单，第二个选项需要大量编码。有没有更好的方法来实现这

实时更新 excel section HDFS hadoop apache-kafka streaming

hadoop - 将文件从 NFS 或本地 FS 复制到 HDFS

我正在尝试将大量文件(超过100k，总大小为2TB)从NFS复制到HDFS。什么是有效的方法。将其安装到边缘节点后，我尝试了以下选项hdfsdfs-put:它因内存错误而失败，传输也很慢distcp:获取由以下原因引起的错误:org.apache.hadoop.tools.mapred.RetriableFileCopyCommand$CopyReadException:java.io.FileNotFoundException:但是文件存在。我在不使用NFS安装位置的情况下对本地文件进行了相同的尝试。我知道distcp的警告之一是必须分发目的地。它也适用于来源吗？或者它是一个错误并且

hadoop HDFS apache java nfs distributed-system distcp

shell - 通过使用 shell 脚本过滤修改日期，将文件从 hdfs 文件夹复制到另一个 hdfs 位置

我的hdfs位置有1年的数据，我想将过去6个月的数据复制到另一个hdfs位置。是否可以直接从hdfs命令复制6个月的数据，或者我们是否需要编写shell脚本来复制最近6个月的数据？我已尝试使用hdfs命令来执行此操作，但没有成功。我尝试使用下面的shell脚本，它在创建TempFile但抛出错误之前工作正常$shscriptnew.shscriptnew.sh:line8:syntaxerror:unexpectedendoffile并且脚本不会进一步执行。下面是我使用的shell脚本。#!/bin/bashhdfsdfs-ls/hive/warehouse/data.db/all_h

shell hdfs section blockquote hadoop copy distcp

database - 如何仅当 hdfs 中有文件时才执行命令

我在Ambari的HDPsnadbox中使用NiFi和Hive。我有一个NiFi流，我将修改后的文件上传到hdfs，然后使用generateflowfile，我将查询loaddatainpath'hdfs/path/'intotabletablename传递给puthiveql处理器。效果很好，但我只想在“hdfs/path”指定的路径中有文件时这样做，因为当命令loadinpath执行时，hdfs目录会清空。我不知道我该怎么做。非常感谢! 最佳答案使用ListHDFS处理器并将处理器配置为频繁运行(例如每分钟..等)，Direc

database hdfs strong code section hadoop hive apache-nifi

hadoop - HDFS 无法使用 Hadoop 3.2 启动 : bash v3. 需要 2+

我正在构建一个由2个节点组成的小型Hadoop集群:1个主节点+1个工作节点。我使用的是最新版本的Hadoop(3.2)，所有操作均由root用户执行。在安装过程中，我已经能够hdfsnamenode-format。下一步是使用start-dfs.sh启动HDFS守护进程。$start-dfs.shStartingnamenodeson[master]bashv3.2+isrequired.Sorry.Startingdatanodesbashv3.2+isrequired.Sorry.Startingsecondarynamenodes[master]bashv3.2+isrequi

hadoop code root hdfs hadoop3

hudson - 如何在安装 hudson 的 hadoop 插件后对 hdfs 设置访问控制

我安装了启用hadoop的hudson插件。现在我发现我自己没有权限将任何数据放在那里。hudson如何配置hadoop对我来说一点也不明显。谁能告诉我如何更改这些权限？最佳答案 hadoop的hudson配置可以在$HUDSON_HOME/hadoop/dist/confhadoop的配置详情(将页面向下移至配置文件部分)。关于hudson-如何在安装hudson的hadoop插件后对hdfs设置访问控制，我们在StackOverflow上找到一个类似的问题：

hudson 何在 section hadoop

hadoop - 如何在非 Java 客户端中从 HDFS 读取文件

所以我的MRJob生成了一个报告文件，最终用户需要能够下载该文件，最终用户需要在普通Web报告界面上单击一个按钮，并让它下载输出。根据thisO'Reillybookexcerpt，有一个HTTP只读接口(interface)。它说它是基于XML的，但它似乎只是旨在通过Web浏览器查看的普通Web界面，而不是可以通过编程方式查询、列出和下载的东西。编写自己的基于servlet的接口(interface)是我唯一的办法吗？或者执行hadoopcli工具？最佳答案从Java以外的东西以编程方式访问HDFS的方法是使用Trift。HD

何在 hadoop section HDFS

performance - 从数据库中导出数据并写入HDFS(hadoop fs)

现在我正在尝试从数据库表中导出数据，并将其写入hdfs。问题是:名称节点会成为瓶颈吗？机制如何，名称节点会缓存一个切片(64MB)，然后将其提供给数据节点？有没有比编写hdfs更好的方法？因为我认为它没有利用并行机制。谢谢:) 最佳答案您是否考虑过使用Sqoop。Sqoop可用于从任何支持JDBC的数据库中提取数据并将其放入HDFS。http://www.cloudera.com/blog/2009/06/introducing-sqoop/Sqoopimport命令获取要运行的map作业的数量(默认为1)。此外，在并行化工作(映

中导 performance section Sqoop hadoop hdfs

206 207 208209210 211 212