hdfs_clusters

java - 如何在 java 中使用 sparkSubmit 更改 hdfs 中的用户

与jvm中使用的用户相比，我想更改hdfs中使用的用户，因为出现此错误:Streamspark:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=www,access=WRITE,node="/user/www/.sparkStaging/application_1460635834146_0012":hdfs:hdfs:drwxr-xr-x我想将用户“www”更改为另一个具有写入权限的“joe”。(我没有文件夹“user/www”，但我有“user/joe”)这是我的java代码:LOGGE

java 何在 InputStreamReaderRunnable spark hadoop apache-spark

networking - Hadoop HDFS - 无法连接到主服务器上的端口

我已经设置了一个小型Hadoop集群用于测试。NameNode(1台机器)、SecondaryNameNode(1台)和所有DataNodes(3台)的设置非常顺利。这些机器被命名为“master”、“secondary”和“data01”、“data02”和“data03”。所有DNS均已正确设置，无密码SSH已从主/辅助设备配置到所有机器并返回。我使用bin/hadoopnamenode-format格式化集群，然后使用bin/start-all.sh启动所有服务。使用jps检查所有节点上的所有进程是否已启动并正在运行。我的基本配置文件如下所示:fs.default.namehdf

networking Hadoop code localhost port hdfs

hadoop - 使用 Flume 将文件从远程节点传输到 HDFS

我有一堆压缩成*gz格式的二进制文件。这些是在远程节点上生成的，必须传输到位于数据中心服务器之一的HDFS。我正在探索使用Flume发送文件的选项；我探索了使用假脱机目录配置执行此操作的选项，但显然这仅在文件目录位于本地同一HDFS节点上时才有效。有什么解决这个问题的建议吗？最佳答案你为什么不运行两个不同的Flume代理，一个在远程机器上，一个在你的日期节点上。远程机器上的代理可以读取假脱机目录并将其发送到avrosink。并且datanode上的代理可以读取avro源并将数据转储到HDFS。

hadoop Flume section 并将 HDFS bigdata

scala - 尝试写入 hdfs : Server IPC version 9 cannot communicate with client version 4 时出错

我正在尝试使用scala将文件写入hdfs，但我不断收到以下错误Causedby:org.apache.hadoop.ipc.RemoteException:ServerIPCversion9cannotcommunicatewithclientversion4atorg.apache.hadoop.ipc.Client.call(Client.java:1113)atorg.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:229)atcom.sun.proxy.$Proxy1.getProtocolVersion(UnknownSource

时出 version hadoop java apache scala hdfs

hadoop - 哪些 HDFS 操作是原子的？

我正在尝试编写代码将文件导入HDFS以用作配置单元外部表。我发现使用类似的东西:富|ssh主机名"hdfsdfs-put-/destination/$FILENAME"可能会导致创建临时文件然后在完成后重命名的错误类型。这可能导致目录列表和查询执行之间的配置单元竞争条件。一种解决方法是将文件复制到一个临时目录并将文件“hdfsdfsmv”放置到位。具体和一般/学术问题是:“hdfsdfs-mv”命令是原子的，对吧？还有哪些HDFS命令或操作是原子的？几乎同时发出的两个“hdfsdfs-mkdir”命令是否可以认为它们都成功了？在将文件移动到位时，是否有更好的方法来避免与Hive发生争用

hadoop HDFS li section strong atomic mv

hadoop - 使用 --master yarn-cluster : issue with spark-assembly 运行 spark-submit

我在基于Kerberos的集群上运行Spark1.1.0、HDP2.1。我可以使用--masteryarn-client成功运行spark-submit，并且结果已正确写入HDFS，但是，该作业没有显示在HadoopAllApplications页面上。我想使用--masteryarn-cluster运行spark-submit但我仍然收到此错误:appDiagnostics:Applicationapplication_1417686359838_0012failed2timesduetoAMContainerforappattempt_1417686359838_0012_0000

spark spark-assembly section spark-submit hadoop apache-spark hadoop-yarn

带有通配符的 Hadoop HDFS 副本？

我想将特定模式的文件从hdfs复制到同一hdfs集群中的另一个位置。dfsshell似乎无法处理这个问题:hadoopdfs-cp/tables/weblog/server=jeckle/webapp.log.1*/tables/tinylog/server=jeckle/没有错误返回:但也没有文件被复制。最佳答案您需要在包含通配符的路径中使用双引号，如下所示:hdfsfs-cp"/path/to/foo*"/path/to/bar/ 关于带有通配符的HadoopHDFS副本？，我们

Hadoop HDFS section code stackoverflow copy

hadoop - 将 Hive 表导出到 hdfs 中的 csv

我知道在将表保存到Hive中的csv(或其他文本文件)时，分隔符存在一个已知问题。所以我想知道你们是否可以帮助我解决这个问题。我有一个现有的表(表A)，我想将它以csv格式保存到hdfs。通过阅读其他回复，我相信我必须首先创建一个外部表(但我不确定整个事情会是什么样子)。有人能帮忙吗？最佳答案在hiveshell中试试这个:INSERTOVERWRITELOCALDIRECTORY'/path/to/hive/csv'ROWFORMATDELIMITEDFIELDSTERMINATEDBY','SELECT*FROMhiveta

hadoop Hive section code csv

scala - 使用scala读取后如何删除hdfs目录中的文件？

我使用fileStream从Spark(流上下文)读取hdfs目录中的文件。如果我的Spark关闭并在一段时间后启动，我想读取目录中的新文件。我不想读取目录中已被Spark读取和处理的旧文件。我在这里尽量避免重复。vallines=ssc.fileStream[LongWritable,Text,TextInputFormat]("/home/File")有什么代码片段可以提供帮助吗？最佳答案您可以使用FileSystemAPI:importorg.apache.hadoop.fs.{FileSystem,Path}valfs=

scala hdfs section code FileSystem hadoop apache-spark spark-streaming

hadoop - HDFS 减少复制因子

我已将复制因子从3减少到1，但没有看到来自名称节点或数据节点之间的任何事件来删除过度复制的HDFS文件block。有没有办法监控或强制执行复制作业？最佳答案更改dfs.replication将仅应用于您创建的新文件，但不会修改已存在文件的复制因子。要更改已存在文件的复制因子，您可以运行以下命令，该命令将在HDFS中的所有文件上递归运行:hadoopdfs-setrep-w1-R/ 关于hadoop-HDFS减少复制因子，我们在StackOverflow上找到一个类似的问题：

hadoop HDFS section code stackoverflow replication

233 234 235236237 238 239