hdfs_clusters_草庐IT

hadoop - 无法在 HDFS "datanode"中写入数据 - 节点已添加到排除列表中

我在同一个jvm中运行“namenode”和“datanode”，当我尝试写入数据时出现以下异常org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicy$NotEnoughReplicasException:在org.apache.hadoop.hdfs.server.blockmanagement.BlockPlacementPolicyDefault.chooseRandom(BlockPlacementPolicyDefault.java:836)在org.apache.hadoop.hdfs.serve

hadoop - Flume HDFS 接收器写入错误 "no protocol: value"

尝试运行flume作业时出现以下错误。我在cloudera设置上运行它。Kafka是源Morphline用作拦截器，并从中创建avro记录。接收器是HDFS测试环境中的完全相同的文件(morphline、avro模式等、flume配置)。但是在另一个环境中它会抛出这个错误。2019-07-1514:24:17,669WARNorg.apache.flume.sink.hdfs.BucketWriter:CaughtIOExceptionwritingtoHDFSWriter(noprotocol:value).Closingfile(hdfs://8.8.8.8:8020/user/h

amp protocol java flume BucketWriter hadoop hdfs

amazon-web-services - EC2(持久)HDFS 和 EMR( transient )HDFS 如何通信

我已经在AmazonEC2上使用NameNode/DataNode和其他一些服务设置了一个Hadoop集群。我的摄取工作将数据带入EC2HDFS集群(比方说hdfs://ec2-hdfs/)。现在我有一个每周批量运行的管道。我正在启动一个新的AmazonEMR集群来运行我的计算。处理完成后，我将终止EMR集群。需要在EMR中运行的我的spark作业的输入位于EC2HDFS(hdfs://ec2-hdfs/)中。如何从新创建的EMR集群访问它？我相信在EMR集群启动期间应该有一些选项(bootstrap/VPC/子网)可用。最佳答案

amazon-web-services HDFS section code apache-spark hadoop amazon-ec2

java - HDFS Datanode 因 OutOfMemoryError 崩溃

由于OutOfMemoryError，我的Cloudera集群HDFSDatanodes反复崩溃:java.lang.OutOfMemoryError:JavaheapspaceDumpingheapto/tmp/hdfs_hdfs-DATANODE-e26e098f77ad7085a5dbf0d369107220_pid18551.hprof...Heapdumpfilecreated[2487730300bytesin16.574secs]##java.lang.OutOfMemoryError:Javaheapspace#-XX:OnOutOfMemoryError="/usr/

OutOfMemoryError Datanode code section java hadoop hdfs cloudera

apache-spark - 不完整的 HDFS URI，没有主机，altohugh 文件确实存在

我正在尝试使用以下代码通过pyspark访问我在hdfs中的文件:spark=SparkSession.builder.appName("MongoDBIntegration").getOrCreate()receipt=spark.read.json("hdfs:///bigdata/2.json")我得到一个错误IncompleteHDFSURI,nohost:hdfs:///bigdata/2.json但是如果我写命令hdfsdfs-cat/bigdata/1.json它会打印我的文件最佳答案错误消息说您没有在HDFSUR

apache-spark altohugh section code bigdata hadoop pyspark hdfs hdp

java - 无法从 HDFS 复制到 S3A

我有一个类使用ApacheFileUtil将目录内容从一个位置复制到另一个位置:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileStatus;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.FileUtil;importorg.apache.hadoop.fs.LocatedFileStatus;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.

java HDFS code hadoop amazon-s3

hadoop - 根据 hdfs 中的模式列出文件名

我正在hdfs中搜索特定的文件模式。我的要求是，我需要搜索一个存在于特定位置的具有两个字符的文件名。例如:order_items_20181110_transactions.datorder_items_20181211_transactions.datorder_items_20181312_transactions.dat我需要选择第二个文件，其中包含2018和11仅在2018之后的两个位置我的意思是有没有一种搜索方式如下hdfsdfslsorder_items_2018..11*两个点表示任何未知的字符。最佳答案您可以像下

hadoop hdfs section order_items code ls

scala - 如何在 Scala/Spark 中将文件从 Hadoop (hdfs) 复制到远程 SFTP 服务器？

在Hadoop的文件系统中，我有Excel文件。我的任务是将该文件从Hadoop复制到我的Scala/Spark应用程序中的远程SFTP服务器。我认为直接这样做是行不通的。如果我的担心是正确的，我需要采取后续步骤:1)从Hadoop中删除excel文件到本地目录。例如，我可以使用ScalaDSL来实现:importscala.sys.process._s"hdfsdfs-copyToLocal/hadoop_path/file_name.xlsx/local_path/"!2)从本地目录发送文件到远程SFTP服务器。您可以为这项任务推荐哪种图书馆？我的推理正确吗？解决我的问题的最佳方法

何在 Hadoop code section strong scala apache-spark

hadoop - HBase数据丢失？缺少 HDFS 追加支持？在没有启用 HDFS 追加支持的情况下运行 HMaster？

我正在使用HBase。我已经安装并运行了分布式环境。但是在HMaster的接口(interface)页面中显示了警告:“您当前正在运行HMaster，但未启用HDFS追加支持。这可能会导致数据丢失”我该如何解决这个问题？如果我不用CDH3的hadoop呢？有人可以给我非常详细的说明吗？谢谢!!!! 最佳答案正如您刚刚发现的，您不能(不应该)将Hadoop0.20.*的标准Apache版本与HBase一起使用，因为它缺少附加支持HDFS-200。没有支持追加的官方ASFHadoop版本。Cloudera的release是最简单的方法

HDFS HMaster section hadoop HBase

hadoop - 尝试更新 HDFS 中的文件时 HDFS 路径发生变化

我是Hadoop和HDFS的新手，所以当我从本地(Ubuntu10.04)复制到本地主机上单个节点上的HDFS时，可能是我做错了什么。初始副本工作正常，但当我修改我的本地输入文件夹并尝试复制回HDFS时，HDFS路径发生变化。~$$HADOOP_HOME/bin/hadoopdfs-copyFromLocal/tmp/anagram/user/hduser/anagram~$$HADOOP_HOME/bin/hadoopdfs-ls/user/hduser/anagramFound1items-rw-r--r--1hdusersupergroup40676752011-08-2905:

HDFS hadoop anagram hduser user