hdfs_clusters

java - Avro 文件写入 HDFS 导致 block 大小无效

从HDFS读回文件时，我经常看到这些错误:{"id":"646626691524096003","user_friends_count":{"int":83},"user_location":{"string":"他の星から副都心線経由"},"user_description":{"string":"Exceptioninthread"main"org.apache.avro.AvroRuntimeException:java.io.IOException:Blocksizeinvalidortoolargeforthisimplementation:-40atorg.apache.a

hadoop - 如何让HDFS的replica block的位置自己设置？

我的目标是让HDFS的replicablock的位置节点自己定。查看HDFS的代码后，我在这里找到了调用轨迹(hadoop2.2版本)BlockManager.getDatanodeDescriptors(List)line:1400BlockManager.chooseTarget(String,int,DatanodeDescriptor,HashMap,long,List)line:1378FSNamesystem.getAdditionalBlock(String,long,String,ExtendedBlock,HashMap,List)line:2477NameNodeR

replica hadoop String final section hdfs

hadoop - hdfs 核心节点磁盘已满，调查？

我们在aws上的hdfs之上有一个spark集群，具有2个核心节点和1个主节点。最近我发现所有作业都失败了，因为两个核心节点上的磁盘都已满。经过进一步调查发现:/data/var/lib/hadoop/dfs/current/BP-*/current/finalized/subdir*/*已满。我能够看到数据，但我想弄清楚是哪个作业实际创建了这些文件，这些文件占用了近600-700GB的空间，因此我们可以防止将来发生这种情况。有人可以告诉我在哪里/如何开始调查吗？最佳答案检查4040上作业的用户界面....您可能会找到一些东西。

hadoop hdfs section stackoverflow 进一 apache-spark cluster-computing diskspace

hadoop - 如何删除HDFS中超过x天的数据

如何删除早于x天的数据。在linux它非常简单，但是在hdfs发现困难。此外甚至hdfsdfs-ls/正在提供未排序的有序数据。最佳答案这是执行此操作的代码片段:days_diff=10now=$(date+%s)hdfsdfs-ls/path/todir/|whilereadf;dodir_date=`echo$f|awk'{print$6}'`filename=`echo$f|awk'{print$8}'`difference=$((($now-$(date-d"$dir_date"+%s))/(24*60*60)))if[

中超 hadoop section code filename hdfs

hadoop - 哈HDFS : Initialization failed for Block pool <registering> (Datanode Uuid unassigned)

尝试在HAHDFS集群中启动数据节点时出现以下错误2016-01-0622:54:58,064INFOorg.apache.hadoop.hdfs.server.common.Storage:Storagedirectory[DISK]file:/home/data/hdfs/dn/hasalreadybeenused.2016-01-0622:54:58,082INFOorg.apache.hadoop.hdfs.server.common.Storage:AnalyzingstoragedirectoriesforbpidBP-1354640905-10.146.52.232-14

Initialization registering hadoop datanode apache hdfs

java - 如何解析位于 HDFS 中的 XML 文件并追加子节点

我正在尝试将每个MR作业的计数器和错误记录记录到一个应该存储在HDFS中的XML文件中。我创建了一个带有名为LogMessage()的静态函数的类，以便所有MR作业都将调用此函数。每当每个MR作业调用LogMessage()时，它都必须在xml文件中附加子节点(在我的例子中是属性)，如果它已经存在的话。这里的问题是我无法解析存储在HDFS中的XML文件以附加新的子节点。我没有使用XMLInputFormatReader，因为此日志记录不需要任何mapreduce程序。我试过的是publicfinalclassLoggingCounter{publicstaticintLogMessag

位于 java 34 gt lt xml file hadoop

python - 直接在HDFS中生成文件

有没有办法直接在HDFS上生成文件？我想避免生成本地文件，然后通过hdfs命令行，如:hdfsdfs-put-"file_name.csv"复制到HDFS。或者有什么python库吗？最佳答案你试过HdfsCli了吗？？引用段落ReadingandWritingfiles:#Loadingafileinmemory.withclient.read('features')asreader:features=reader.read()#DirectlydeserializingaJSONobject.withclient.read(

中生成文 section reader noreferrer python hadoop hdfs

hadoop - AmazonS3Exception 错误请求 : distcp from frankfurt s3 to emr hdfs failing

我正在尝试将文件从法兰克福(eu-central-1)的s3存储桶复制到我在爱尔兰(eu-west-1)通过EMR托管的hdfs。我尝试在以下位置执行的复制命令:hdfsdfs-cp"s3a:///"/user/hadoop/和s3-dist-cp--src"s3a:///"--desthdfs:///user/hadoop/--srcPattern和hadoopdistcp"s3a:///"/user/hadoop/在所有情况下(以及关于所有这些命令的额外选项和s3、s3a、s3n的各种排列)我确实得到类似以下异常的信息:16/01/1511:48:24ERRORtools.Dist

AmazonS3Exception 3Exception hadoop java apache amazon-web-services amazon-s3 emr

java - 如何使用 Java API 访问远程 HDFS 集群的配置 xml 文件？

我有一个名称节点地址(IP地址和端口)，但我不知道配置文件(即core-site.xml、hdfs-site.xml等)在本地文件系统上的位置。我想访问配置详细信息。我知道通过执行以下操作我可以获得详细信息，Configurationconf=newConfiguration();conf.addResource(filepathofcore-site.xml);conf.addResource(filepathofhdfs-site.xml);它在我知道文件路径的本地机器上运行。但是我不知道文件在远程机器上的位置。有什么方法可以访问配置？最佳答案

java section conf FileSystem hadoop

scala - 在 HDFS 上写入 DataFrame 期间出现 SparkException

我正在使用YARN在Hadoop集群上运行以下代码。它解析一些电子邮件并执行情感注释，最后将结果DataFrame写入HDFS上的Parquet表。不幸的是，它在HDFS上最后一个数据帧写入的#66行一直失败，错误显示在底部。无论如何，我无法解释为什么每当我使用数据集的一小部分样本时它都会成功终止。objectETLDriver{valappName="ENRON-etl"valconf=newSparkConf().setAppName(appName)valsc=newSparkContext(conf)defmain(args:Array[String]):Unit={valal

SparkException DataFrame java val code scala hadoop apache-spark

192 193 194195196 197 198