hdfs_clusters_草庐IT

python - 使用 hdfs3 读取文件失败

我正在尝试使用hdfs3模块使用Python读取HDFS上的文件。importhdfs3hdfs=hdfs3.HDFileSystem(host='xxx.xxx.com',port=12345)hdfs.ls('/projects/samplecsv/part-r-00000')这产生[{'block_size':134345348,'group':'supergroup','kind':'file','last_access':1473453452,'last_mod':1473454723,'name':'/projects/samplecsv/part-r-00000/','o

python hdfs3 39 hdfs samplecsv hadoop

java - 服务 'hdfs' 检查失败 : java.net.UnknownHostException - Hortonworks

嗨，我正在学习Hortonworks，我遇到了一个问题openambari->FilesView,orHive,Pig.我该如何解决这个问题，检测到的问题服务“hdfs”检查失败:java.net.UnknownHostException:sandbox.hortonworks.com折叠堆栈跟踪服务“hdfs”检查失败:java.lang.IllegalArgumentException:java.net.UnknownHostException:sandbox.hortonworks.comatorg.apache.hadoop.security.SecurityUtil.buil

UnknownHostException java org doFilter hadoop hdfs hortonworks-data-platform

hadoop - Spark Standalone 和 HDFS 的数据局部性

我有一个工作需要访问HDFS上的Parquet文件，我想尽量减少网络事件。到目前为止，我在相同的节点上启动了HDFSDatanodes和SparkWorker，但是当我启动我的工作时，数据局部性总是在任何地方，它应该是NODE_LOCAL，因为数据分布在所有节点中。我应该配置任何选项来告诉Spark在数据所在的位置启动任务吗？最佳答案您要查找的属性是spark.locality.wait。如果你增加它的值(value)，它将在更多的本地执行作业，因为spark不会仅仅因为数据所在的那个很忙就将数据发送给其他worker。虽然，将

Standalone hadoop section spark configuration apache-spark hdfs

python - 使用 python 在远程机器上列出 HDFS 目录

我正在使用python进行日志挖掘工作。在mapreduce之前，程序应该知道远程机器上的hdfs中有哪些文件，以制作日志挖掘对象文件列表。为此，我需要在远程计算机上执行hadoop命令hadoopfs-ls/var/log/*20161202*。在谷歌上长时间搜索后，我未能选择一个pyspark界面来获取文件列表。pyspark好像没有提供这样的接口(interface)。我看到一个SO回答说我需要使用hdfscli并将其导入到我的python脚本中。这也是唯一的办法吗？我不能相信Spark没有hdfs文件列表方法。最佳答案不

上列 python 39 ctsats supergroup hadoop hdfs pyspark

oracle - 如何sqoop将oracle clob数据导入hdfs上的avro文件

将数据从oracleDBsqoop到HDFS时出现奇怪的错误。Sqoop无法将clob数据导入到hadoop上的avro文件中。这是sqoop导入错误:ERRORtool.ImportTool:ImportedFailed:CannotconvertSQLtype2005我们是否需要向sqoopimport语句添加任何额外参数才能将clob数据正确导入avro文件？最佳答案更新:找到解决方案，我们需要为clob列添加--map-column-java。例如:如果列名是clob那么我们已经通过--map-column-javacl

oracle sqoop code section clob hadoop avro

hadoop - 在 HDFS 中将多个文本文件连接成一个非常大的文件

我有多个文本文件。它们的总大小超过了我可用的最大磁盘大小(~1.5TB)Spark程序从HDFS读取单个输入文本文件。所以我需要将这些文件合二为一。(无法重写程序代码，只给了*.jar文件执行)HDFS有这样的能力吗？我怎样才能做到这一点？最佳答案我从你的问题中了解到你想将多个文件连接成一个文件。这是一个解决方案，可能不是最有效的方法，但它确实有效。假设您有两个文件:file1和file2并且您希望获得一个组合文件作为ConcatenatedFile.这是脚本。hadoopfs-cat/hadoop/path/to/file/f

本文 hadoop section code file

scala - 如何使用循环在 Spark-Scala 的 HDFS 中迭代多个文本文件？

我在集群中工作。我需要为HDFS中包含的每个文本文件运行相同的spark操作。但是我想在不从shell命令行为每个文件提交sparkjobshell-command的情况下这样做，因为文件数是90。我该怎么做？我的一个文件的代码结构如下:objectSparkGraphGen{defmain(args:Array[String]){valconf=newSparkConf().setMaster("yarn").setAppName("dataset")valsc=newSparkContext(conf)valsqlContext=neworg.apache.spark.sql.SQ

Spark-Scala 本文 file code 34 scala hadoop apache-spark hdfs

hadoop - 如何恢复移出/dataN/dfs/dn/当前目录的HDFS block ？

由于一系列不幸的事件，一个程序从/dataN/dfs/dn/current/BP-XXXXXXX/current/finalized/subdirN/subdirN/blk_NNNNNNNNNN进入/tmp/blk_NNNNNNNNNN我没有从程序中获取任何日志记录来判断原始subdirN/subdirN/目录的位置。有什么方法可以根据fsimage文件、block文件本身或其他一些元数据找出这个block应该在哪里？我通过查找相应的*.meta文件能够恢复一些block，但仍然存在一些漏洞。复制使我免于最糟糕的情况，但我仍然缺少5个我想尝试恢复的“关键任务”文件。从hdfsfsck/

hadoop dataN code section block hdfs

hadoop - 如何使用spark将数据保存在HDFS中？

我想使用SparkStreaming从Kafka检索数据。现在，我想将我的数据保存在远程HDFS中。我知道我必须使用函数saveAsText。但是，我不知Prop体如何指定路径。如果我这样写是否正确:myDStream.foreachRDD(frm->{frm.saveAsTextFile("hdfs://ip_addr:9000//home/hadoop/datanode/myNewFolder");});ip_addr是我的hdfs远程服务器的IP地址。/home/hadoop/datanode/是我安装hadoop时创建的DataNodeHDFS目录(不知道是不是一定要指定这个目

hadoop spark code section myNewFolder apache-spark hdfs spark-streaming

linux - 如果本地节点上也存在相同的路径，HDFS 会感到困惑

我使用的是CDH5.4.1集群提供的Hadoop。我面临的问题是HDFS上有一个路径为/tmp/data的目录它有一些csv文件说abc.csv现在，这个相同的文件夹也存在于节点(比如节点1)的一个本地linuxfs上，并且包含一个csv文件xyz.csv。当我从node1运行以下命令时:hdfsdfs-ls/tmp/data/*.csv我希望输出显示abc.csv但是我收到一条错误消息ls:`/tmp/data/xyz.csv':Nosuchfileordirectory当在本地linuxfs上没有相同文件夹路径的其他节点上运行时，相同的命令会给出正确的输出。我的理解是，因为我正在使

困惑感到 csv section data linux hadoop hdfs hadoop2