hdfs_rtp_草庐IT

xml - Pyspark:hdfs 中没有这样的文件或目录

我正在尝试使用pyspark解析xml文件。我的文件存在于HDFS中。我在下面写了我的代码，但是当我执行它时，它无法识别位置。请帮忙-下面是我的代码代码:importxml.etree.ElementTreeasETfilenme=sc.wholeTextFiles("/user/root/CDs")defadd_hrk(file):tree=ET.parse(file)doc=tree.getroot()filenme.map(lambda(filename,content):filename).foreach(add_hrk)错误:IOError:[Errno2]Nosuchfil

hadoop - Hive 无法在 hdfs 中创建目录并且无法启动？

我正在远程模式下部署hive2.3，在另一台机器上使用mysql数据库作为Metastore。我即将完成整个过程，我正在通过运行bin/hive检查部署是否正常工作然后我得到这个错误:Exceptioninthread"main"java.lang.RuntimeException:Couldn'tcreatedirectory/user/hive/tmp/54de671c-0236-49e2-b967-7c3da8973f3a_resources我知道这是由hive-site.xml中的属性hive.downloaded.resources.dir设置的。我将其设置为/user/hi

hadoop Hive section code

scala - Cassandra 全表转储到 HDFS

我正在尝试使用来自Datastax的Spark-Cassandra连接器(v2.0.2，Sparkv2.0.0):valdf=sparkSession.sparkContext.cassandraTable[MyRec](keyspace,tableName).toDF()df.write.format("orc").save(hdfsLocation)它看起来非常简单并且运行了一段时间但我开始遇到这样的异常:Causedby:com.datastax.driver.core.exceptions.ReadFailureException:Cassandrafailureduringr

Cassandra scala code spark section hadoop apache-spark spark-dataframe

hadoop - 如何向 Tez 添加额外的库以支持不同的 HDFS 后端？

当我使用MapReduce作为Hive背后的执行引擎时，我可以使用替代后端到我的defaultFS.impl。使用类似于以下的语法:LOCATION'协议(protocol)://地址:端口/目录';我想使用Tez执行引擎而不是MapReduce，但不知道在哪里添加我的shim库(jar文件)以便Tez识别我的新协议(protocol)。这些放在什么目录里？我需要向tez-site.conf添加指令吗？额外输入:Vertexfailed,vertexName=Map6,vertexId=vertex_1504790331090_0003_1_01,diagnostics=[Vertex

hadoop HDFS apache FileSystem hive azure-hdinsight tez

scala - 将 DataFrame 作为文本文件加载到 HDFS 和 S3

这个问题在这里已经有了答案:WritesingleCSVfileusingspark-csv(16个答案)关闭5年前。我正在尝试使用以下代码将DataFrame作为文本格式文件加载到HDFS和S3中。DataFrame名称为finalData。valtargetPath="/user/test/File"valnow=Calendar.getInstance().getTime()valformatter=newSimpleDateFormat("yyyyMMddHHmmss")valtimeStampAfterFormatting=formatter.format(now)valta

DataFrame 本文 section code test scala hadoop apache-spark hdfs

hadoop - 如何使用 Ambari 通过浏览器访问 hdfs-site.xml 和 core-site.xml？

我需要文件hdfs-site.xml和core-site.xml可以通过url访问，因为我正在安装的服务需要在安装时检索这些文件。我正在使用Ambari来管理我的hdfs和我的hadoop/堆栈。最佳答案看起来Ambari本身没有能力直接这样做。下载配置的一种方法是使用“服务操作”下的“下载客户端配置”菜单选项，它会为您提供配置，但在必须解压缩的tar.gz存档中。API调用的例子是:http://c6401:8080/api/v1/clusters/cl1/services/HDFS/components/HDFS_CLIEN

site core-site section hdfs-site hadoop hdfs ambari

java - 从 Java 中的 spark 转换函数写入 HDFS 中的文件

我的问题类似于一个已经回答过的问题，该问题在scala中用于读取文件。ReadingfilesdynamicallyfromHDFSfromwithinsparktransformationfunctions我知道累加器使用它们将结果返回给驱动程序并写入驱动程序中的HDFS。在我们的用例中，每个执行程序的输出都很大，所以我正在寻找一种在Java转换中写入HDFS的方法。谢谢! 最佳答案终于找到了一个优雅的方式来实现这一目标。为hadoop配置创建一个广播变量Configurationconfiguration=JavaSparkC

spark java section Configuration stackoverflow hadoop apache-spark

hadoop - 尝试将 Windows pentaho 连接到虚拟机 HDFS 时出错

我是pentaho和大数据的新手......每次我尝试将我的windowspentaho连接到我的基于Linux的虚拟机HDFS..弹出这个错误..我已经尝试了几个解决方案但是没有他们运气好……如果你们中的任何人能提出解决方案，我将不胜感激……提前致谢...!!连接到数据库时出错[hadoop]:org.pentaho.di.core.exception.KettleDatabaseException:尝试连接数据库时出错连接到数据库时出错:(使用类org.apache.hadoop.hive.jdbc.HiveDriver)没有找到适合jdbc的驱动:hive://(虚拟机的ip地址

时出 Windows section 配置单 hadoop pentaho-data-integration

hadoop - HDFS 不复制 block

我最近安装了Hadoop(Cloudera)。我得到一个错误，我在复制block下(在ClouderaManager中，它是安装的gui)。所以当我跑的时候hdfsdfsadmin-report我明白了ConfiguredCapacity:555730632704(517.56GB)PresentCapacity:524592504832(488.56GB)DFSRemaining:524592193536(488.56GB)DFSUsed:311296(304KB)DFSUsed%:0.00%Underreplicatedblocks:5Blockswithcorruptreplic

不复 hadoop section block 新集 hdfs cloudera-cdh

python - 尝试从 Spyder 加载 HDFS 文件时连接被拒绝

我在名为Spyder的PythonIDE中使用ApacheSPARK和Python(pyspark)。我正在尝试像这样从HDFS加载文件:hdfs_file=sc.textFile(hdfs_path)我确保路径正确并且文件存在，但是当我执行命令时我得到下一个错误行:Py4JJavaError:Anerroroccurredwhilecallingo24.partitions.:java.net.ConnectException:CallFromXXXX.local/127.0.0.1tolocalhost:9000failedonconnectionexception:java.ne

python Spyder section ConnectException code hadoop apache-spark hdfs