草庐IT

ensure_dir_exists

全部标签

apache-spark - 错误 : path does not exist in spark submit with hadoop

我们正在使用命令/home/ubuntu/spark/bin/spark-submit--masteryarn--deploy-modecluster--class"SimpleApp"/home/ubuntu/spark/examples/src/main/scala/sbt/target/scala-2.11/teste_2.11-1.0.jar运行下面的脚本importorg.apache.spark.sql.SQLContextimportorg.apache.spark.sql._importorg.apache.spark.sql.types._importorg.apac

hadoop - 运行hadoop example,遇到 ".staging/job_1541144755485_0002/job.splitmetainfo does not exist",怎么办?

我的配置如下:Hadoop实验我用了两台机器,分别是pc720(10.10.1.1)和pc719(10.10.1.2)。jdk(版本1.8.0_181)由apt-get安装。Hadoop2.7.1下载自https://archive.apache.org/dist/hadoop/common/hadoop-2.7.1/,并放入/opt/第一步:我配置了/etc/bash.bashrc,添加了exportJAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64exportPATH=${JAVA_HOME}/bin:${PATH}exportHADOOP_HO

hadoop - FIWARE Cygnus : File exists in HDFS, 但无法写入数据

我正在使用NGSIHDFSSink通过Cygnus在HDFS上持久化。当收到来自Orion的第一个通知时,它会创建目录和包含数据的正确文件:/user/hdfs/openiot/Lamp_001_Lamp/Lamp_001_Lamp.txt但是,对于收到的下一个通知,它会显示以下错误:Therewassomeproblemwiththecurrentendpoint,tryingotherone.Details:CygnusPersistenceError./user/hdfs/openioLamp/Lamp_001_Lamp.txtfileexistsinHDFS,butcouldn

apache-spark - 亚马逊电子病历 : Spark - SparkException java IOException: Failed to create local dir in/tmp/blockmgr*

我有一个带有Spark的AWSEMR集群。我可以连接到它(spark):通过SSH连接到主节点后从主节点来自另一个AWSEMR集群但无法连接到它:从我的本地机器(macOSMojave)来自非emr机器,如Metabase和Redash我已阅读thisquestion的答案.我已经检查过所有节点上的文件夹权限和磁盘空间都没有问题。我的假设是我面临着类似的问题JamesWierzba在评论中提问。但是,我没有足够的声誉在那里添加评论。此外,考虑到它特定于AWSEMR,这可能是一个不同的问题。SSH连接到主节点后连接工作正常。#SSHedtomasternode$ssh-i~/identi

Hadoop reducer : How to ensure the reducers are evenly running over a number of nodes

我有一个场景,我不确定减少处理器的位置。i)我有一个输入文本文件,它有1到4之间平衡范围内的1000个整数。ii)让我们假设有一个4节点集群,每个节点有12个槽,其中4个分配为reducer-总共有16个reduce槽iii)我在驱动程序中设置了reducer的数量:jobConf.setNumReduceTasks(4);iii)最后我有一个分区方法是publicclassMyPartitionerextendsPartitioner{@OverridepublicintgetPartition(Textkey,Textvalue,intnumPartitions){returnIn

hadoop - 如何选择${mapred.local.dir}?

如果我配置了几个${mapred.local.dir}目录来存储MapTask的即时结果,这些目录挂载在不同的磁盘上。我的问题是:1.LocalDirAllocator.java是否用于管理${mapred.local.dir}目录?2.LocalDirAllocator.java的方法getLocalPathForWrite()是用来选择一个${mapred.local.dir}目录的? 最佳答案 1.WhetherLocalDirAllocator.javaisusedtomanage${mapred.local.dir}dir

hadoop - default.fs.name 和 hive.metastore.warehouse.dir 不冲突

嗨,当我尝试运行以下命令时LoaddataInpath'/data'intoTableTablename;在hiveshell中抛出以下错误Movefrom:hdfs://hadoopcluster/datato:file:/user/hive/warehouse/Tablenameisnotvalid.Pleasecheckthatvaluesforparams"default.fs.name"and"hive.metastore.warehouse.dir"donotconflict.我的default.fs.name属性在哪里fs.defaultFShdfs://hadoopcl

hadoop - hive : Replace string/pattern in row if it exists else do nothing

我有一张表A,其中包含ID、姓名、年龄。>idnameage>{20}Joan12>3James12>12Jill12>{54}Adam12>{10}Bill12我需要移除{}周围的“id”字段。我试过这个:translate(regexp_extract(id,'([^{])([^}])',2),'{','')它有效,但对于没有{}的值返回null。id312有没有办法让我得到输出为???id203125410 最佳答案 您可以使用regexp_replaceudf来删除“{}”,例如:selectregexp_replace(i

hadoop - 在/tmp 中设置 hadoop.tmp.dir

我在Hadoop文档中看到1hadoop.tmp.dir的默认值是/tmp/hadoop-${user.name}但如果我这样设置,当机器重新启动时,我是否丢失数据?我的意思是,也许我不必在真正的/tmp中设置它,但我需要在/home/myuser/tmp/hadoop-${user.姓名?提前致谢!添加信息:我在/tmp/hadoop-hduser中设置了它,但是由于电源问题导致计算机中断,今天我收到此消息:CallFromjava.net.UnknownHostException:hduser-machine:hduser-machineto本地主机:54310连接异常失败:jav

hadoop - hadoop.tmp.dir 的 VERSION 文件有什么用

最近我格式化了namenode并且在启动hadoop守护进程时datanode失败并给出如下错误2019-01-1110:39:15,449WARNorg.apache.hadoop.hdfs.server.common.Storage:Failedtoaddstoragedirectory[DISK]file:/app/hadoop/tmp/dfs/data/java.io.IOException:IncompatibleclusterIDsin/app/hadoop/tmp/dfs/data:namenodeclusterID=CID-76c39119-061a-4ecf-9de1