草庐IT

ensure_dir_exists

全部标签

hadoop - SparkR 错误 : The root scratch dir:/tmp/hive on HDFS should be writable

我正在尝试初始化SparkR,但出现权限错误。我的Spark版本是spark-2.2.1-bin-hadoop2.6。我搜索了这个错误以及如何解决它,我发现了几个相关的主题。但是,我无法使用与这些主题相同的方法来解决它,他们提供的解决方案(以及我尝试过的解决方案)是使用以下命令授予/tmp/hive目录权限:sudo-uhdfshadoopfs-chmod-R777/tmp/hive有足够知识的人可以给我另一种可能的解决方案吗?错误堆栈跟踪如下:$sudo./bin/sparkRRversion3.4.2(2017-09-28)--"ShortSummer"Copyright(C)20

sql - 使用 NOT EXISTS 重写查询的指导

我们有一个每天多次针对不同来源运行的查询。每次运行40+分钟,我们正在尝试看看是否可以减少查询执行时间查询所做的只是尝试向现有表中添加新行(通过比较键)SELECTA.*FROM(SELECT*FROMA)ALEFTOUTERJOIN(SELECTf1,f11FROMBWHEREf13IN(SELECTf13FROMC))BONA.f1=B.f1ANDnvl(A.f11,'NULL')=nvl(B.f11,'NULL')WHEREisnull(B.f1)ANDisnotnull(A.f1)我在做什么SELECTA.*.FROM(SELECT*FROMA)AWHERENOTEXISTS(

hadoop - 在 Hive 中添加 JAR 给出错误 "Query returned non-zero code: 1, cause:/user/hive/warehouse/abc.jar does not exist."

我创建了一个UDF并将jar导出为abc.jar。将jar复制到/user/hive/warehouse中的hdfs。现在,我遇到以下错误:hive>ADDJAR/user/hive/warehouse/abc.jar;/user/hive/warehouse/abc.jardoesnotexistQueryreturnednon-zerocode:1,cause:/user/hive/warehouse/abc.jardoesnotexist.hive>当我这样做时,hadoopfs-ls/user/hive,我可以在/user/hive/warehouse看到abc.jar路径。我

Maven 依赖项 : non existing library 'hadoop-common-2.6.0-cdh5.9.0.jar'

我正在尝试实现一个Spark应用程序WordCount,但是当我添加hadoop-common依赖项时出现错误:'MavenDependencies'referencesnonexistinglibrary'/root/.m2/repository/org/apache/hadoop/hadoop-common/2.6.0-cdh5.9.0/hadoop-common-2.6.0-cdh5.9.0.jar'这是我的pom.xml:org.scala-langscala-library2.10.6org.apache.hadoophadoop-common2.6.0-cdh5.9.0ju

python - Spark Python提交报错: File does not exist: pyspark. zip

我正在尝试在yarn-cluster模式下提交pythonspark应用程序。Seq(System.getenv("SPARK_HOME")+"/bin/spark-submit","--master",sparkConfig.getString("spark.master"),"--executor-memory",sparkConfig.getString("spark.executor-memory"),"--num-executors",sparkConfig.getString("spark.num-executors"),"python/app.py")!我遇到以下错误,D

斯卡拉 Spark /鲨鱼 : How to access existing Hive tables in Hortonworks?

我正在尝试查找有关该主题的方法的一些文档/描述,请帮忙。我安装了Hortonworks的Hadoop2.2.0以及一些我需要查询的现有Hive表。HiveSQL在单个节点和集群上的运行速度极慢且不合理。我希望鲨鱼能更快地工作。从Spark/Shark文档中我无法弄清楚如何让Shark与现有的Hive表一起工作。任何想法如何实现这一目标?谢谢! 最佳答案 您需要在特定于shark的配置单元目录中配置Metastore。在我回答的类似问题中提供了详细信息here.总而言之,您需要将hive-default.xml复制到hive-site

hadoop - namenode.NameNode : Could not initialize shared edits dir

您好,我在HA集群配置时间遇到了所有这些错误。请帮助我哪里错了。14/09/0811:13:38INFOnamenode.AclConfigFlag:ACLsenabled?false14/09/0811:13:38INFOcommon.Storage:Lockon/usr/local/hadoop/dfs/tmp/dfs/name/in_use.lockacquiredbynodename1170@n314/09/0811:13:38WARNnamenode.FSNamesystem:Encounteredexceptionloadingfsimagejava.io.IOExcept

hadoop - Sqoop增量导入 "Cannot append files to target dir"

我在使用Sqoop将数据从MySQL导入Hive时遇到问题...这个查询:sqoopimport--connectjdbc:mysql://xx.xx.xx.xx/database\--usernamesqoop--passwordsqoop--tabledatatable\--target-dir/home/cloudera/user/hive/warehouse/database.db/datatable\--as-parquetfile-m1--append返回这个错误:15/01/1416:27:28WARNutil.AppendUtils:Cannotappendfilest

hadoop - Sqoop 中拆分 <column> --target-dir 的目的是什么

当我们在sqoop中编写--split-by时,内部发生了什么?例子:sqoopimport--connectjdbc:mysql://localhost/test--usernameroot--passwordtraining123--query'select*fromtransactionwhere$CONDITIONS'--split-byTxnid--target-dirinput/transaction 最佳答案 HadoopMAPReduce就是分而治之。为了将数据分割成多个独立的切片并行传输,Sqoop需要找到--sp

java - 尝试在 Apache Kylin 中为示例数据构建多维数据集时出现 java.io.FileNotFoundException : File does not exist: hive-exec-2. 1.0.jar 错误

我使用以下技术的以下版本安装了Apachekylin:-ApacheHadoop:-2.7.3ApacheHive:-2.1.0ApacheHbase:-1.2.4ApacheKylin:-1.6我可以使用随设置提供的sample.sh文件在ApacheKylin中加载数据。但是,当我尝试为某个时间范围构建多维数据集时,在“构建多维数据集”过程的第3步中出现以下错误Filedoesnotexist:hdfs://localhost:54310/app/hadoop/tmp/mapred/staging/hduser341814501/.staging/job_local34181450