草庐IT

ensure_dir_exists

全部标签

Hadoop : java. io.IOException : No valid local directories in property: mapred. local.dir

当我运行hadoop作业时,它失败并显示以下堆栈跟踪:11/10/0613:12:49INFOmapred.FileInputFormat:Totalinputpathstoprocess:111/10/0613:12:49INFOmapred.JobClient:Cleaningupthestagingareahdfs://localhost:54310/app/hadoop/tmp/mapred/staging/Har/.staging/job_201110051450_000711/10/0613:12:49ERRORstreaming.StreamJob:ErrorLaunch

mysql - 配置单元.HiveImport : FAILED: SemanticException [Error 10072]: Database does not exist:

我正在尝试将MySQL数据库导入Hive以根据Blog分析大型MySQL数据有几种方法可以做到这一点非实时:Sqoop实时:MySQL的Hadoop应用程序所以我决定采用“非实时”方法,并且我设置了具有4个节点的Hadoop集群、Sqoop和Hive,它们在以下版本中运行良好名称版本ApacheHadoop2.6.0ApacheHivehive-0.14.0ApacheSqoopsqoop-1.4.5.bin__hadoop-2.0.4-alpha现在,当我尝试使用以下命令导入数据时导入命令sqoop-import-all-tables--verbose--connectjdbc:my

ubuntu - java.io.IOException : All directories in dfs. datanode.data.dir 无效

我试图让hadoop和hive在我的linux系统上本地运行,但是当我运行jps时,我注意到数据节点服务丢失了:vaughn@vaughn-notebook:/usr/local/hadoop$jps2209NameNode2682ResourceManager3084Jps2510SecondaryNameNode如果我运行bin/hadoopdatanode,会出现以下错误:17/07/1319:40:14INFOdatanode.DataNode:registeredUNIXsignalhandlersfor[TERM,HUP,INT]17/07/1319:40:14WARNut

Hadoop MapReduce 作业卡住,因为 auxService :mapreduce_shuffle does not exist

我检查了多个问题相同的帖子,解决方案总是将以下内容添加到yarn-site.xmlyarm.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-services.mapreduce_shuffle.classorg.apache.hadoop.mapred.ShuffleHandler我在配置中涵盖了这两个属性并重新启动了yarn。问题依然存在。错误是:17/02/1515:43:34INFOmapreduce.Job:TaskId:attempt_1487202110321_0001_m_000000_2,Sta

hadoop - fs.checkpoint.dir 和 dfs.name.dir 有什么区别?

主要是dfs.name.dir属性是用来存储namenode的fsimage到特定位置备份的,fs.checkpoint.dir属性是fsimage合并的位置。这让我有点困惑。任何人都可以详细解释我。 最佳答案 dfs.name.dir是namenode在磁盘中存放fsimage和editlogs的地方。这是一个强制性的位置。没有这个位置,hadoop集群将无法启动。这将位于名称节点主机中。fs.checkpoint.dir是本地文件系统上的目录,DFS辅助名称节点应在其中存储要合并的临时图像。如果这是一个以逗号分隔的目录列表,则图

sql - 为什么 Hive 查询不支持 IN/EXIST 运算符?

我看看HiveLanguageManual并认识到Hive查询不支持IN/EXIST运算符,他们建议使用LEFTSEMIJOIN作为替代。你知道为什么吗? 最佳答案 Hive支持in/exist运算符,但不支持inin的子查询。作为替代方案,您可以使用左半连接。以下在Hive中是不可能的SELECTa.key,a.valueFROMaWHEREa.keyin(SELECTb.keyFROMB);可以使用左半连接重写上面的内容。SELECTa.key,a.valFROMaLEFTSEMIJOINbon(a.key=b.key)chec

hadoop - 在一个简单的 Hbase 示例中获取 "package org.apache.hadoop.conf does not exist"

我收到以下错误TestHBase.java:6:error:packageorg.apache.hadoop.confdoesnotexist在ubuntu12.04中尝试以下操作时:hduser@ubuntu:~$javac-classpathhbase-0.94.8.jar:hadoop-core-1.1.2.jarTestHBase.java我试过以下方法:将hadoop-core-1.1.2.jar重命名为hbase自带的hadoop-core-1.0.4.jar后复制到hbase/lib中复制hadoop/lib/commons-*.jar库到hbase/libhduser@

hadoop - 如何覆盖 mapred-site.xml 中的 mapred.local.dir?

我没有对mapred-site.xml中mapred.local.dir指定的目录的写入权限(也没有对mapred-site.xml的写入权限)有没有一种方法可以在每个session基础上覆盖此属性用于我的Hive作业? 最佳答案 您可以尝试通过执行以下查询在Hivesession中设置它:setmapred.local.dir='somedir';这应该有效。另一种选择是更改Hive引用的mapred-site.xml。确保配置未标记为最终配置。在这种情况下,它不能被覆盖。 关于had

java - dfs.data.dir : Failed to set permissions of path:\tmp\hadoop-user\dfs\data to 0755 中的无效目录

我是hadoop框架的新手,目前我正在处理大数据项目,在Windows7中使用cygwin、hadoop-0.19.1、eclipse-3.3.1(Europa)。现在我正在尝试从hadoop-0.19进行更改.1到hadoop-1.2.1version.i如下配置hadoop-1.2.1核心站点.xml:fs.default.namehdfs://localhost:9100hdfs.xmldfs.replication1mapred-site.xmlmapred.job.trackerlocalhost:9101但是我在启动数据节点时出错,如下所示$bin/hadoopdatano

hadoop - 使用 HDFS 而不是 spark.local.dir

试图理解为什么Spark需要本地机器上的空间!有办法解决吗?我一直遇到“设备上没有剩余空间”。我知道我可以将“spark.local.dir”设置为以逗号分隔的列表,但有没有办法改用HDFS?我正在尝试合并两个巨大的数据集。在较小的数据集上,Spark是MapReduce的对手,但在我用这些巨大的数据集证明之前,我不能宣布胜利。我没有使用yarn。此外,我们的网关节点(又名边缘节点)不会有很多可用空间。有解决办法吗? 最佳答案 当groupByKey操作时,Spark只是写入tmpDir序列化分区。它是普通文件(请参阅Shuffle