草庐IT

base_dir

全部标签

hadoop - 配置单元 : group column based on max value

我有一个包含字段的表datevalue10-02-19002309-05-19012210-03-19001010-02-190124....我必须返回每年的最大值即,190023190124我尝试了以下查询,但得到了错误的答案。SELECTYEAR(FROM_UNIXTIME(UNIX_TIMESTAMP(date,'dd-mm-yyyy')))asdate,MAX(value)FROMtebGROUPBYdate;有人可以建议我查询吗? 最佳答案 选项1selectyear(from_unixtime(unix_timestam

hadoop - 在/tmp 中设置 hadoop.tmp.dir

我在Hadoop文档中看到1hadoop.tmp.dir的默认值是/tmp/hadoop-${user.name}但如果我这样设置,当机器重新启动时,我是否丢失数据?我的意思是,也许我不必在真正的/tmp中设置它,但我需要在/home/myuser/tmp/hadoop-${user.姓名?提前致谢!添加信息:我在/tmp/hadoop-hduser中设置了它,但是由于电源问题导致计算机中断,今天我收到此消息:CallFromjava.net.UnknownHostException:hduser-machine:hduser-machineto本地主机:54310连接异常失败:jav

hadoop - hadoop.tmp.dir 的 VERSION 文件有什么用

最近我格式化了namenode并且在启动hadoop守护进程时datanode失败并给出如下错误2019-01-1110:39:15,449WARNorg.apache.hadoop.hdfs.server.common.Storage:Failedtoaddstoragedirectory[DISK]file:/app/hadoop/tmp/dfs/data/java.io.IOException:IncompatibleclusterIDsin/app/hadoop/tmp/dfs/data:namenodeclusterID=CID-76c39119-061a-4ecf-9de1

Hadoop : java. io.IOException : No valid local directories in property: mapred. local.dir

当我运行hadoop作业时,它失败并显示以下堆栈跟踪:11/10/0613:12:49INFOmapred.FileInputFormat:Totalinputpathstoprocess:111/10/0613:12:49INFOmapred.JobClient:Cleaningupthestagingareahdfs://localhost:54310/app/hadoop/tmp/mapred/staging/Har/.staging/job_201110051450_000711/10/0613:12:49ERRORstreaming.StreamJob:ErrorLaunch

ubuntu - java.io.IOException : All directories in dfs. datanode.data.dir 无效

我试图让hadoop和hive在我的linux系统上本地运行,但是当我运行jps时,我注意到数据节点服务丢失了:vaughn@vaughn-notebook:/usr/local/hadoop$jps2209NameNode2682ResourceManager3084Jps2510SecondaryNameNode如果我运行bin/hadoopdatanode,会出现以下错误:17/07/1319:40:14INFOdatanode.DataNode:registeredUNIXsignalhandlersfor[TERM,HUP,INT]17/07/1319:40:14WARNut

hadoop - fs.checkpoint.dir 和 dfs.name.dir 有什么区别?

主要是dfs.name.dir属性是用来存储namenode的fsimage到特定位置备份的,fs.checkpoint.dir属性是fsimage合并的位置。这让我有点困惑。任何人都可以详细解释我。 最佳答案 dfs.name.dir是namenode在磁盘中存放fsimage和editlogs的地方。这是一个强制性的位置。没有这个位置,hadoop集群将无法启动。这将位于名称节点主机中。fs.checkpoint.dir是本地文件系统上的目录,DFS辅助名称节点应在其中存储要合并的临时图像。如果这是一个以逗号分隔的目录列表,则图

hadoop - 如何覆盖 mapred-site.xml 中的 mapred.local.dir?

我没有对mapred-site.xml中mapred.local.dir指定的目录的写入权限(也没有对mapred-site.xml的写入权限)有没有一种方法可以在每个session基础上覆盖此属性用于我的Hive作业? 最佳答案 您可以尝试通过执行以下查询在Hivesession中设置它:setmapred.local.dir='somedir';这应该有效。另一种选择是更改Hive引用的mapred-site.xml。确保配置未标记为最终配置。在这种情况下,它不能被覆盖。 关于had

java - dfs.data.dir : Failed to set permissions of path:\tmp\hadoop-user\dfs\data to 0755 中的无效目录

我是hadoop框架的新手,目前我正在处理大数据项目,在Windows7中使用cygwin、hadoop-0.19.1、eclipse-3.3.1(Europa)。现在我正在尝试从hadoop-0.19进行更改.1到hadoop-1.2.1version.i如下配置hadoop-1.2.1核心站点.xml:fs.default.namehdfs://localhost:9100hdfs.xmldfs.replication1mapred-site.xmlmapred.job.trackerlocalhost:9101但是我在启动数据节点时出错,如下所示$bin/hadoopdatano

hadoop - 使用 HDFS 而不是 spark.local.dir

试图理解为什么Spark需要本地机器上的空间!有办法解决吗?我一直遇到“设备上没有剩余空间”。我知道我可以将“spark.local.dir”设置为以逗号分隔的列表,但有没有办法改用HDFS?我正在尝试合并两个巨大的数据集。在较小的数据集上,Spark是MapReduce的对手,但在我用这些巨大的数据集证明之前,我不能宣布胜利。我没有使用yarn。此外,我们的网关节点(又名边缘节点)不会有很多可用空间。有解决办法吗? 最佳答案 当groupByKey操作时,Spark只是写入tmpDir序列化分区。它是普通文件(请参阅Shuffle

scala - Spark : Calculate event end time on 30-minute intervals based on start time and duration values in previous rows

我有一个带有event_time字段的文件,每条记录每30分钟生成一次,并指示事件持续了多少秒。示例:Event_time|event_duration_seconds09:00|80009:30|180010:00|270012:00|100013:00|1000我需要将连续的事件转换为一个具有持续时间的事件。输出文件应如下所示:Event_time_start|event_time_end|event_duration_seconds09:00|11:00|530012:00|12:30|100013:00|13:30|1000ScalaSpark中是否有一种方法可以将数据帧记录与