草庐IT

start-mapred

全部标签

scala - Spark : Calculate event end time on 30-minute intervals based on start time and duration values in previous rows

我有一个带有event_time字段的文件,每条记录每30分钟生成一次,并指示事件持续了多少秒。示例:Event_time|event_duration_seconds09:00|80009:30|180010:00|270012:00|100013:00|1000我需要将连续的事件转换为一个具有持续时间的事件。输出文件应如下所示:Event_time_start|event_time_end|event_duration_seconds09:00|11:00|530012:00|12:30|100013:00|13:30|1000ScalaSpark中是否有一种方法可以将数据帧记录与

hadoop - 当 mapred.job.shuffle.input.buffer.percent=0.70 时,pig join 在 reducer 中出现 OutOfMemoryError

我们正在一个小表和一个大倾斜表之间进行简单的pig连接。由于另一个错误(pigskewedjoinwithabigtablecauses"Splitmetadatasizeexceeded10000000"),我们无法使用"usingskewed":(如果我们使用默认的mapred.job.shuffle.input.buffer.percent=0.70我们的一些reducer在shuffle阶段会失败:org.apache.hadoop.mapred.Task:attempt_201305151351_21567_r_000236_0:Mapoutputcopyfailure:ja

java - mapred.reduce.tasks 没有按预期工作

我有一个简单的mapreduce作业,它使用默认的映射器和缩减器。输入是一些文本文件。我在伪分布式模式下使用Hadoop2.x。我担心的是,即使我设置了mapred.reduce.tasks=2,仍然只有一个reducer被调用。packageorg.priya.sort;importjava.net.URI;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.conf.Configured;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.i

ubuntu - Accumulo 的 Start-all.sh 抛出多个关于 : Max open files on localhost 的警告

我收到关于以下内容的多个警告:WARN:Maxopenfilesonlocalhostis1024,recommend32768我不确定这是关于什么的。/usr/local/accumulo$./bin/start-all.sh&[1]27142/usr/local/accumulo$StartingmonitoronlocalhostWARN:Maxopenfilesonlocalhostis1024,recommend32768Startingtabletservers....doneStartingtserveronlocalhostWARN:Maxopenfilesonloca

Hadoop:连接到主机 localhost 端口 22:运行 start-dfs.sh 时连接被拒绝

当使用start-dfs.sh启动最新的(2014年10月)Hadoop时,我们看到:connecttohostlocalhostport22:Connectionrefusedwhenrunning 最佳答案 安装openssh服务器。对于Ubuntu命令是:sudoapt-getinstallopenssh-server在hadoop-env.sh文件中(存在于/etc/hadoop中)添加以下行:exportHADOOP_SSH_OPTS="-p22" 关于Hadoop:连接到主机

hadoop - 如何允许 hive.mapred.mode=nonstrict?

我正在尝试使用不带ON属性的JOIN运行此查询。我正在运行这样的查询:hive-v-fmy_file.hql我收到这条消息:Instrictmode,cartesianproductisnotallowed.Ifyoureallywanttoperformtheoperation,sethive.mapred.mode=nonstrict我更新了hql文件:在其之上设置hive.mapred.mode=nonstrict。但后来我收到了这条消息:SEThive.mapred.mode=nonstrictQueryreturnednon-zerocode:1,cause:Cannotmo

hadoop - cdh4.3,日志异常,./start-dfs.sh后,datanode和namenode启动失败

这是来自hadoop-datanode-...log的日志:FATALorg.apache.hadoop.hdfs.server.datanode.DataNode:block池初始化失败block池BP-1421227885-192.168.2.14-1371135284949(存储IDDS-30209445-192.168.2.41-50010-1371109358645)服务于/192.168.2.8:8020org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.protocol.Disallowe

hadoop - 典型的 Hadoop 架构和 MapR 架构之间的区别

我知道Hadoop是基于Master/Slave架构的HDFS与NameNodes和DataNodes一起工作和MapReduce与jobtrackers和Tasktrackers一起工作但是我在MapR上找不到所有这些服务,我发现它有自己的架构和自己的服务我有点困惑,谁能告诉我只使用Hadoop和使用MapR有什么区别! 最佳答案 您必须引用Hadoop2.x最新架构,因为YARN(YetAnotherResourceNegotiator)和HighAvailability已被引入2.x版本。作业跟踪器和任务跟踪器替换为资源管理器

amazon-ec2 - Amazon EC2 上的 Hadoop : Job tracker not starting properly

我们在AmazonEC2集群上运行Hadoop。我们启动主服务器、从服务器并附加ebs卷,最后等待hadoopjobtracker、tasktracker等启动,超时时间为3600秒。我们注意到50%的时间作业跟踪器无法在超时前启动。原因是,hdfs未正确初始化且仍处于安全模式且作业跟踪器无法启动。当我尝试手动ping从站时,我注意到EC2上节点之间的连接问题很少。有没有人遇到过类似的问题并且知道如何解决这个问题? 最佳答案 我不确定这个问题是否与AmazonEC2有关。我也经常遇到这个问题-虽然我的机器上有一个伪分布式安装。在这些

hadoop - WARN mapred.JobClient : No job jar file set. 可能找不到用户类

我的代码是importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapreduce.*;importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;importorg.apache.hadoop.mapreduce.lib.input.TextInputFormat