草庐IT

实际上

全部标签

hadoop - hadoop作业实际处理时间

我的集群当前被一个作业A占用,它需要很长时间并且具有VERY_LOW优先级。我昨天开始了另一项工作B,而A已经在运行,我认为它应该运行得相当快。但是,我在jobdetails看到用了47分钟。我认为这不是实际处理时间。我试图找出工作真正开始的时间。我可以在哪里查看? 最佳答案 我似乎找不到任何地方可以准确说明您所追求的内容,但您可以在端口50030上的作业跟踪器中查看作业,并查看各个映射器和缩减器的详细信息。在那里,您可以看到每个单独的映射器和缩减器从开始时间到结束时间完成任务所花费的时间。如果在您开始第二份工作时没有任何映射器或缩

hadoop - Hadoop 数据节点/名称节点实际可以处理多少 block /对象?

我在伪分布式模式下运行Hadoop1.2.1,在同一个虚拟机上同时拥有名称节点和数据节点。数据节点有4个卷。我正在做一些关于在Hadoop中使用非常小的block大小(4k、8k等)的测试。复制因子设置为1。当将block大小设置为8k时,我可以使用以下方法将64MB文件复制到hdfs:bin/hadoopfs-putmy64mbfile.尽管在运行命令时我多次遇到以下异常:13/08/2910:50:47WARNhdfs.DFSClient:NotReplicatedYetExceptionsleeping/user/myuser/my64mbfileretriesleft413/0

hadoop - 哪种方法阻止 reducer 在 hadoop yarn 中启动实际的 reduce 阶段?

我是hadoopyarn的新手,希望reducers在完成所有映射之前开始实际的缩减过程。我试图找出调用reducer但找不到的类。任何人都可以在这方面帮助我吗? 最佳答案 在所有映射器完成之前,reducer只能开始收集映射器的输出。这称为shuffle阶段。但是,它们无法启动sorting和reduce阶段,因为它们需要在开始工作之前拥有ALLmap输出记录在他们。原因很简单:想象一下wordcount示例,您想要计算一个词的出现频率。在reduce阶段,如果您在获取所有映射器的输出(即一些计数是缺少这个词),那么,你可能会给出

hadoop - 当实际的事件名称节点关闭时,HDFS HA 集群备用节点不会变为事件节点

我已经在HA模式下配置了HDFS。我有一个“事件”节点和一个“备用”节点。我已经开始了ZKFC。如果我停止事件节点的zkfc,备用节点将更改状态并设置为“事件”节点。问题是当我关闭启动了zkfc的事件服务器以及一台“事件”服务器和一台“备用”服务器时,备用服务器不会更改其状态,始终保持备用状态。我的核心站点.xmlfs.default.namehdfs://auto-ha我的hdfs-site.xmldfs.namenode.rpc-bind-host0.0.0.0TheactualaddresstheRPCserverwillbindto.Ifthisoptionaladdressi

hadoop - 在 HIVe 中加载比实际更多的记录

从Hive表插入到HIVe表时,它正在加载比实际记录更多的记录。任何人都可以帮助解决Hive的这种奇怪行为吗?我的查询看起来像这样:insertoverwritetable_aselectcol1,col2,col3,...fromtable_b;我的表_b包含6405465条记录。从table_b插入table_a后,发现table_a共有6406565条记录。有人可以帮忙吗? 最佳答案 如果hive.compute.query.using.stats=true;则优化器使用统计信息进行查询计算,而不是查询表数据。这要快得多,因为

java - 当我在 mapreduce 框架中设置 Split size 大于实际 Block size 时会发生什么?

据我所知,一个mapper将分配给一个split。但是当我将Splitsize设置为大于实际Blocksize时会发生什么?例如:如果我设置Blocksize=128Mb和SplitSize=130Mb,在这些情况下将运行多少映射器。是一个映射器还是多个映射器? 最佳答案 如果InputSplit超过HDFSblock大小,则映射器最终会从多个block读取数据。在您的示例中,如果block大小=128MB且计算的拆分大小=130MB,将生成一个映射任务,该任务将从两个不同的block读取。这两个block究竟是如何被读取的,是HD

django - 启动 Hue Server,CLI 显示 8000,配置显示 8888,实际上是 : Nothing

我已经启动了一个在EC2实例上运行的Hue服务器,该实例具有HDFS的伪分布式设置。当我启动服务器时,CLI指出服务器正在localhost:8000上运行:0errorsfoundDjangoversion1.6.10,usingsettings'desktop.settings'Startingdevelopmentserverathttp://127.0.0.1:8000/QuittheserverwithCONTROL-C.但是,配置告诉它在localhost:8888上启动:###hue.inisample#Webserverlistensonthisaddressandpo

hadoop获取映射器的实际数量

在我程序的映射阶段,我需要知道创建的映射器总数。这将帮助我完成映射的键创建过程(我想为每个对象发出与映射器数量一样多的键值对)。我知道设置映射器的数量只是一个提示,但是如何获取映射器的实际数量。我在Mapper的配置方法中尝试了以下操作:publicvoidconfigure(JobConfconf){System.out.println("maptasks:"+conf.get("mapred.map.tasks"));System.out.println("tipid:"+conf.get("mapred.tip.id"));System.out.println("taskpart

hadoop - fsimage 和 edit log 文件实际存储在哪个文件夹或什么位置,供 namenode 在启动期间读取和合并?

当名称节点启动时,它从图像文件fsimage读取HDFS状态,然后应用编辑日志文件中的编辑。如果我没记错的话,Name节点启动就是我们写start-all.sh的时候。因此,在启动期间,我认为它读取fsimage并编辑日志并将它们合并。但它实际上是从哪个文件夹或哪个位置读取这两个内容的? 最佳答案 在hadoop-1.x中,start-all.sh脚本内部执行两个操作start-dfs.sh和start-mapred.sh。start-dfs.sh将启动hdfs所需的所有守护进程,即:datanode、namenode、second

memory-management - memory_get_peak_usage 与实际 php 进程内存使用量的区别

为什么phpmemory_get_peak_usage的结果与在Linux中使用“top”或“ps”命令时显示为分配给进程的内存大小差异如此之大?我在php.ini中设置了2Mb的memory_limit我的单字符串php脚本echomemory_get_peak_usage(true);说它正在使用786432字节(768Kb)如果我尝试向系统询问当前的php进程echoshell_exec('ps-p'.getmypid().'-Fl');它给了我FSUIDPIDPPIDCPRINIADDRSZWCHANRSSPSRSTIMETTYTIMECMD5Swww-data14599145