草庐IT

previous_size

全部标签

java - Hadoop MapReduce : Strange Result when Storing Previous Value in Memory in a Reduce Class (Java)

如果我希望存储迭代器的当前值以与Reduce方法中迭代器的下一个值进行比较,Hadoop要求我克隆它而不是简单地将其引用分配给临时变量。我要将代码发布到我的reducer。你会看到两部分:Eclipse中测试的主要方法在Hadoop中执行的reduce方法你会注意到这两行代码是相同的,除了以下几点:main方法从我硬编码到其中的ArrayList获取Iterator,而reduce方法从mapper方法获取Iterator。main方法当然不会执行context.write。这是两者几乎共享的代码:MMIcurrentMMI=null;MMIpreviousMMI=null;Ultra

hadoop - Mesos 和 Hadoop : How to get the running job input data size?

我在Mesos0.14上运行Hadoop1.2.1。我的目标是记录输入数据大小、运行时间、cpu使用情况、内存使用情况等,以便稍后进行优化。除了数据大小之外,所有这些都是使用Sigar获得的。有什么方法可以获取正在运行的任何作业的输入数据大小?例如,当我运行hadoop示例的terasort时,我需要在作业实际运行之前获取teragen生成的数据大小。如果我正在运行Wordcountexample,我需要获取wordcount输入文件大小。我需要自动获取数据大小,因为我无法知道稍后将在该框架内运行什么作业。我正在使用Java编写一些mesos库代码。最好,我想在MesosExecuto

java - 当我在 mapreduce 框架中设置 Split size 大于实际 Block size 时会发生什么?

据我所知,一个mapper将分配给一个split。但是当我将Splitsize设置为大于实际Blocksize时会发生什么?例如:如果我设置Blocksize=128Mb和SplitSize=130Mb,在这些情况下将运行多少映射器。是一个映射器还是多个映射器? 最佳答案 如果InputSplit超过HDFSblock大小,则映射器最终会从多个block读取数据。在您的示例中,如果block大小=128MB且计算的拆分大小=130MB,将生成一个映射任务,该任务将从两个不同的block读取。这两个block究竟是如何被读取的,是HD

scala - Spark : Calculate event end time on 30-minute intervals based on start time and duration values in previous rows

我有一个带有event_time字段的文件,每条记录每30分钟生成一次,并指示事件持续了多少秒。示例:Event_time|event_duration_seconds09:00|80009:30|180010:00|270012:00|100013:00|1000我需要将连续的事件转换为一个具有持续时间的事件。输出文件应如下所示:Event_time_start|event_time_end|event_duration_seconds09:00|11:00|530012:00|12:30|100013:00|13:30|1000ScalaSpark中是否有一种方法可以将数据帧记录与

hadoop - pig 与大表倾斜连接导致 "Split metadata size exceeded 10000000"

我们在一个小的(16M行)不同表和一个大的(6B行)倾斜表之间有一个pig连接。常规连接在2小时内完成(经过一些调整)。我们尝试使用skewed并能够将性能提高到20分钟。但是,当我们尝试更大的倾斜表(19B行)时,我们从SAMPLER作业中得到这条消息:Splitmetadatasizeexceeded10000000.Abortingjobjob_201305151351_21573[ScriptRunner]atorg.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfo

hadoop - HDFS 中参数 "mapred.min.split.size"的行为

参数“mapred.min.split.size”改变了之前写入文件的block的大小?假设我在开始JOB时传递值为134217728(128MB)的参数“mapred.min.split.size”。关于发生的事情,正确的说法是什么?1-每个MAP处理相当于2个HDFSblock(假设每个block64MB);2-我的输入文件(以前包含HDFS)将有一个新的分区,以占用HDFS128M中的block; 最佳答案 splitsize的计算公式:-max(mapred.min.split.size,min(mapred.max.spl

file - Hadoop MapReduce : Appropriate input files size?

我有3位数GB甚至1或2位数TB的数据集。因此,输入文件是一个文件列表,每个文件的大小约为10GB。我在hadoop中的mapreduce作业处理所有这些文件,然后只给出一个输出文件(带有聚合信息)。我的问题是:从Apache调整hadoop/mapreduce框架的合适文件大小是多少?我听说大文件比小文件更受欢迎。有什么想法吗?我唯一确定的是hadoop读取block,每个block默认为64MB。所以如果文件大小是64MB的倍数就好了。目前,我的应用程序只将输出文件写入一个文件。文件大小当然是3位千兆位。我想知道如何有效地对文件进行分区。当然,我可以只使用一些unix工具来完成这项

php - 当文件大于 post_max_size 时,Symfony2 验证器不工作

我在php.ini中将upload_max_filesize和post_max_size设置为32Mb。我正在使用Symfony2。我创建了一个包含文件变量的实体,以便人们可以上传文件:/***@Assert\File(maxSize="3M")*/public$file;当文件小于3Mb时,文件正确上传。当3Mb时验证器工作正常,显示正常错误消息“文件太大”但是,当文件>32Mb(post_max_size)时:Fatalerror:Allowedmemorysizeof150994944bytesexhausted(triedtoallocate62353390bytes)in/A

PHP HTML 整洁 : size limit to buffer

我正在尝试使用作为PHP(http://www.php.net/manual/en/book.tidy.php)一部分的HTMLTidy实现来重新格式化大量HTML。我遇到了一个问题,其中Tidy截断了超过某个点(大约8K)的输出。当我创建一个大约10K长的字符串并将其交给tidy_repair_string时,如下所示:$output=tidy_repair_string($output,array('indent'=>true,//enforceindentation'hide-comments'=>true,//Removethecomments'wrap'=>100,//Bre

php - Wordpress:将 if-else 语句插入 next_post_link()/previous_post_link() 参数?

这里是第一个问题,虽然阅读和搜索已经多次拯救了我的培根。我充其量只是一个PHPhack,我正在构建的Wordpress主题迫使我学习很多东西。我在尝试让下一个和上一个链接的格式根据它们各自的类别(而不是single.php的页面)以不同方式显示时遇到了问题。这是我迄今为止的最佳尝试:这会导致语法错误。我的第一个问题是我什至可以在函数参数中使用if-else语句吗?如果我以完全错误的方式处理它,那么它又回到了绘图板上。那么,如果有任何替代建议,我也将不胜感激!我知道以下工作:next_post_link('%link',get_the_title(),FALSE);next_post_l