草庐IT

numbers_size

全部标签

hadoop - HDFS 中参数 "mapred.min.split.size"的行为

参数“mapred.min.split.size”改变了之前写入文件的block的大小?假设我在开始JOB时传递值为134217728(128MB)的参数“mapred.min.split.size”。关于发生的事情,正确的说法是什么?1-每个MAP处理相当于2个HDFSblock(假设每个block64MB);2-我的输入文件(以前包含HDFS)将有一个新的分区,以占用HDFS128M中的block; 最佳答案 splitsize的计算公式:-max(mapred.min.split.size,min(mapred.max.spl

performance - Spark : Inconsistent performance number in scaling number of cores

我正在使用排序基准对Spark进行简单的扩展测试——从1个核心到8个核心。我注意到8核比1核慢。//runsparkusing1corespark-submit--masterlocal[1]--classjohn.sortsort.jardata_800MB.txtdata_800MB_output//runsparkusing8coresspark-submit--masterlocal[8]--classjohn.sortsort.jardata_800MB.txtdata_800MB_output每种情况下的输入和输出目录都在HDFS中。1core:80secs8cores:1

file - Hadoop MapReduce : Appropriate input files size?

我有3位数GB甚至1或2位数TB的数据集。因此,输入文件是一个文件列表,每个文件的大小约为10GB。我在hadoop中的mapreduce作业处理所有这些文件,然后只给出一个输出文件(带有聚合信息)。我的问题是:从Apache调整hadoop/mapreduce框架的合适文件大小是多少?我听说大文件比小文件更受欢迎。有什么想法吗?我唯一确定的是hadoop读取block,每个block默认为64MB。所以如果文件大小是64MB的倍数就好了。目前,我的应用程序只将输出文件写入一个文件。文件大小当然是3位千兆位。我想知道如何有效地对文件进行分区。当然,我可以只使用一些unix工具来完成这项

Hadoop MapReduce : Clarification on number of reducers

在MapReduce框架中,一个reducer用于映射器生成的每个键。因此您会认为在HadoopMapReduce中指定Reducers的数量没有任何意义,因为它取决于程序。但是,Hadoop允许您指定要使用的reducer的数量(-Dmapred.reduce.tasks=#ofreducers)。这是什么意思?reducer数量的参数值是否指定有多少机器资源进入reducer,而不是实际使用的reducer的数量? 最佳答案 onereducerisusedforeachkeygeneratedbythemapper此评论不正确

hadoop - Apache Spark : The number of cores vs. 执行者数量

我试图了解在YARN上运行Spark作业时核心数量与执行程序数量之间的关系。测试环境如下:数据节点数:3数据节点机器规范:CPU:Corei7-4790(核心数:4,线程数:8)内存:32GB(8GBx4)硬盘:8TB(2TBx4)网络:1GbSpark版本:1.0.0Hadoop版本:2.4.0(HortonworksHDP2.1)Spark作业流程:sc.textFile->filter->map->filter->mapToPair->reduceByKey->map->saveAsTextFile输入数据类型:单个文本文件大小:165GB行数:454,568,833输出第二次过

php - "Invalid parameter number: parameter was not defined"插入数据

我使用Yii的主动记录模式已经有一段时间了。现在,我的项目需要为一笔小交易访问不同的数据库。我认为Yii的DAO会对此有好处。但是,我遇到了一个神秘的错误。CDbCommandfailedtoexecutetheSQLstatement:SQLSTATE[HY093]:Invalidparameternumber:parameterwasnotdefined这是我的代码:publicfunctionactionConfirmation{$model_person=newTempPerson();$model=$model_person->find('alias=:alias',arra

php - "Invalid parameter number: parameter was not defined"插入数据

我使用Yii的主动记录模式已经有一段时间了。现在,我的项目需要为一笔小交易访问不同的数据库。我认为Yii的DAO会对此有好处。但是,我遇到了一个神秘的错误。CDbCommandfailedtoexecutetheSQLstatement:SQLSTATE[HY093]:Invalidparameternumber:parameterwasnotdefined这是我的代码:publicfunctionactionConfirmation{$model_person=newTempPerson();$model=$model_person->find('alias=:alias',arra

php - 易于获取 : Identify all old version numbers of a package?

我需要在Debian上安装PHP5.3。如果我要执行PHP的常规安装,我将获得5.4版。我知道我可以运行apt-getinstall=安装特定版本。但我不知道PHP5.3的确切包版本号是多少。我跑了apt-cacheshowpkgphp5和apt-cachemadisonphp5但他们只列出当前版本。如何确定用于安装PHP5.3的正确版本号? 最佳答案 我不知道它是否在某些apt命令中可用,但您可以在此处获得完整列表:http://snapshot.debian.org/package/php5/Debian的最新PHP5.3似乎是

php - 当文件大于 post_max_size 时,Symfony2 验证器不工作

我在php.ini中将upload_max_filesize和post_max_size设置为32Mb。我正在使用Symfony2。我创建了一个包含文件变量的实体,以便人们可以上传文件:/***@Assert\File(maxSize="3M")*/public$file;当文件小于3Mb时,文件正确上传。当3Mb时验证器工作正常,显示正常错误消息“文件太大”但是,当文件>32Mb(post_max_size)时:Fatalerror:Allowedmemorysizeof150994944bytesexhausted(triedtoallocate62353390bytes)in/A

php - 匹配 "{number}"的正则表达式

我需要用“test(Z)”替换“{Z}”,其中Z始终是使用PHP和正则表达式的无符号整数(除非有更快的方法?)。$code='{45}=={2}->val()-{5}->val()';//applyregexto$codeecho$code;//writes:test(45)==test(2)->val()-test(5)->val()棘手的部分是它需要在速度和内存使用方面以尽可能最好的方式完成。 最佳答案 缺少的行是这样的:$code=preg_replace('/{([0-9]+)}/','test($1)',$code);工作