草庐IT

mb_str_replace

全部标签

hadoop - 是否可以将 hadoop block 大小设置为 24 MB?

我只是想问问您对HDFSblock大小的看法。所以我把HDFS的blocksize设置为24MB就可以正常运行了。我记得24MB不是计算机上通常大小的指数数(2的倍数)。所以我想问问大家,你们对24MB有什么看法?谢谢大家.... 最佳答案 是的。可以将HDFSblock大小设置为24MB。Hadoop1.x.x默认为64MB,2.x.x默认为128MB。在我看来,增加block大小。因为,block大小越大,reducer阶段使用的时间就越少。事情会加快。但是,如果减小块大小,每个映射阶段将花费更少的时间,但有可能在reduce阶

hadoop - 如何更改每个作业的 io.sort.mb?

我想知道是否可以更改每个作业的io.sort.mb值?我知道您可以在mapred-site.xml中为参数设置一个值,但我想以编程方式在不同的作业中使用不同的值。我尝试了conf.setInt("io.sort.mb",someValue)但它似乎不起作用。JVM设置有足够的内存(如2.25GB)并且没有其他作业在运行。 最佳答案 可以,提交前在Configuration(早期版本为JobConf)中设置即可。它确实有效;我在Mahout中使用它。确保在设置值之后和提交之前将conf设置到您的Job上。确保您也设置了正确的conf!

java - 将配置单元函数转换为 java - 翻译和 regexp_replace

1)如何将下面的hive部分转换为javamapreduce?translate(regexp_replace(colA,"(\\\\=)","\\\\equalto"),"\[\]\(\)\{\}\^\?\+\*\$","____________")在regexp_replace中,我将替换所有=,在外部翻译中,我将替换所有影响futureregexp_replace解析的字符。(如果我不替换这些字符,它们稍后会引发异常)。2)我是否必须使用replaceChars(),如果是,那么如何?示例字符串格式为:tag1=573tag2=ABC0nuif6dSaturn0i899AA0(W

hadoop - 无法将大于 100 MB 的文件加载到 HDFS

我的集群遇到了一个非常奇怪的问题。每当我尝试将任何大于100MB(104857600字节)的文件加载到HDFS时,它都会失败并出现以下错误:Alldatanodesarebad...Aborting.这真的很奇怪,因为100MB已成为文件大小的阈值。即使我尝试将文件大小增加1个字节(104857601字节),并尝试将其加载到HDFS中,它也会失败并显示一个长堆栈跟踪。主要是说“所有数据节点都坏了......正在中止”有没有人之前遇到过类似的情况?是否有可能是错误的配置更改导致了这种行为?如果是,是否有任何限制我可以更改的可摄取数据大小的配置?谢谢 最佳答案

regex - Hive - 多个字符串的 regexp_replace 函数

我正在使用配置单元0.13!我想在我的数据中找到多个标记,如“hiphop”和“rockmusic”,并将它们替换为“hiphop”和“rockmusic”——基本上替换它们时没有空格。我在配置单元中使用了regexp_replace函数。下面是我的查询,它适用于上述2个示例。droptablevp_hiphop;createtablevp_hiphopasselectuserid,ntext,regexp_replace(regexp_replace(ntext,'hiphop','hiphop'),'rockmusic','rockmusic')asntext1fromvp_nlp

hadoop - 如何通过命令行在 hdfs 中查找大小大于 100MB 的所有文件?

如何通过命令行在hdfs中找到所有大小大于100MB的文件? 最佳答案 你可以试试这个:hadoopfsfind/-typef-size100-print\ 关于hadoop-如何通过命令行在hdfs中查找大小大于100MB的所有文件?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/34129962/

hadoop - 大量小文件和 128 Mb block 大小的 HDFS 行为

我有很多(多达数十万个)小文件,每个10-100Kb。我的HDFSblock大小等于128MB。我的复制因子等于1。为每个小文件分配HDFSblock有什么缺点吗?我见过非常矛盾的答案:AnswerwhichsaidthesmallestfiletakesthewholeblockAnswerwhichsaidthatHDFSiscleverenough,andsmallfilewilltakesmall_file_size+300bytesofmetadata我在thisanswer中做了一个测试,它证明第二个选项是正确的——HDFS不会为小文件分配整个block。但是,从HDFS批

hadoop - 通过 Hue 在 hadoop 中加载大型 csv 只会存储 64MB block

我使用的是Clouderaquickstartvm5.1.0-1我试图通过Hue在Hadoop中加载我的3GBcsv,到目前为止我尝试的是:-将csv加载到HDFS中,特别是加载到位于/user/hive/datasets的名为数据集的文件夹中-使用MetastoreManager将其加载到默认数据库中一切正常,这意味着我设法加载了正确的列。主要问题是当我使用Impala查询表时启动以下查询:显示表统计信息new_table我意识到大小只有64MB而不是csv的实际大小,应该是3GB。此外,如果我通过Impala进行计数(*),则行数仅为70000而实际为700万。如有任何帮助,我们将

hadoop - mapreduce.task.io.sort.mb 的最大值是多少?

当我设置mapreduce.task.io.sort.mb=100000时。出现以下异常。java.lang.Exception:java.io.IOException:Invalid"mapreduce.task.io.sort.mb":100000mapreduce.task.io.sort.mb的最大值是多少? 最佳答案 我知道这个问题很老了,但是对于那些提出相同问题的人,您可以查看有关此值被上限的一些错误http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1.3/bk_re

Hadoop - 不同大小(200-500mb)的不可分割文件的适当 block 大小

如果我需要对大小在200到500MB之间的数千个(不可拆分的)gzip文件进行顺序扫描,这些文件的合适block大小是多少?为了这个问题,假设完成的处理速度非常快,因此重新启动映射器的成本并不高,即使对于大块也是如此。我的理解是:几乎没有block大小的上限,因为有“大量文件”用于适合我集群大小的映射器数量。为确保数据局部性,我希望每个gzip文件位于1个block中。但是,gzip文件的大小各不相同。如果我选择~500mb的block大小(例如,我所有输入文件的最大文件大小),数据将如何存储?选择“非常大”的block大小(如2GB)会更好吗?HDD容量是否在这两种情况下都被过度浪费