草庐IT

mb_internal_encoding

全部标签

hadoop - Hbase 和 pig 中的错误。错误 2998 : Unhandled internal error

我在我的机器上运行以下命令:pig-xlocal-fHbase/load_hbase.pig这是我得到的PigStackTrace,希望能更好地理解我的问题。ERROR2998:Unhandledinternalerror.org/apache/hadoop/hbase/filter/WritableByteArrayComparablejava.lang.NoClassDefFoundError:org/apache/hadoop/hbase/filter/WritableByteArrayComparableatjava.lang.Class.forName0(NativeMeth

hadoop - 以 MB 或 Mb 为单位的 mapreduce 指标中的吞吐量

运行TestDFSIO后,我得到了以下指标:2019-04-3009:50:35,790INFOfs.TestDFSIO:Date&time:TueApr3009:50:35EDT20192019-04-3009:50:35,791INFOfs.TestDFSIO:Numberoffiles:1002019-04-3009:50:35,791INFOfs.TestDFSIO:TotalMBytesprocessed:100002019-04-3009:50:35,791INFOfs.TestDFSIO:Throughputmb/sec:376.92019-04-3009:50:35,7

java - 合并 HDFS 中小于 128MB 的压缩 lzo 文件

我正在尝试将Kb大小的小型hdfs文件合并到128MB大小的文件中。所有这些kb大小的文件都是lzo压缩的任何人都可以帮忙吗?这是我到目前为止尝试过的方法。hadoopjar/opt/cloudera/parcels/CDH/jars/hadoop-streaming-2.6.0-cdh5.15.1.jar-Dmapred.reduce.tasks=10-Dmapred.reduce.output.compression.codec=lzo-Dmapred.output.compress=truemapred.output.compression.type=lzo-input"/use

hadoop - Sqoop 导出到 RDBMS .lzo .gz 文件超过 64 MB 加载重复

使用sqoop1.3尝试将hdfs输出导出到mysql表加载大小超过300MB的未压缩文件时一切正常但是在加载大小为75MB或79MB的压缩文件(.gz和.lzo)时,我看到加载到表中的行数翻了一番。当压缩文件的大小为60MB或更小时(猜测与64MB,block大小相关的东西),这不会发生。我在上述上下文中所做的一些操作:bash-3.2$ls-ltr-rw-r--r--1bhargavnbhargavn354844413Nov1602:27large_file-rw-rw-r--1bhargavnbhargavn15669507Nov2103:41small_file.lzo-rw-

java - 5 个 150 MB 的文件在 hdfs 中有多少 block

假设有5个文件,每个文件大小为150MB。现在,当我将这些文件放入hdfs(block大小为64mb)时,每个文件和总block数将是多少block。还有所有文件的拆分次数。以及有多少映射器 最佳答案 每个文件将有3个block(64mb、64mb、32mb)。所以总block数5*3=15因此拆分数将为15。因此映射器数(如果使用FileInputFormat)=15。解释:HDFSdonottakeanentireblocktostoreafilewithsize·Clientwillwritedateintoit·Afterw

java - 输入大小为 ~ 2Mb 的 Hadoop mapreduce

我尝试使用hadoop分发计算。我正在使用序列输入和输出文件以及自定义可写文件。输入是一个三角形列表,最大大小为2Mb,但也可以小到50kb左右。中间值和输出是自定义Writable中的map(int,double)。这是瓶颈吗?问题是计算比没有hadoop的版本慢很多。另外,将节点从2个增加到10个,并不会加快该过程。一种可能是我没有得到足够的映射器,因为输入量很小。我进行了更改mapreduce.input.fileinputformat.split.maxsize的测试,但它变得更糟,而不是更好。我在本地和amazonelasticmapreduce使用hadoop2.2.0。我

hadoop - 运行 pig 0.7.0 错误 : ERROR 2998: Unhandled internal error

我必须将pig连接到一个hadoop,该hadoop与Hadoop0.20.0相比有所变化。我选择pig0.7.0,并通过设置PIG_CLASSPATHexportPIG_CLASSPATH=$HADOOP_HOME/conf当我运行pig时,报错如下:ERRORorg.apache.pig.Main-ERROR2999:Unexpectedinternalerror.FailedtocreateDataStorage因此,我复制$HADOOP_HOME中的hadoop-core.jar以覆盖$PIG_HOME/lib中的hadoop20.jar,然后“ant”。现在,我可以运行pig

hadoop - 是否可以将 hadoop block 大小设置为 24 MB?

我只是想问问您对HDFSblock大小的看法。所以我把HDFS的blocksize设置为24MB就可以正常运行了。我记得24MB不是计算机上通常大小的指数数(2的倍数)。所以我想问问大家,你们对24MB有什么看法?谢谢大家.... 最佳答案 是的。可以将HDFSblock大小设置为24MB。Hadoop1.x.x默认为64MB,2.x.x默认为128MB。在我看来,增加block大小。因为,block大小越大,reducer阶段使用的时间就越少。事情会加快。但是,如果减小块大小,每个映射阶段将花费更少的时间,但有可能在reduce阶

hadoop - 如何更改每个作业的 io.sort.mb?

我想知道是否可以更改每个作业的io.sort.mb值?我知道您可以在mapred-site.xml中为参数设置一个值,但我想以编程方式在不同的作业中使用不同的值。我尝试了conf.setInt("io.sort.mb",someValue)但它似乎不起作用。JVM设置有足够的内存(如2.25GB)并且没有其他作业在运行。 最佳答案 可以,提交前在Configuration(早期版本为JobConf)中设置即可。它确实有效;我在Mahout中使用它。确保在设置值之后和提交之前将conf设置到您的Job上。确保您也设置了正确的conf!

encoding - 在 Hive 中使用 Icelandic Thorn 字符作为分隔符

我目前正在尝试将一些DoubleClick广告日志导入Hadoop。这些日志存储在一个gzip分隔文件中,该文件使用第1252页(Windows-ANSI?)进行编码,并使用IcelandicThorn字符作为分隔符。我可以愉快地将这些日志导入到一个列中,但我似乎找不到让Hive理解Thorn字符的方法-我想可能是因为它不理解1252编码?我查看了创建表文档-http://hive.apache.org/docs/r0.9.0/language_manual/data-manipulation-statements.html-但似乎无法找到任何方法来使此编码/分隔符正常工作。我还从ht