草庐IT

hadoop - 步骤因 exitCode、Amazon Emr Hadoop、S3DistCp 而失败

我正在尝试创建一个“步骤”并将许多小文件收集到一个文件中,这样我就可以将它分开几天。问题是我正在跑intetando却不让我跑。执行它对我来说效果很好命令:hadoopdistcps3n://buket-name/output-files-hive/*s3n://buket-name/files-hive/test但是如果我已经输入了命令“groupby”或“srcPattern”,它不会让我有任何东西。在AmazonEMR控制台中创建“步骤”后,始终出现错误。你指出了文件命令:awsemradd-steps--cluster-idj-XXXXXXX--stepsName="S3Dis

hadoop - Hive 因 java.lang.IncompatibleClassChangeError 崩溃

在使用运行“select*fromemployee”时,针对Hadoop3.2.0运行hive3.1.1会崩溃java.lang.IncompatibleClassChangeError:Classcom.google.common.collect.ImmutableSortedMapdoesnotimplementtherequestedinterfacejava.util.NavigableMapshowtables之类的命令都运行良好,数据也可以从CLI正常加载。检查各种其他命令,例如加载数据等。使用MySQL作为带有MySQL-connector-java-5.1.47.jar

hadoop - 为什么最后一个 reducer 在合并步骤期间因 java 堆错误而停止

我不断增加reducer的数量,我发现除了一个reducer之外的所有reducer都运行迅速并完成了它们的工作,最后一个reducer只是在合并步骤挂起,并在其tasktracker日志中显示以下消息:Downtothelastmerge-pass,with3segmentsleftoftotalsize:171207264bytes...在这个语句停留很长时间后,它抛出一个java堆错误并开始一些清理,但没有完成。我将child.opts内存增加到3.5GB(无法超过此限制)并压缩了map输出。可能是什么原因?驱动代码如下:publicstaticvoidmain(String[]

hadoop - Pig 过滤器因意外数据而失败

我正在运行Cassandra,其中有大约2万条记录可供使用。我正尝试在pig中对此数据运行过滤器,但收到以下消息:2015-07-2313:02:23,559[Thread-4]WARNorg.apache.hadoop.mapred.LocalJobRunner-job_local_0001java.lang.RuntimeException:com.datastax.driver.core.exceptions.InvalidQueryException:Expected8or0bytelong(1)atorg.apache.pig.backend.hadoop.execution

hadoop fs -mkdir 因连接异常而失败

我一直在尝试在伪分布式模式下设置和运行Hadoop。但是当我输入bin/hadoopfs-mkdirinput我明白了mkdir:CallFromh1/192.168.1.13toh1:9000failedonconnectionexception:java.net.ConnectException:Connectionrefused;Formoredetailssee:http://wiki.apache.org/hadoop/ConnectionRefused这里是详细信息核心站点.xmlhadoop.tmp.dir/home/grid/tmpfs.defaultFShdfs://

hadoop - Thrift 服务器因 "RetriesExhaustedException"而崩溃

当运行thrift(/usr/hdp/2.3.0.0-2557/hbase/bin/hbase-daemon.shstartthrift)时,它每隔一段时间就会停止工作。在日志中我可以看到异常:2015-11-1211:56:11,926WARN[thrift-worker-3]thrift.ThriftServerRunner$HBaseHandler:Can'tgetthelocationorg.apache.hadoop.hbase.client.RetriesExhaustedException:Can'tgetthelocationatorg.apache.hadoop.hb

java - JDBC 到配置单元的连接因无效操作 isValid() 而失败

我关注了thisdoc尝试建立到配置单元的jdbc连接。但是eclipse显示这个错误。似乎没有弄清楚它的确切含义,并且与适当的密码和用户名的连接在直线上工作,所以它不是身份验证的问题。下面是我面临的错误:>15/11/2713:15:41INFOjdbc.Utils:Suppliedauthorities:localhost:10000>15/11/2713:15:41INFOjdbc.Utils:Resolvedauthority:localhost:10000>15/11/2713:15:41INFOjdbc.HiveConnection:Willtrytoopenclientt

hadoop - Reducer 因主机死机而卡住

我注意到我的reducer由于主机死机而卡住了。在日志上,它显示了很多重试消息。是否可以告诉作业跟踪器放弃死节点并恢复工作?有323个映射器,只有1个reducer。我在hadoop-1.0.3上。2012-08-0811:52:19,903INFOorg.apache.hadoop.mapred.ReduceTask:192.168.1.23Willbeconsideredafter:65seconds.2012-08-0811:53:19,905INFOorg.apache.hadoop.mapred.ReduceTask:attempt_201207191440_0203_r_0

java - Mongo-Hadoop 简单测试因 NPE 而失败

这是支持论坛中发布的未决问题here但由于我没有得到任何回应,我想我应该尝试在这里提问。我有一个使用MongoDB作为数据层。目前我正在使用Mongo的Mapreduce机制,但是,我我面临一些性能问题。所以我想到了使用Hadoop来实现该逻辑。我已经成功地运行了国债yield的例子,并且想到了创建一个简单的项目只是为了了解mongo-hadoop驱动程序。所以我创建了一个项目,在构建中插入了适当的jar文件路径并运行它。这是我的java代码:finalConfigurationconf=newConfiguration();MongoConfigUtil.setInputURI(co

java - Hadoop 作业因大数据上的 native SimString C 代码而失败

我在使用SimStringNative库在hadoop集群上运行大数据(~15G)作业时遇到问题。然而,作业在中/小型数据集(~200M)上运行良好。在作业期间,SimString首先创建一个基于文件的数据库来匹配字符串,然后对给定的字符串与数据库中的字符串进行匹配。作业完成后,它会删除基于文件的数据库。该作业以多线程(100个线程)方式运行。为作业执行创建了大约22个映射器,每个映射器运行​​100个线程。总体而言,机器内存为4G错误日志如下:14/02/1200:15:53INFOmapred.JobClient:map0%reduce0%14/02/1200:16:13INFOm