草庐IT

read_multi

全部标签

hadoop - "Child Error"in Executing stream Job on multi node Hadoop cluster (cloudera distribution CDH3u0 Hadoop 0.20.2)

我在8节点Hadoop集群上工作,我正在尝试使用指定的配置执行一个简单的流作业。hadoopjar/usr/lib/hadoop-0.20/contrib/streaming/hadoop-streaming-0.20.2-cdh3u0.jar\-Dmapred.map.max.tacker.failures=10\-Dmared.map.max.attempts=8\-Dmapred.skip.attempts.to.start.skipping=8\-Dmapred.skip.map.max.skip.records=8\-Dmapred.skip.mode.enabled=tru

Hadoop 0.2 : How to read outputs from TextOutputFormat?

我的reducer类使用TextOutputFormat(Job给出的默认OutputFormat)生成输出。我喜欢在MapReduce作业完成后使用此输出来聚合输出。除此之外,我喜欢用TextInputFormat写出聚合信息,以便MapReduce任务的下一次迭代可以使用此过程的输出。谁能给我一个关于如何使用TextFormat进行书写和阅读的示例?顺便说一句,我使用TextFormat而不是Sequence的原因是互操作性。任何软件都应该使用输出。 最佳答案 暂时不要排除序列文件;它们使链接MapReduce作业变得快速和容易

Hadoop 作业客户端 : Error Reading task output

我正在尝试在我的集群上处理40GB的维基百科英文文章。问题是以下重复错误消息:13/04/2717:11:52INFOmapred.JobClient:TaskId:attempt_201304271659_0003_m_000046_0,Status:FAILEDToomanyfetch-failures13/04/2717:11:52WARNmapred.JobClient:Errorreadingtaskoutputhttp://ubuntu:50060/tasklog?plaintext=true&attemptid=attempt_201304271659_0003_m_00

amazon-ec2 - 在 Amazon ec2 : multi node cluster 上运行 hadoop 作业

我必须在AmazonEC2集群上运行hadoopmapreduce作业。我尝试使用现有的AMI进行设置。但是在启动master和clients之后,“jps”没有列出任何节点。那么,即使在使用公共(public)hadoopAMI之后,我们还必须为主服务器和从服务器设置hadoop吗?master怎么知道slave的IP地址??谁能告诉我一些好的文档。我现在已经为此苦苦思索了12个多小时。有人可以帮忙吗?谢谢。 最佳答案 Matthew建议的另一种替代方法是使用Whirr。Whirr让在Amazon上部署Hadoop集群变得非常容易

hadoop - 亚马逊 EC2 和 S3 : How to read and write data

我刚刚遵循了本指南:http://rogueleaderr.tumblr.com/post/32768181371/set-up-and-run-a-fully-distributed-hadoop-hbase-cluster在运行hadoop和hbase的AmazonEC2上设置集群。我现在想知道的是,我实际上如何在我的集群上运行的hbase中获取我的数据?我需要将它加载到S3中然后加载到我的hbase集群中吗?是否有加载/提取数据的最佳实践?由于我是EC2的新手,因此我将不胜感激。 最佳答案 您需要通过SSH连接到您的一个节点,

hadoop - Kafka Spark 流式传输 : unable to read messages

我正在使用spark-streaming集成Kafka和Spark。我作为kafka生产者创建了一个主题:bin/kafka-topics.sh--create--zookeeperlocalhost:2181--replication-factor1--partitions1--topictest我在kafka中发布消息并尝试使用spark-streamingjava代码读取它们并将它们显示在屏幕上。守护进程全部启动:Spark-master,worker;动物园管理员;卡夫卡。我正在使用KafkaUtils.createStream编写一个Java代码来完成它代码如下:public

java - 在 Hadoop MapReduce 作业中链接 Multi-Reducer

现在我有一个4阶段的MapReduce作业,如下所示:Input->Map1->Reduce1->Reducer2->Reduce3->Reduce4->Output我注意到Hadoop中有一个ChainMapper类,它可以将多个映射器链接成一个大映射器,并节省映射阶段之间的磁盘I/O成本。还有一个ChainReducer类,但它不是真正的“Chain-Reducer”。它只能支持以下工作:[Map+/ReduceMap*]我知道我可以为我的任务设置四个MR作业,并为最后三个作业使用默认映射器。但这会消耗大量磁盘I/O,因为reducer应该将结果写入磁盘以让后面的映射器访问它。是否

sql - Hadoop Hive 查询 : Multi-join

如何在Hive中进行子选择?我想我可能犯了一个非常明显的错误,但对我来说并不那么明显......我收到的错误:失败:解析错误:第4:8行无法识别表达式规范中的输入“SELECT”这是我的三个源表:aaa_hit->[SESSION_KEY,HIT_KEY,URL]aaa_event->[SESSION_KEY,HIT_KEY,EVENT_ID]aaa_session->[SESSION_KEY,REMOTE_ADDRESS]...我想做的是将结果插入到结果表中,如下所示:result->[url,num_url,event_id,num_event_id,remote_address,

java - Parquet .io.ParquetDecodingException : Can not read value at 0 in block -1 in file

我已经使用saveAsTable方法在Hive中保存了一个远程数据库表,现在当我尝试使用CLI命令select*fromtable_name访问Hive表数据时,它给出了我的错误如下:2016-06-1510:49:36,866WARN[HiveServer2-Handler-Pool:Thread-96]:thrift.ThriftCLIService(ThriftCLIService.java:FetchResults(681))-Errorfetchingresults:org.apache.hive.service.cli.HiveSQLException:java.io.IO

php - 如果一个 url 是 404,curl_multi_exec 将停止,我该如何更改它?

目前,如果它连接到的一个url不起作用,我的cURLmultiexec就会停止,所以有几个问题:1:为什么会停止?这对我来说没有意义。2:如何让它继续?编辑:这是我的代码:$SQL=mysql_query("SELECTurlFROMshells");$mh=curl_multi_init();$handles=array();while($resultSet=mysql_fetch_array($SQL)){//loadtheurlsandsendGETdata$ch=curl_init($resultSet['url'].$fullcurl);//Onlyloaditfortwos