草庐IT

JOB_INFO

全部标签

sql - Hive: java.lang.OutOfMemoryError: Java heap space and Job running in-process (local Hadoop)

我的设置:运行NixOSLinux的GoogleCloudPlatform中的4节点集群(1个主节点,3个工作节点)。我一直在使用TPC-DS工具包来生成数据和查询都是标准的。在较小的数据集/更简单的查询上,它们工作得很好。我从这里获取的查询:https://github.com/hortonworks/hive-testbench/tree/hdp3/sample-queries-tpcds这是第一个,query1.sql:WITHcustomer_total_returnAS(SELECTsr_customer_skASctr_customer_sk,sr_store_skASct

hadoop - hbase 错误 : "10/12/26 06:48:07 INFO ipc.HbaseRPC: Server at/127.0.0.1:58920 could not be reached after 1 tries, giving up."

有人知道hbase有什么问题吗?我正在为hadoop使用cloudera发行版的vm图像,以前它工作正常但现在当我尝试列出所有表时每秒都会给我这个错误:10/12/2606:48:07信息ipc.HbaseRPC:尝试1次后无法访问位于/127.0.0.1:58920的服务器,放弃。 最佳答案 我在Ubuntu11.10上遇到了同样的问题。默认安装在/etc/hosts中添加了一行,将我的机器主机名与IP127.0.1.1相关联。我将此链接更改为指向127.0.0.1,Hbase开始工作。此外,其他计算机上类似问题的解决方案要么禁用

hadoop - Couchbase/hadoop 连接器 : sqoop job FAILED "Found interface org.apache.hadoop.mapreduce.TaskAttemptContext, but class was expected"

我的配置:CouchBase服务器2.0Sqoop1.4.2(为hadoop版本2.0.0编译)栈HadoopCDH4.1.2我想使用CouchBase/Hadoop连接器(http://www.couchbase.com/develop/connectors/hadoop),但是当我启动导入时出现以下错误:sqoop-import--connecthttp://localhost:8091/pools--tableDUMP13/01/0711:00:34INFOtool.CodeGenTool:Beginningcodegeneration13/01/0711:00:34INFOor

java - MapReduce 新 API Job.getInstance(Configuration, String) 的 Jar 文件

已安装Hadoop2.2。尝试删除已弃用的APIJobjob=newJob(conf,"wordcount");来自Wordcount示例(Hadoop附带)here将已弃用的API替换为编辑:Jobjob=Job.getInstance(conf,"wordcount");编译错误为Job.getInstancecannotberesolvedtoatype.已经导入的Job类(旧API或MR1)似乎没有此方法。哪个jar包含带有Job.getInstance(Configuratio,String)方法的新Job类如何解决?迁移到MapReducev2的示例是否有任何其他更改?

java - Driver 中的 job.setOutputKeyClass 和 setOutputValueClass 与 reducer 的 context.write 方法不匹配,程序仍然运行正常。怎么办?

驱动代码:publicclassWcDriver{publicstaticvoidmain(String[]args)throwsIOException,InterruptedException,ClassNotFoundException{Configurationconf=newConfiguration();Jobjob=newJob(conf,"WcDriver");job.setJarByClass(WcDriver.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(LongWritable.cl

mysql - 高级 MySql 查询 : Update table with info from another table

我想用另一个表中的数据更新mySql中的一个表。我有两个表“人”和“业务”。人员表通过名为“business_id”的列链接到业务表。必要的表结构,主键加星号(表:列):人员:*business_id、*sort_order、电子邮件业务:*business_id、电子邮件我想用人员表中的电子邮件更新业务表电子邮件列,如下所示(我知道我在这里遗漏了一些东西):UPDATEbusinessbSETemail=(SELECTemailfromPeoplepwherep.business_id=b.business_idANDsort_order='1')WHEREb.email='';这有

mysql - 高级 MySql 查询 : Update table with info from another table

我想用另一个表中的数据更新mySql中的一个表。我有两个表“人”和“业务”。人员表通过名为“business_id”的列链接到业务表。必要的表结构,主键加星号(表:列):人员:*business_id、*sort_order、电子邮件业务:*business_id、电子邮件我想用人员表中的电子邮件更新业务表电子邮件列,如下所示(我知道我在这里遗漏了一些东西):UPDATEbusinessbSETemail=(SELECTemailfromPeoplepwherep.business_id=b.business_idANDsort_order='1')WHEREb.email='';这有

hadoop - 带有 mapreduce.Job 的 SetNumMapTask

如何使用org.apache.hadoop.mapreduce.Job设置映射任务的数量?该功能似乎不存在...但它存在于org.apacache.hadoop.mapred.JobConf...谢谢! 最佳答案 据我所知,setNumMapTasks不再受支持。这只是对框架的提示(即使在旧API中也是如此),并不保证您只会获得指定数量的map。map创建实际上由您在工作中使用的InputFormat控制。您可以根据需要调整以下属性:ma​​pred.min.split.sizema​​pred.max.split.size由于您处

Python Hadoop 流错误 "ERROR streaming.StreamJob: Job not Successful!"和堆栈跟踪 : ExitCodeException exitCode=134

我正在尝试使用HadoopStreaming在Hadoop集群上运行python脚本以进行情绪分析。我在本地机器上运行的相同脚本正常运行并提供输出。要在本地机器上运行,我使用此命令。$cat/home/MB/analytics/Data/input/*|./new_mapper.py为了在hadoop集群上运行,我使用以下命令$hadoopjar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.5.0-mr1-cdh5.2.0.jar-mapper"python$PWD/new_mapper.py"-

scala - Spark : Executor Lost Failure (After adding groupBy job)

我正在尝试在Yarn客户端上运行Spark作业。我有两个节点,每个节点都有以下配置。我收到“ExecutorLostFailure(执行程序1丢失)”。我已经尝试了大部分Spark调优配置。我已经减少到一个执行器丢失,因为最初我遇到了6个执行器故障。这些是我的配置(我的spark-submit):HADOOP_USER_NAME=hdfsspark-submit--classgenkvs.CreateFieldMappings--masteryarn-client--driver-memory11g--executor-memory11G--total-executor-cores16