作业队

amazon-web-services - 提交本地 spark 作业到 emr

我正在关注关于向emr集群提交spark作业的amazon文档https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/按照说明进行操作后，由于未解析的地址和类似的消息，频繁的故障排除失败。ERRORspark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalArgumentException:java.net.UnknownHostException:ip-172-32-1-231.us-e

hadoop - Nutch FetchData 作业太慢

我正在使用ApacheNutch以编程方式在EMR集群中以6个周期抓取大约7000个URL(抓取过程中很少有自定义map-reduce作业)。版本是:nutch=v1.15hadoop=2.7.3我在具有20个EC2m4.largespot实例的AmazonEMR集群上运行它。抓取的代码是:publiccrawl(Folderseeds,Folderoutput)throwsIOException,InterruptedException{finalFoldercrawldb=output.folder("crawldb");try{newInjector(this.conf).inj

FetchData hadoop code segments final mapreduce web-crawler amazon-emr nutch

java - 如何告诉 hadoop 有多少内存分配给单个映射器作业？

我已经创建了一个ElasticMapReduce作业，我正在尝试优化它的性能。此时我正在尝试增加每个实例的映射器数量。我通过mapred.tasktracker.map.tasks.maximum=Xelastic-mapreduce--create--alive--num-instance3\--bootstrap-actions3://elasticmapreduce/bootstrap-actions/configure-hadoop\--args-s,mapred.tasktracker.map.tasks.maximum=5每次我尝试将每个小实例的X设置为2以上时，初始化都会

射器配给 section noreferrer noopener java hadoop mapreduce amazon elastic-map-reduce

尝试在 Elastic MapReduce 上运行 Jar 作业时出现 java.lang.RuntimeException : java. lang.ClassNotFoundException

我应该更改什么来修复以下错误:我正在尝试在ElasticMapreduce上开始一项工作，但它每次都崩溃并显示以下消息:java.lang.RuntimeException:java.lang.ClassNotFoundException:iataho.mapreduce.NewMaxTemperatureMapperatorg.apache.hadoop.conf.Configuration.getClass(Configuration.java:831)atorg.apache.hadoop.mapreduce.JobContext.getMapperClass(JobContex

时出 ClassNotFoundException java apache hadoop mapreduce amazon-emr elastic-map-reduce

java - 执行作业时出现 Hadoop 错误

我尝试运行示例并获得以下输出:12/06/3012:27:39INFOjvm.JvmMetrics:InitializingJVMMetricswithprocessName=JobTracker,sessionId=12/06/3012:27:39INFOinput.FileInputFormat:Totalinputpathstoprocess:712/06/3012:27:40INFOmapred.JobClient:Runningjob:job_local_000112/06/3012:27:40INFOinput.FileInputFormat:Totalinputpaths

时出 Hadoop mapred MapTask java exception

Hadoop 作业在 FBUtilities.java 中抛出 NullPointerException

尝试通过访问Cassandra启动我的hadoop作业时，我收到NullPointerException。堆栈跟踪出现了:Exceptioninthread"main"java.lang.NullPointerExceptionatorg.apache.cassandra.utils.FBUtilities.newPartitioner(FBUtilities.java:415)atorg.apache.cassandra.hadoop.ConfigHelper.getOutputPartitioner(ConfigHelper.java:416)atorg.apache.cassan

NullPointerException FBUtilities java hadoop apache cassandra

hadoop - 使用 oozie 运行多个 mapreduce 作业？

作为解决方法的一部分，我想使用两个mapreduce作业(而不是一个)，它们应该按顺序运行以提供所需的效果。每个作业中的映射函数只是简单地发出每个键值对而不进行处理。每个作业中的reduce函数都不同，因为它们进行不同类型的处理。我偶然发现了oozie，它似乎直接写入后续作业的输入流(或者不是吗？)——这很好，因为中间数据很大(I/O操作会成为瓶颈).如何使用oozie(工作流程中的2个mr作业)实现此目的？我确实浏览了以下资源，但它们只是将单个作业作为工作流运行:https://cwiki.apache.org/confluence/display/OOZIE/Map+Reduce+

mapreduce hadoop section 射器 oozie

java - 从hadoop中的作业conf获取输入路径

我正在设置一个路径作为conf的输入位置FileInputFormat.setInputPaths(conf,newPath("path/to/folder"));当我尝试实现自己的RecordReader时，如何从conf中取回这个位置提前致谢... 最佳答案此调用设置的属性是map.input.dir，因此这应该适合您:conf.get("map.input.dir");附带说明一下，您的记录阅读器应该根据initialize(InputSplit,TaskAttemptContext)方法中给出的输入拆分进行操作，因为您在s

hadoop java code section conf hdfs

database - 使用 mapreduce 作业连接到 MySql 数据库时出错

我正在尝试使用以下代码使用map-reduce作业连接到mysql数据库。我面临下面发布的以下错误。我在我的代码中放置了检查点这表明作业实际运行之前的作业部分正确运行，之后作业失败......importjava.io.DataInput;importjava.io.DataOutput;importjava.io.IOException;importjava.sql.PreparedStatement;importjava.sql.ResultSet;importjava.sql.SQLException;importjava.util.Iterator;importjava.uti

时出 mapreduce hadoop java apache database

java - 运行 giraph 作业时遇到问题(classnotfoundexception)

我正在尝试构建Giraph附带的SimpleShortestPathsComputation示例，并在我的主目录中运行它。基本上，我只是想调整SimpleShortestPaths示例并毫不费力地运行它(不太确定最好的方法是什么)。我的方法如下:SimpleShortestPathsComputaiton.java:importorg.apache.giraph.graph.BasicComputation;......importorg.apache.log4j.Logger;importjava.io.IOException;publicclassSimpleShortestPat

classnotfoundexception giraph SimpleShortestPathsComputation apache java hadoop

150 151 152153154 155 156