草庐IT

mapreduce-name

全部标签

java - 如何从 Mapreduce 作业查询存储在 hdfs 中的嵌入式数据库?

我正在尝试从HadoopMapReduce映射器查询GeoLite数据库以解析IP地址的国家/地区。我尝试了两种方法:1.使用File仅适用于本地文件系统,我收到一个文件未找到异常Filedatabase=newFile("hdfs://localhost:9000/input/GeoLite2-City.mmdb");//2.使用流,但在运行时出现此错误Error:JavaHeapSpacePathpt=newPath("hdfs://localhost:9000/input/GeoLite2-City.mmdb");FileSystemfs=FileSystem.get(newCo

hadoop - 从 MapReduce 同时批量加载到多个 HBase 表

类似于MultiTableOutputFormat,您可以使用put写入多个HBase表。是否有一种内置方法可以生成多个HFile而无需多次循环输入? 最佳答案 This是最接近您的要求。他们也给出了代码来处理多种输出格式。再来一个here.希望对您有所帮助 关于hadoop-从MapReduce同时批量加载到多个HBase表,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/317

hadoop - 如何在 mapreduce 作业中获得适当大小的输入拆分

我正在基于Hortonworks的MicrosoftHDInsight中处理Map-OnlyMR作业。我的输入数据约为1GB,block大小为128MB。当我在没有设置分割大小的情况下运行我的作业时,我的输入数据被分成2个分割,maptask的数量也是2。这需要很长时间,所以我想通过增加maptask的数量来加快这个过程。我通过设置mapreduce.input.fileinputformat.split.minsize和mapreduce.input.fileinputformat.split.minsize的值来设置分割数。首先,我将拆分次数设置为8,此作业耗时为35分钟。然后我设

hadoop - MapReduce 作业失败,错误为写入数据失败

我正在尝试将数据从teradata导出到hadoop。但我的导出查询因出现错误“无法写入数据”而失败。请查看下面的Mapreduce和应用程序日志:LogType:syslogLogUploadTime:TueMar0822:59:27-08002016LogLength:49312016-03-0822:47:07,414WARN[main]org.apache.hadoop.metrics2.impl.MetricsConfig:Cannotlocateconfiguration:triedhadoop-metrics2-maptask.properties,hadoop-metr

hadoop - 消除 MapReduce 中的相同单词对

我想计算文本中每行单词的共现次数,即一个单词与其他单词在同一行中出现的次数。为此,我创建了一个特殊的词对类,因此MapReduce会给我词对,然后是计数。问题是,我只想展示不同单词的共现。这是代码:publicclassCo_OcurrenciaMapperextendsMapper{@Overridepublicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{IntWritableone=newIntWritable(1);String[]palabras=

Python mrjob mapreduce如何对输入文件进行预处理

我正在尝试预处理XML文件以在放入mapreduce之前提取某些节点。我有以下代码:frommrjob.compatimportjobconf_from_envfrommrjob.jobimportMRJobfrommrjob.utilimportcmd_line,bash_wrapclassMRCountLinesByFile(MRJob):defconfigure_options(self):super(MRCountLinesByFile,self).configure_options()self.add_file_option('--filter')defmapper_cmd(

hadoop - mapreduce 的多表输入

我正在考虑使用累积表作为输入来进行mapreduce。有没有一种方法可以将2个不同的表作为输入,就像addInputPath这样的多个文件输入一样?或者是否可以使用AccumuloInputFormat从文件中获取一个输入,而从表中获取另一个输入? 最佳答案 您可能想看一下AccumuloMultiTableInputFormat。Accumulo手册演示了如何使用它here.示例用法:job.setInputFormat(AccumuloInputFormat.class);AccumuloMultiTableInputForma

java - 使用 MapReduce 在图中查找距离为 2 的节点对

如何为有向图G=(V,E)编写Mapper类和Reducer类。需要计算所有节点对(x,y)使得y可以在两跳内从x到达,即存在一个节点z使得(x,z)和(z,y)都在E中。这里(x,y)可能在也可能不在E.输入应该是一条边,节点ID由制表符分隔,例如:1201322341...输出应该是一个节点对xy的列表,由长度恰好为2的路径连接,每行一个,例如:1342... 最佳答案 我假设“两跳”意味着两个节点之间需要有一个中间节点。例如,“z”是(x,y)对的中间节点。您可以做的是将节点ID作为您的Mapper和Reducer中的键。通过

hadoop - MapReduce 处理如何与本地文件系统一起工作?

如果输入/输出来自本地文件系统,MapReduce处理如何工作?MapReduce作业执行是否跨Hadoop集群异步发生?如果是,那是如何发生的?在哪个用例中,我们真的需要使用这种方法吗? 最佳答案 MapReduce在本地系统中的工作原理相同(mapper->reducer)(只是它的效率问题,因为它在本地系统而不是集群中效率较低)。是的,MapReduce作业执行在Hadoop集群中异步发生(这取决于您在mapreduce程序中使用的调度器类型)点击formoreaboutscheduler在大多数情况下,这用于测试目的(在本地

java - 通过 MapReduce 代码平均工资

谁能帮我找出为什么在运行我的MapReduce代码后我没有得到平均工资。问题:计算正式员工和契约(Contract)员工的平均工资示例输入:1用户1永久1002user2契约(Contract)5003用户3永久2004user4合约300预期输出:永久285契约(Contract)187我得到的输出:永久100永久200合约500契约(Contract)300运行作业:$hadoopjarpartition.jarcom.hadoop.PartitionExample输入/partition_example.txt输出packagecom.hadoop;importjava.io.I