草庐IT

input-container

全部标签

python - python : os. environ ["map_input_file"中的 MapReduce ] 在 map.py 中不起作用

这是我第一次用python学习HadoopMapReduce。为了学习如何连接两个文件,我写了一个map.py来获取两个文件的文件名。这里有两个CSV文件:worksheet1.csvsno,name1,name12,name23,name34,name4worksheet2.csvsno,courseno,grade1,1,801,2,902,1,822,2,95map.py:#!/bin/bash#-*-coding:utf-8-*-importosimportsysdefmapper():filepath=os.environ["map_input_file"]filename=

java - Apache Hadoop : Can it do "time-varying" input?

即使经过一些谷歌搜索,我也没有找到答案。我的输入文件是由一个进程生成的,当文件达到1GB时,该进程将它们分块。现在,如果我要运行一个处理dfs中的输入目录的mapreduce作业,我如何确保该作业在hadoop作业运行时获取添加到同一输入目录的文件?我觉得这几乎是不可能的,因为当hadoop作业运行时,它会计算剩余时间和所有这些东西,所以当我的输入不断堆积或换句话说是“可变的”时,Hadoop不会知道如何管理它-这是我的猜测。我想知道您对此的看法以及对此的最佳替代方法!感谢您的帮助。 最佳答案 您描述的用例不是Hadoop设计用来处

input - Hadoop 多次读取输入拆分

我需要迭代输入拆分不止一次。我需要这个的原因超出了这个问题的范围。假设我只需要它(一个简短的解释是我需要多次使用输入拆分来填充数据结构,并且拆分可能足够大,以至于在第一次迭代后它无法容纳在内存中)我想我可以做一些技巧,例如扩展FileInputFormat和RecordReader多次服务拆分,但我想知道是否有任何在Hadoop中执行此操作的“标准”方式。我不知道在Hadoop中实现此目的的任何标准方法,但可能我错过了一些东西。有什么想法吗? 最佳答案 在多次拆分过程中,您想对该数据结构做什么?(查找、更新等)您是否尝试过将此操作与

hadoop - Mesos 和 Hadoop : How to get the running job input data size?

我在Mesos0.14上运行Hadoop1.2.1。我的目标是记录输入数据大小、运行时间、cpu使用情况、内存使用情况等,以便稍后进行优化。除了数据大小之外,所有这些都是使用Sigar获得的。有什么方法可以获取正在运行的任何作业的输入数据大小?例如,当我运行hadoop示例的terasort时,我需要在作业实际运行之前获取teragen生成的数据大小。如果我正在运行Wordcountexample,我需要获取wordcount输入文件大小。我需要自动获取数据大小,因为我无法知道稍后将在该框架内运行什么作业。我正在使用Java编写一些mesos库代码。最好,我想在MesosExecuto

hadoop - 警告 org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor : Exit code from container container_1494943588964_0010_01_000001 is : 143

我在Ubuntu16.04上以独立模式安装了hadoop2.7.3。我已经安装了Hive2.1.1并在HQL上工作。大多数查询都会触发MR作业。当我运行触发MR作业的查询时,系统会通过终止所有进程自动注销。当我检查节点管理器的日志时,我可以看到导致问题的语句是,WARNorg.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor:Exitcodefromcontainercontainer_1494943588964_0010_01_000001is:1432017-05-1619:48:08,263ERRORor

java - hadoop 日志中的 "complete event for unknown container id"是什么意思?

我正在尝试对集群中的多个文件运行一个简单的作业(wordcount示例),但大多数map都失败了。当我引用任务日志时,我只看到这样的错误:ERROR[RMCommunicatorAllocator]org.apache.hadoop.mapreduce.v2.app.rm.RMContainerAllocator:Containercompleteeventforunknowncontaineridcontainer_1388066512888_0001_01_000026有什么想法吗?更新:我多次检查作业,有时由于map故障而失败,有时由于减少故障而在极少数情况下成功完成。但在任何情

Hadoop HDFS : input/output error when creating user folder

我已按照Hadoopthedefinitiveguide,4thedition:AppendixA中的说明进行操作在伪分布式模式下配置Hadoop。一切正常,除了我尝试创建目录时:hadoopfs-mkdir-p/user/$USER命令返回以下消息:mkdir:/user/my_user_name':Input/outputerror。虽然,当我第一次登录到我的根帐户sudo-s然后键入hadoopfs-mkdir-p/user/$USER命令时,目录'user/root'被创建(路径中的所有目录)。我想我遇到了Hadoop权限问题。任何帮助将不胜感激,谢谢。

hadoop - 当 mapred.job.shuffle.input.buffer.percent=0.70 时,pig join 在 reducer 中出现 OutOfMemoryError

我们正在一个小表和一个大倾斜表之间进行简单的pig连接。由于另一个错误(pigskewedjoinwithabigtablecauses"Splitmetadatasizeexceeded10000000"),我们无法使用"usingskewed":(如果我们使用默认的mapred.job.shuffle.input.buffer.percent=0.70我们的一些reducer在shuffle阶段会失败:org.apache.hadoop.mapred.Task:attempt_201305151351_21567_r_000236_0:Mapoutputcopyfailure:ja

hadoop - Spark 流 : How to process using multiple inputs to job?

输入1:KV数据流。输入2:一些静态数据分区(用于处理输入1中的流)问题可以建模为下图:与HDFS/RDD分区共置:我们如何确保流式任务Map1、Map2和Map3在存在HDFS/RDD分区的机器上运行?图像描述:假设K是流式key(不是元组)。FirstMap将其转换为元组(具有空值)并将其广播给3个映射器。每个映射器都在不同的节点上运行,这些节点包含RDD(或HDFS文件,这是第二个输入和静态数据)的不同分区。每个Mapper使用RDD分区来计算键的值。最后,我们要聚合键的值(使用reduceByKey_+_)。 最佳答案 如果

hadoop - 无法运行 hadoop 流作业 : Missing required options: input, 输出

我正在尝试在DSE3.1分析服务器集群上运行流媒体作业。我正在使用CassandraCF进行输入。但它提示输入和输出参数,但它们已设置(我设置它只是因为提示):dsehadoopjar$HADOOP_HOME/lib/hadoop-streaming-1.0.4.8.jar\-Dcassandra.input.keyspace="tmp_ks"\-Dcassandra.input.partitioner.class="MurMur3Partitioner"\-Dcassandra.input.columnfamily="tmp_cf"\-Dcassandra.consistencyle