作业队

apache-spark - "No Filesystem for Scheme: gs"在本地运行 spark 作业时

我正在运行一个Spark作业(版本1.2.0)，输入是Google云存储桶内的一个文件夹(即gs://mybucket/folder)在我的Mac机器上本地运行作业时，出现以下错误:5932[main]ERRORcom.doit.customer.dataconverter.Phase1-Jobfordate:2014_09_23failedwitherror:NoFileSystemforscheme:gs我知道需要完成两件事才能支持gs路径。一种是安装GCS连接器，另一种是在Hadoop安装的core-site.xml中进行以下设置:fs.gs.implcom.google.clo

spark apache-spark lt gt hadoop google-cloud-storage google-cloud-dataproc google-hadoop

由于来自 inputStream 的过早 EOF，Hadoop MapReduce 作业 I/O 异常

我使用命令hadoopjar[mainClass]path/to/inputpath/to/output运行了一个MapReduce程序.但是，我的工作卡在:INFOmapreduce.Job:map100%reduce29%.很久以后，我终止并检查了数据节点日志(我在伪分布式模式下运行)。它包含以下异常:java.io.IOException:PrematureEOFfrominputStreamatorg.apache.hadoop.io.IOUtils.readFully(IOUtils.java:201)atorg.apache.hadoop.hdfs.protocol.dat

inputStream MapReduce hadoop code apache runtime-error eof ioexception

hadoop - 使用各种语言在 Hadoop 中运行作业的优缺点是什么？

到目前为止，我一直使用Pig或JavaforMapReduce专门针对Hadoop集群运行作业。我最近尝试通过Hadoop流使用PythonMapReduce，这也很酷。所有这些对我来说都很有意义，但我对何时使用一种实现与使用一种实现有点模糊。其他。Javamapreduce，我基本上只在需要速度时才使用它，但我什么时候会想要使用Python流式处理之类的东西，而不是仅仅在PIG/Hive中用更少、更容易理解的行写出同样的东西？简而言之，各自的优缺点是什么？最佳答案我将分别涉及Java与Python，然后分别涉及MR与Hive/

中运优缺点 section 流式 java hadoop mapreduce apache-pig

hadoop - 具有纯文本输入和 avro 输出的 mapreduce 作业

我对将Avro与mapreduce结合使用感到非常困惑，找不到好的教程可以遵循。当输入和输出都是Avro数据文件时，AvroJob和AvroMapper这样的类似乎是为解决问题而设计的。如果您的输入只是纯文本呢？具体来说:我的映射器将LongWritable键和文本值作为输入。它发出文本键和MyAvroRecord值。我的缩减器将文本键和MyAvroRecords的迭代器作为输入，并发出文本键和MyAvroRecord值。如何获得将这些文本键和MyAvroRecord值写入文件的OutputFormat？干杯，戴夫最佳答案好的，

mapreduce hadoop 本键 section 射器 avro

performance - Hadoop MapReduce 为多个作业读取一次数据集

我有一个由许多小文件(每个平均30-40MB)组成的数据集。我想通过MapReduce对它们运行分析，但是对于每个作业，映射器将再次读取文件，这会对I/O性能(开销等)造成沉重的负担。我想知道是否可以使用映射器一次，为不同的reducer发出各种不同的输出？当我环顾四周时，我发现多个reducer是不可能的，但唯一可能的是作业链。但是，我想并行运行这些作业，而不是按顺序运行，因为它们都将使用相同的数据集作为输入并运行不同的分析。所以，总而言之，我想要的东西如下所示:Reducer=Analytics1/Mapper-Reducer=Analytics2\Reducer=Analytic

performance MapReduce 射器 reducer code hadoop io reduce

scala - 通过键写入多个输出 Scalding Hadoop，一个 MapReduce 作业

如何在单个MapReduce作业中使用Scalding(/级联)写入依赖于键的多个输出。我当然可以对所有可能的键使用.filter，但这是一个可怕的hack，它会激发许多工作。最佳答案有TemplatedTsv在Scalding中(从版本0.9.0rc16及更高版本)，与CascadingTemplateTsv完全相同。Tsv(args("input"),('COUNTRY,'GDP)).read.write(TemplatedTsv(args("output"),"%s",'COUNTRY))//itwillcreateadi

MapReduce Scalding section TemplatedTsv scala hadoop cascading

sorting - 深入了解hadoop中Map reduce作业中map阶段的内部工作？

我正在阅读Hadoop:Thedefinitiveguide3rdedtition通过汤姆怀特。它是了解Hadoop内部结构的极好资源,特别是Map-Reduce我感兴趣的。从书中，(第205页):洗牌和排序MapReduce保证每个reducer的输入都按键排序。系统执行排序的过程——并将map输出作为输入传输到reducer——被称为shuffle。我由此推断，key在发送到reducer之前是经过排序的，说明job的map阶段的输出是排序的。请注意:我不称之为映射器，因为映射阶段包括映射器(由程序员编写)和MR框架的内置排序机制。map侧每个映射任务都有一个循环内存缓冲区，它将输

深入 sorting br partition reducer hadoop mapreduce hadoop2

java - 在 Hadoop 2 上运行作业时无法初始化集群异常

Thequestionislinkedtomypreviousquestion所有守护进程都在运行，jps显示:6663JobHistoryServer7213ResourceManager9235Jps6289DataNode6200NameNode7420NodeManager但wordcount示例不断失败，出现以下异常:ERRORsecurity.UserGroupInformation:PriviledgedActionExceptionas:root(auth:SIMPLE)cause:java.io.IOException:CannotinitializeCluster.

Hadoop java gt lt mapreduce exception bigdata hadoop-yarn

hadoop - 查找杀死 Hadoop 作业的用户名

有没有办法找到杀死Hadoop作业的用户的名字？我在集群Hadoop2.6.0节点上没有根访问权限，所以我只能使用Hadoop命令行工具并仔细检查日志。我检查了日志并尝试使用mapredjob-history[jhistfile]但找不到用户名。最佳答案打开网络浏览器并将以下内容粘贴到地址栏中，用运行资源管理器的机器的公共(public)DNS替换URL，确保不要键入尖括号:URL:8088/cluster/apps/KILLED您将在屏幕下方的第二列中看到用户名，其中列出了被杀死的应用程序

杀死 hadoop section code hadoop-yarn hadoop2

hadoop - 如何以其他 Linux 用户身份提交 hadoop 作业

用户“hadoop”在集群上运行jobtracker和tasktracker，但是如果其他Linux用户想要提交他们的作业怎么办？我已遵循此文档，http://hadoop.apache.org/docs/r1.0.4/service_level_auth.html#Hadoop+Services+and+Configuration+Properties将以下内容添加到“core-site.xml”:hadoop.security.authorizationtrue对于配置文件“hadoop-policy.xml”，我将“hadoopGroup”添加到“security.job.sub

hadoop 何以 java apache

203 204 205206207 208 209