草庐IT

作业队

全部标签

apache-spark - "No Filesystem for Scheme: gs"在本地运行 spark 作业时

我正在运行一个Spark作业(版本1.2.0),输入是Google云存储桶内的一个文件夹(即gs://mybucket/folder)在我的Mac机器上本地运行作业时,出现以下错误:5932[main]ERRORcom.doit.customer.dataconverter.Phase1-Jobfordate:2014_09_23failedwitherror:NoFileSystemforscheme:gs我知道需要完成两件事才能支持gs路径。一种是安装GCS连接器,另一种是在Hadoop安装的core-site.xml中进行以下设置:fs.gs.implcom.google.clo

由于来自 inputStream 的过早 EOF,Hadoop MapReduce 作业 I/O 异常

我使用命令hadoopjar[mainClass]path/to/inputpath/to/output运行了一个MapReduce程序.但是,我的工作卡在:INFOmapreduce.Job:map100%reduce29%.很久以后,我终止并检查了数据节点日志(我在伪分布式模式下运行)。它包含以下异常:java.io.IOException:PrematureEOFfrominputStreamatorg.apache.hadoop.io.IOUtils.readFully(IOUtils.java:201)atorg.apache.hadoop.hdfs.protocol.dat

hadoop - 使用各种语言在 Hadoop 中运行作业的优缺点是什么?

到目前为止,我一直使用Pig或JavaforMapReduce专门针对Hadoop集群运行作业。我最近尝试通过Hadoop流使用PythonMapReduce,这也很酷。所有这些对我来说都很有意义,但我对何时使用一种实现与使用一种实现有点模糊。其他。Javamapreduce,我基本上只在需要速度时才使用它,但我什么时候会想要使用Python流式处理之类的东西,而不是仅仅在PIG/Hive中用更少、更容易理解的行写出同样的东西?简而言之,各自的优缺点是什么? 最佳答案 我将分别涉及Java与Python,然后分别涉及MR与Hive/

hadoop - 具有纯文本输入和 avro 输出的 mapreduce 作业

我对将Avro与mapreduce结合使用感到非常困惑,找不到好的教程可以遵循。当输入和输出都是Avro数据文件时,AvroJob和AvroMapper这样的类似乎是为解决问题而设计的。如果您的输入只是纯文本呢?具体来说:我的映射器将LongWritable键和文本值作为输入。它发出文本键和MyAvroRecord值。我的缩减器将文本键和MyAvroRecords的迭代器作为输入,并发出文本键和MyAvroRecord值。如何获得将这些文本键和MyAvroRecord值写入文件的OutputFormat?干杯,戴夫 最佳答案 好的,

performance - Hadoop MapReduce 为多个作业读取一次数据集

我有一个由许多小文件(每个平均30-40MB)组成的数据集。我想通过MapReduce对它们运行分析,但是对于每个作业,映射器将再次读取文件,这会对I/O性能(开销等)造成沉重的负担。我想知道是否可以使用映射器一次,为不同的reducer发出各种不同的输出?当我环顾四周时,我发现多个reducer是不可能的,但唯一可能的是作业链。但是,我想并行运行这些作业,而不是按顺序运行,因为它们都将使用相同的数据集作为输入并运行不同的分析。所以,总而言之,我想要的东西如下所示:Reducer=Analytics1/Mapper-Reducer=Analytics2\Reducer=Analytic

scala - 通过键写入多个输出 Scalding Hadoop,一个 MapReduce 作业

如何在单个MapReduce作业中使用Scalding(/级联)写入依赖于键的多个输出。我当然可以对所有可能的键使用.filter,但这是一个可怕的hack,它会激发许多工作。 最佳答案 有TemplatedTsv在Scalding中(从版本0.9.0rc16及更高版本),与CascadingTemplateTsv完全相同。Tsv(args("input"),('COUNTRY,'GDP)).read.write(TemplatedTsv(args("output"),"%s",'COUNTRY))//itwillcreateadi

sorting - 深入了解hadoop中Map reduce作业中map阶段的内部工作?

我正在阅读Hadoop:Thedefinitiveguide3rdedtition通过汤姆怀特。它是了解Hadoop内部结构的极好资源,特别是Map-Reduce我感兴趣的。从书中,(第205页):洗牌和排序MapReduce保证每个reducer的输入都按键排序。系统执行排序的过程——并将map输出作为输入传输到reducer——被称为shuffle。我由此推断,key在发送到reducer之前是经过排序的,说明job的map阶段的输出是排序的。请注意:我不称之为映射器,因为映射阶段包括映射器(由程序员编写)和MR框架的内置排序机制。map侧每个映射任务都有一个循环内存缓冲区,它将输

java - 在 Hadoop 2 上运行作业时无法初始化集群异常

Thequestionislinkedtomypreviousquestion所有守护进程都在运行,jps显示:6663JobHistoryServer7213ResourceManager9235Jps6289DataNode6200NameNode7420NodeManager但wordcount示例不断失败,出现以下异常:ERRORsecurity.UserGroupInformation:PriviledgedActionExceptionas:root(auth:SIMPLE)cause:java.io.IOException:CannotinitializeCluster.

hadoop - 查找杀死 Hadoop 作业的用户名

有没有办法找到杀死Hadoop作业的用户的名字?我在集群Hadoop2.6.0节点上没有根访问权限,所以我只能使用Hadoop命令行工具并仔细检查日志。我检查了日志并尝试使用mapredjob-history[jhistfile]但找不到用户名。 最佳答案 打开网络浏览器并将以下内容粘贴到地址栏中,用运行资源管理器的机器的公共(public)DNS替换URL,确保不要键入尖括号:URL:8088/cluster/apps/KILLED您将在屏幕下方的第二列中看到用户名,其中列出了被杀死的应用程序

hadoop - 如何以其他 Linux 用户身份提交 hadoop 作业

用户“hadoop”在集群上运行jobtracker和tasktracker,但是如果其他Linux用户想要提交他们的作业怎么办?我已遵循此文档,http://hadoop.apache.org/docs/r1.0.4/service_level_auth.html#Hadoop+Services+and+Configuration+Properties将以下内容添加到“core-site.xml”:hadoop.security.authorizationtrue对于配置文件“hadoop-policy.xml”,我将“hadoopGroup”添加到“security.job.sub