草庐IT

作业队

全部标签

file - Hadoop:将文件或文件路径发送到 map reduce 作业

假设我有N个文件要使用hadoopmap-reduce处理,让我们假设它们很大,远远超过block大小并且只有几百个。现在我想处理这些文件中的每一个,让我们假设字数统计示例。我的问题是:创建一个输入为包含每个文件路径的文本文件的map-reduce作业与将每个文件直接发送到map函数(即连接所有文件)之间有什么区别并将它们插入不同的映射器[编辑]。这些都是有效的方法吗?它们有什么缺点吗?感谢您的及时回答,我已经详细描述了我的问题,因为我的抽象可能遗漏了一些重要主题:我的应用程序在HadoopHDFS上有N个小文件,我只需要处理每个文件。所以我使用映射函数将python脚本应用于每个文件

hadoop - 我可以使用 Combiner 在 mapreduce 作业中计算平均值吗?

我想实现一个mapreduce作业,该作业读取具有以下架构的Parquet文件:{optionalint96dropoff_datetime;optionalfloatdropoff_latitude;optionalfloatdropoff_longitude;optionalint32dropoff_taxizone_id;optionalfloatehail_fee;optionalfloatextra;optionalfloatfare_amount;optionalfloatimprovement_surcharge;optionalfloatmta_tax;optional

hadoop - 从远程客户端在 Yarn 集群上提交 Spark 作业

我想使用spark-submit命令在远程YARN集群上提交Spark作业。我的客户端是一台Windows机器,集群由一个主机和4个从机组成。我将Hadoop配置文件从我的集群复制到远程机器,即core-site.xml和yarn-site.xml并在spark中设置HADOOP_CONF_DIR变量-env.sh指向它们。但是,当我使用以下命令提交作业时:spark-submit--jarshdfs:///user/kmansour/elevation/geotrellis-1.2.1-assembly.jar\--classtutorial.CalculateFlowDirecti

hadoop - 如何限制 Pig 脚本启动的并发作业数?

我正在尝试使用Hortonworkssandbox在Pig中为POC实现简单的数据处理流程.思路如下:有一组已经处理过的数据。新数据集应添加到旧数据中,不要重复。出于测试目的,我使用非常小的数据集(小于10KB)。对于虚拟机,我分配了4GBRAM和4个处理器内核中的2个。这是我的Pig脚本:--CONFIGURABLEPROPERTIES%DEFAULTatbInput'/user/hue/ATB_Details/in/1'%DEFAULTatbOutputBase'/user/hue/ATB_Details/out/1'%DEFAULTatbPrevOutputBase'/user/

hadoop - 无法运行 hadoop 流作业 : Missing required options: input, 输出

我正在尝试在DSE3.1分析服务器集群上运行流媒体作业。我正在使用CassandraCF进行输入。但它提示输入和输出参数,但它们已设置(我设置它只是因为提示):dsehadoopjar$HADOOP_HOME/lib/hadoop-streaming-1.0.4.8.jar\-Dcassandra.input.keyspace="tmp_ks"\-Dcassandra.input.partitioner.class="MurMur3Partitioner"\-Dcassandra.input.columnfamily="tmp_cf"\-Dcassandra.consistencyle

java - 为什么建议将 scan.setCacheBlocks(false) 用于 mapReduce 作业?

我理解为什么scan.setCaching对mapreduce作业有好处,但我不明白为什么setCacheBlocks(false)不好。它会使服务器负担过重吗? 最佳答案 简而言之-是,如果您在mapreduce作业中将blockcaching设置为true,它会给RegionServer带来负担。当您主要在输入扫描上使用mapreduce作业时,最近扫描的输入将在下一个映射阶段被丢弃。Blockcache是​​LRU..第一次请求的时候把数据放入Blockcache,第二次请求的时候发现没用就交换,然后继续。所以RegionSe

memory - 如何更改 EMR hadoop 流作业中的内存

我正在尝试克服EMR上的hadoop流作业中的以下错误。Container[pid=30356,containerID=container_1391517294402_0148_01_000021]isrunningbeyondphysicalmemorylimits我尝试搜索答案,但我找到的那个没有用。我的工作启动如下所示。hadoopjar../.versions/2.2.0/share/hadoop/tools/lib/hadoop-streaming-2.2.0.jar\-inputdeterminations/part-00000\-outputdeterminations/

hadoop - 无法查看作业历史记录 (http ://localhost:19888) page in web browser in Hadoop

我在Ubuntu14.0432位上使用Hadoop2.4.1版。当我使用hadoopjaruser_jar.jar命令运行示例作业时,我无法在http://localhost:19888上看到输出(找不到页面)可能的原因是什么?提前谢谢你。JPSoutput:3931Jps3719NodeManager3420SecondaryNameNode3593ResourceManager3246DataNode3126NameNode核心站点.xmlhadoop.tmp.dir/app/hadoop/tmpfs.default.namehdfs://localhost:54310hdfs-s

hadoop - HDFS 中的文件大小应该是多少才能获得最佳 MapReduce 作业性能

我想将文本文件从外部源复制到HDFS。让我们假设我可以根据文件的大小合并和拆分文件,文本文件的大小应该是多少才能获得最佳的自定义MapReduce作业性能。大小重要吗? 最佳答案 HDFS旨在支持非常大的文件而不是小文件。与HDFS兼容的应用程序是那些处理大型数据集的应用程序。这些应用程序只写入一次数据,但会读取一次或多次,并要求以流式传输速度满足这些读取。HDFS支持文件的一次写入多次读取语义。在HDFS架构中有一个block的概念。HDFS使用的典型block大小为64MB。当我们将一个大文件放入HDFS时,它被分成64MB的b

c# - Hadoop/Spark 上 .NET 场景模拟(DAG 作业)的分布式计算

我目前正在研究一种使用Hadoop或Spark在集群上运行.NETDAG作业(场景模拟)的方法。在这两种情况下,我都遇到了有关代码语言的问题。如果发现Spark支持用以下语言编写的代码:Scala、Python、Java和R,但不支持.NET。Hadoop确实支持在.NET中编写作业,但是我没有在.NET上找到Hadoop的DAG实现。有没有办法使用.NET编程语言在集群/云上实现作业的DAG? 最佳答案 ApacheSpark的C#语言绑定(bind)现在可通过SparkCLR(https://github.com/Microso