草庐IT

并行机

全部标签

hadoop - Spark 作业似乎不能很好地并行化

使用星火1.1我有一份工作如下:读取给定根下的文件夹列表,并行化列表对于每个文件夹,读取其下的文件-这些是gzip文件对于每个文件,提取内容-这些是行,每行代表一个事件,字段用制表符(TSV)分隔创建一个包含所有行的RDD。将TSV转换为json。(现在的线条代表某种事件类型,有4种类型:Session、request、recommendation、userevent)仅过滤session事件。根据某些用户ID字段仅对其中的1:100进行采样。将它们转换为一对,使用表示某种输出结构(例如:事件类型/日期/事件)的键,然后将其写入FS。对请求和用户事件做同样的事情(对于推荐,无法根据用户

hadoop - 如何并行执行多个 PIG 脚本?

我有多个PIG脚本,目前我正在使用命令pig-xmapreduce/path/to/Script/Script1.pig&&/path/to/Script/Script2.pig&&/path/to按顺序执行它/Script/Script3.pig现在我正在寻找并行执行这些脚本以提高性能的方法,因为它们彼此独立。我试图搜索它但没有得到准确的结果。那么有什么方法可以并行执行所有PIG脚本吗? 最佳答案 #!/bin/bashpig-xmapreduce/path/to/Script/Script1.pig&pig-xmapreduce

java - 如何在远程系统上并行执行

将工作分配给一组远程机器的好方法是什么?考虑一个任务非常占用CPU和RAM,但实际上并不处理大型数据集的示例。选择的语言是Java。我原以为Hadoop会是一个不错的选择,但是在远程机器之间传递的数据集相当小,而且Hadoop似乎主要关注数据的分布而不是工作的分布。有哪些好的技术可以提供帮助?编辑:我主要对负载平衡感兴趣。将有一系列作业,数据集较小( 最佳答案 MPI可能是个不错的选择,甚至还有一个JAVAimplementation. 关于java-如何在远程系统上并行执行,我们在St

matlab - 无法使用 MATLAB MapReducer 2014b 中的 'local' 配置文件启动并行池

我正在使用here中的示例作为MATLAB2014b中的“使用MapReduce计算平均值”。当我运行示例时,出现以下错误:Startingparallelpool(parpool)usingthe'local'profile...Errorusingmapreducer(line96)Failedtostartaparallelpool.(Forinformationinadditiontothecausingerror,validatetheprofile'local'intheClusterProfileManager.)Erroringcmr(line34)mr=mapredu

hadoop - 数据移动 HDFS 与并行文件系统与 MPI

我目前正致力于在MR-MPI(MPI上的MapReduce)上实现机器学习算法。我也在尝试了解其他MapReduce框架,尤其是Hadoop,所以以下是我的基本问题(我是MapReduce框架的新手,如果我的问题没有意义,我深表歉意)。问题:由于MapReduce可以在并行文件系统(GPFS)、HDFS、MPI等许多事物之上实现,等等。映射步骤之后是整理操作,然后是缩减操作。对于整理操作,我们需要跨节点进行一些数据移动。在这方面,我想知道HDFS、GPFS和MPI中的数据移动机制(节点之间)有什么区别。如果你能给我一些很好的解释,我很感激,并且可以给我一些很好的引用,这样我就可以深入了

python - 如何动态扩展 StarCluster/qsub/EC2 以跨多个节点运行并行作业

我不熟悉使用Startcluster/qsub/gridengine来运行并行作业,我尝试阅读其他几篇与此相关的文章。我仍然不确定如何为我的特定要求构建可扩展的解决方案。在继续进行相同的操作之前,我想听取更多建议。这是我的要求:我有一个巨大的tar文件[~40-50GB,最大可达100GB]----->我在这里无能为力。我接受了一个巨大的单个tar文件作为输入。我必须解压缩它----->我运行tarxvftarfilename.tar|parallelpbzip-d解压和解压缩相同的。这个解压缩的输出是几十万个文件,大约500,000个文件。必须处理这些未压缩的文件。我有模块化代码,可

hadoop - 添加并行选项使 Pig 中的作业失败

我是Pig的新手,正在尝试在我们的5节点Hadoop集群上运行以下PigScript。以下脚本为我提供了关系中两列的集合交集register'/home/workspace/Pig/setIntersecUdf.jar';defineIntercom.cs.pig.SetIntersection();a=load'/home/pig/pig-0.12.0/input/location.txt'as(location:chararray);b=load'/home/pig/pig-0.12.0/input/location.txt'as(location:chararray);c=CRO

hadoop - 将 org.apache.spark.rdd.RDD[String] 转换为并行化集合

我的HDFS中有一个csv文件,其中包含一系列产品,例如:[56][85,66,73][57][8,16][25,96,22,17][83,61]我正在尝试在我的代码中应用关联规则算法。为此我需要运行这个:scala>valdata=sc.textFile("/user/cloudera/data")data:org.apache.spark.rdd.RDD[String]=/user/cloudera/dataMapPartitionsRDD[294]attextFileat:38scala>valdistData=sc.parallelize(data)但是当我提交这个时我得到了这

hadoop - 如何增加MR或Hive CDH并行运行的Map任务数

MR作业启动时有128个映射器,但只有7个并行运行。如何增加并行运行的maptask的数量?谢谢 最佳答案 mapreduce.tasktracker.map.tasks.maximum这将设置可以在tasktracker级别同时运行的最大maptask数。要在作业级别设置它,您可以使用mapreduce.job.running.map.limit。 关于hadoop-如何增加MR或HiveCDH并行运行的Map任务数,我们在StackOverflow上找到一个类似的问题:

hadoop - yarn - spark 并行作业

我制作了只有1个工作节点的yarn-cluster,当我提交我的spark应用程序作业时它似乎工作正常。当我提交多个作业时,作业在hadoop队列中并一个接一个地处理提交的申请。我想并行处理我的申请,而不是逐一处理。这有什么配置吗?或者无法在yarn上做到这一点? 最佳答案 默认情况下,Yarn会一个一个地提交作业。要提交多个作业,您可以更改执行程序核心的数量:spark-submitclass/jar--executor-memory2g--num-executors15--executor-cores3--masteryarn-