并行机

hadoop - Spark 作业似乎不能很好地并行化

使用星火1.1我有一份工作如下:读取给定根下的文件夹列表，并行化列表对于每个文件夹，读取其下的文件-这些是gzip文件对于每个文件，提取内容-这些是行，每行代表一个事件，字段用制表符(TSV)分隔创建一个包含所有行的RDD。将TSV转换为json。(现在的线条代表某种事件类型，有4种类型:Session、request、recommendation、userevent)仅过滤session事件。根据某些用户ID字段仅对其中的1:100进行采样。将它们转换为一对，使用表示某种输出结构(例如:事件类型/日期/事件)的键，然后将其写入FS。对请求和用户事件做同样的事情(对于推荐，无法根据用户

hadoop - 如何并行执行多个 PIG 脚本？

我有多个PIG脚本，目前我正在使用命令pig-xmapreduce/path/to/Script/Script1.pig&&/path/to/Script/Script2.pig&&/path/to按顺序执行它/Script/Script3.pig现在我正在寻找并行执行这些脚本以提高性能的方法，因为它们彼此独立。我试图搜索它但没有得到准确的结果。那么有什么方法可以并行执行所有PIG脚本吗？最佳答案 #!/bin/bashpig-xmapreduce/path/to/Script/Script1.pig&pig-xmapreduce

hadoop PIG Script section apache-pig

java - 如何在远程系统上并行执行

将工作分配给一组远程机器的好方法是什么？考虑一个任务非常占用CPU和RAM，但实际上并不处理大型数据集的示例。选择的语言是Java。我原以为Hadoop会是一个不错的选择，但是在远程机器之间传递的数据集相当小，而且Hadoop似乎主要关注数据的分布而不是工作的分布。有哪些好的技术可以提供帮助？编辑:我主要对负载平衡感兴趣。将有一系列作业，数据集较小( 最佳答案 MPI可能是个不错的选择，甚至还有一个JAVAimplementation. 关于java-如何在远程系统上并行执行，我们在St

何在 java section noreferrer noopener parallel-processing hadoop load-balancing

matlab - 无法使用 MATLAB MapReducer 2014b 中的 'local' 配置文件启动并行池

我正在使用here中的示例作为MATLAB2014b中的“使用MapReduce计算平均值”。当我运行示例时，出现以下错误:Startingparallelpool(parpool)usingthe'local'profile...Errorusingmapreducer(line96)Failedtostartaparallelpool.(Forinformationinadditiontothecausingerror,validatetheprofile'local'intheClusterProfileManager.)Erroringcmr(line34)mr=mapredu

MapReducer amp section strong Error matlab hadoop parallel-processing mapreduce

hadoop - 数据移动 HDFS 与并行文件系统与 MPI

我目前正致力于在MR-MPI(MPI上的MapReduce)上实现机器学习算法。我也在尝试了解其他MapReduce框架，尤其是Hadoop，所以以下是我的基本问题(我是MapReduce框架的新手，如果我的问题没有意义，我深表歉意)。问题:由于MapReduce可以在并行文件系统(GPFS)、HDFS、MPI等许多事物之上实现，等等。映射步骤之后是整理操作，然后是缩减操作。对于整理操作，我们需要跨节点进行一些数据移动。在这方面，我想知道HDFS、GPFS和MPI中的数据移动机制(节点之间)有什么区别。如果你能给我一些很好的解释，我很感激，并且可以给我一些很好的引用，这样我就可以深入了

hadoop HDFS 上实 section MapReduce filesystems

python - 如何动态扩展 StarCluster/qsub/EC2 以跨多个节点运行并行作业

我不熟悉使用Startcluster/qsub/gridengine来运行并行作业，我尝试阅读其他几篇与此相关的文章。我仍然不确定如何为我的特定要求构建可扩展的解决方案。在继续进行相同的操作之前，我想听取更多建议。这是我的要求:我有一个巨大的tar文件[~40-50GB，最大可达100GB]----->我在这里无能为力。我接受了一个巨大的单个tar文件作为输入。我必须解压缩它----->我运行tarxvftarfilename.tar|parallelpbzip-d解压和解压缩相同的。这个解压缩的输出是几十万个文件，大约500,000个文件。必须处理这些未压缩的文件。我有模块化代码，可

StarCluster python li section 的 hadoop qsub parallel-python

hadoop - 添加并行选项使 Pig 中的作业失败

我是Pig的新手，正在尝试在我们的5节点Hadoop集群上运行以下PigScript。以下脚本为我提供了关系中两列的集合交集register'/home/workspace/Pig/setIntersecUdf.jar';defineIntercom.cs.pig.SetIntersection();a=load'/home/pig/pig-0.12.0/input/location.txt'as(location:chararray);b=load'/home/pig/pig-0.12.0/input/location.txt'as(location:chararray);c=CRO

hadoop Pig java apache mapreduce apache-pig

hadoop - 将 org.apache.spark.rdd.RDD[String] 转换为并行化集合

我的HDFS中有一个csv文件，其中包含一系列产品，例如:[56][85,66,73][57][8,16][25,96,22,17][83,61]我正在尝试在我的代码中应用关联规则算法。为此我需要运行这个:scala>valdata=sc.textFile("/user/cloudera/data")data:org.apache.spark.rdd.RDD[String]=/user/cloudera/dataMapPartitionsRDD[294]attextFileat:38scala>valdistData=sc.parallelize(data)但是当我提交这个时我得到了这

hadoop apache section code spark apache-spark sequence rdd

hadoop - 如何增加MR或Hive CDH并行运行的Map任务数

MR作业启动时有128个映射器，但只有7个并行运行。如何增加并行运行的maptask的数量？谢谢最佳答案 mapreduce.tasktracker.map.tasks.maximum这将设置可以在tasktracker级别同时运行的最大maptask数。要在作业级别设置它，您可以使用mapreduce.job.running.map.limit。关于hadoop-如何增加MR或HiveCDH并行运行的Map任务数，我们在StackOverflow上找到一个类似的问题：

hadoop Hive section code stackoverflow mapreduce cloudera cloudera-cdh

hadoop - yarn - spark 并行作业

我制作了只有1个工作节点的yarn-cluster，当我提交我的spark应用程序作业时它似乎工作正常。当我提交多个作业时，作业在hadoop队列中并一个接一个地处理提交的申请。我想并行处理我的申请，而不是逐一处理。这有什么配置吗？或者无法在yarn上做到这一点？最佳答案默认情况下，Yarn会一个一个地提交作业。要提交多个作业，您可以更改执行程序核心的数量:spark-submitclass/jar--executor-memory2g--num-executors15--executor-cores3--masteryarn-

hadoop spark section yarn stackoverflow hadoop-yarn

88 89 909192 93 94