并行性

hadoop - 添加并行选项使 Pig 中的作业失败

我是Pig的新手，正在尝试在我们的5节点Hadoop集群上运行以下PigScript。以下脚本为我提供了关系中两列的集合交集register'/home/workspace/Pig/setIntersecUdf.jar';defineIntercom.cs.pig.SetIntersection();a=load'/home/pig/pig-0.12.0/input/location.txt'as(location:chararray);b=load'/home/pig/pig-0.12.0/input/location.txt'as(location:chararray);c=CRO

hadoop - 将 org.apache.spark.rdd.RDD[String] 转换为并行化集合

我的HDFS中有一个csv文件，其中包含一系列产品，例如:[56][85,66,73][57][8,16][25,96,22,17][83,61]我正在尝试在我的代码中应用关联规则算法。为此我需要运行这个:scala>valdata=sc.textFile("/user/cloudera/data")data:org.apache.spark.rdd.RDD[String]=/user/cloudera/dataMapPartitionsRDD[294]attextFileat:38scala>valdistData=sc.parallelize(data)但是当我提交这个时我得到了这

hadoop apache section code spark apache-spark sequence rdd

hadoop - 如何增加MR或Hive CDH并行运行的Map任务数

MR作业启动时有128个映射器，但只有7个并行运行。如何增加并行运行的maptask的数量？谢谢最佳答案 mapreduce.tasktracker.map.tasks.maximum这将设置可以在tasktracker级别同时运行的最大maptask数。要在作业级别设置它，您可以使用mapreduce.job.running.map.limit。关于hadoop-如何增加MR或HiveCDH并行运行的Map任务数，我们在StackOverflow上找到一个类似的问题：

hadoop Hive section code stackoverflow mapreduce cloudera cloudera-cdh

hadoop - yarn - spark 并行作业

我制作了只有1个工作节点的yarn-cluster，当我提交我的spark应用程序作业时它似乎工作正常。当我提交多个作业时，作业在hadoop队列中并一个接一个地处理提交的申请。我想并行处理我的申请，而不是逐一处理。这有什么配置吗？或者无法在yarn上做到这一点？最佳答案默认情况下，Yarn会一个一个地提交作业。要提交多个作业，您可以更改执行程序核心的数量:spark-submitclass/jar--executor-memory2g--num-executors15--executor-cores3--masteryarn-

hadoop spark section yarn stackoverflow hadoop-yarn

hadoop - 基于在 spark 中创建的零件文件数量进行性能调整

以下是我工作的阶段:第1阶段-进行一些计算并将临时数据保存到文件中。将在流程中保存和读取多个临时数据帧。第2阶段-读取临时数据并进行一些其他计算并将其存储到最终数据文件中。注意:我保留了多个临时文件，因为我无法将它们保存在内存中，因为数据很大。(8400万行，200万个不同的主键kindoff值)我使用coleasce(n)或repartition(n)，其中n是一个很大的数字，例如:200。现在这会导致在输出中为我保留的每个临时数据创建200个文件。我知道coalesce/repartition对于写性能来说是一项代价高昂的工作。但是当我使用n=200时，我确实获得了比n=50时更好

中创进行性 section 例如的 hadoop apache-spark spark-dataframe

hadoop - 如何从客户端并行上传文件到Hadoop集群

使用hadoopfs-put命令，数据按顺序进入集群。但是如何从客户端并行上传数据到HDFS集群呢？最佳答案由于命令hadoop是一个Hadoop客户端，因此有必要让其中的几个并行运行。但是您将必须实现一种拆分策略和错误处理，以便所有文件都能上传。它不会解决磁盘I/O、IOps、网络利用率等其他瓶颈。您会在DataLoadingintoHDFS-Part1-Parallelloading下找到一些背景信息. 关于hadoop-如何从客户端并行上传文件到Hadoop集群，我们在Stac

hadoop section code hdfs load-balancing

hadoop - 可以使用 Map Reduce 和 Hadoop 并行处理批处理作业吗？

我们的组织有数百个通宵运行的批处理作业。其中许多工作需要2、3、4小时才能完成；有些甚至需要长达7个小时。目前，这些作业以单线程模式运行，因此我们提高性能的尝试受到具有额外CPU和内存的机器垂直扩展的限制。我们正在探索利用并行处理技术(例如MapReduce)来缩短完成这些作业所需时间的想法。我们的大多数批处理过程通常会从数据库中提取大型数据集，逐行处理数据，然后将结果作为文件转储到另一个数据库中。在大多数情况下，单个行的处理独立于其他行。现在我们正在研究MapReduce框架，以将这些作业分解成更小的部分以进行并行处理。我们的组织拥有超过400名员工的台式PC，我们希望在下类时间利用

hadoop section 的 MapReduce parallel-processing

hadoop - 并行复制到 HDFS

从NFS装载实现到hadoop的并行复制的最佳和快速方法是什么？我们有一个包含大量文件的挂载，我们需要将其复制到hdfs中。一些选项:以多线程方式运行copyFromLocal以独立的方式使用distcp。我可以写一个只有map的作业来做复制吗？问候，京东最佳答案我认为关键问题是NFS链接的源端是什么？如果它是一个NAS，你可能会更好地处理你有多台客户端机器同时运行copyFromLocal(每台一台)的情况。当您从同一个客户端同时读取超过5-10个磁盘时，即使是高性能NAS也会感到不快。我将对以下内容进行建模(全部使用copy

hadoop HDFS section copyFromLocal li

hadoop - 集群中多个文件的并行处理

在我工作的公司，我们每天要处理几千个文件，这需要几个小时。这些操作基本上是CPU密集型的，比如将PDF转换为高分辨率图像，然后创建许多不同尺寸的此类图像。这些任务中的每一项都占用大量CPU，因此我们不能简单地在同一台机器上启动多个实例，因为没有任何处理能力可用于所有任务。因此，完成所有事情需要几个小时。在我看来，最明显的做法是对文件集进行分区，并让更多机器同时处理它们(5、10、15台机器，我还不知道需要多少台机器).我不想重新发明轮子并为任务创建一个管理器(我也不想麻烦)，但我不确定应该使用哪个工具。虽然我们没有大数据，但我已经开始研究Hadoop(我们在Amazon运行)，它处理节

hadoop 集群 noreferrer noopener mapreduce parallel-processing

hadoop - 并行运行多个 map task

我正在使用hadoop2.0。当我使用job.setNumMapTasks更改maptask的数量时，数量符合预期(输出文件夹中的序列文件数量和容器数量)，但它们不会并行运行,但一次只有2个。例如，当我将map任务的数量设置为5时，它会先执行其中的2个，然后再执行2个，然后再执行1个。我有一个8核系统，想充分利用它。一些在线搜索(包括StackOverflow)似乎提出了一些建议，我尝试了以下方法:调整了mapred-site.xml中的参数“mapred.tasktracker.map.tasks.maximum”来设置并行运行的任务数。我将其设置为8。减少了参数“mapred.ma

hadoop task section https map mapreduce

93 94 959697 98 99