草庐IT

并行机

全部标签

hadoop - map和reduce如何并行运行

我是hadoop的初学者,当我运行hadoop作业时,我注意到进度日志显示映射80%减少25%。我对mapreduce的理解是映射器产生一堆中间值。在映射器产生输出之后,有中间对的洗牌/排序,这些值被发送以减少作业。谁能解释一下map/reduce如何并行工作。 最佳答案 必须将映射器的输出复制到适当的缩减器节点。这称为洗牌过程。这甚至可以在所有映射器完成之前就开始,因为决定将哪个键转到哪个缩减器仅取决于映射器的输出键。所以你看到的25%的进步是由于洗牌阶段。shuffle之后是sort阶段,然后是reduce阶段。除非所有映射器都

hadoop - 如何在 HADOOP 中并行运行多个迭代作业

我有一个针对单个文件迭代运行的hadoop作业。现在,如果我必须为目录中的每个文件并行运行多个作业,那么在HADOOP中休假的最佳实践是什么。 最佳答案 可以引用项目haloop它解决了迭代映射减少。然后,如果文件很大,那么继续使用haloop,否则你可能会合并小文件以获得更好的性能。 关于hadoop-如何在HADOOP中并行运行多个迭代作业,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/ques

hadoop - 并行 hadoop 作业不会通过

我正在运行一个本地hadoop集群并尝试同时提交两个作业,但我的第一个作业通过了,第二个没有,并且一直处于未分配状态,直到第一个作业完成。我预感内存有问题,但我不太明白。这是我为容器、映射器、reduce、jvm等设置的值。yarn.nodemanager.resource.memory-mb=40960yarn.scheduler.minimum-allocation-mb=4096yarn.scheduler.maximum-allocation-mb=10240mapreduce.map.java.opts=-Xmx5120mmapreduce.reduce.java.opts=

Hadoop 并行运行 reducer

我有一个4G文件,大约有16条磨线,map正在运行,15张map中有6张平行分布。生成35000个key。我正在使用MultipleTextoutput,因此每个reducer都会生成一个独立于其他reducer的输出。我已经为conf配置了25-50个reducer,但它总是一次运行1个reducer。机器-4核32Gram单机运行hortonworks堆栈如何让1个以上的reduce任务并行运行? 最佳答案 看看hadoopMapReduceTutorialHowManyReduces?Therightnumberofreduc

scala - Spark DataFrame 并行性

下面是我使用ApacheSpark的用例1)我在HDFS上有大约2500个Parquet文件,文件大小因文件而异。2)我需要处理每个parquet文件并构建一个新的DataFrame并将一个新的DataFrame写入orc文件格式。3)我的Spark驱动程序是这样的。我正在迭代每个文件,处理单个Parquet文件,创建一个新的DataFrame并将一个新的DataFrame编写为ORC,下面是代码片段。valfs=FileSystem.get(newConfiguration())valparquetDFMap=fs.listStatus(newPath(inputFilePath))

xml - hadoop中如何并行解析XML

如果我有一个很大的XML文件,并且我想并行处理它。“Hadoop实践”使用mahoutXMLInputFormat,我发现getSplits()方法没有被覆盖。换句话说,它使用TextInputFormat的getSplits()方法。以及这种方法如何避免在begin-tag和end-tag的位置分割文件?当我有这样一个XML文件时。两个映射器用于并行处理XML文件。John12.......-------untilhereasthefirstFileSplitAmy14.......Dan12-------remainingasthesecondFileSplit当映射器进行第二次F

python - 任何用于并行和分布式任务的 python 库?

我正在寻找一个可以在几台服务器上分配任务的Python库。该任务类似于单机中subprocess库可以并行化的任务。我知道我可以为此目的设置一个Hadoop系统。然而,Hadoop是重量级的。就我而言,我想使用共享网络磁盘进行数据I/O,而且我不需要任何花哨的故障恢复。在MapReduce的术语中,我只需要映射器,不需要聚合器或缩减器。Python中有这样的库吗?谢谢! 最佳答案 尝试使用celery.Celeryisanasynchronoustaskqueue/jobqueuebasedondistributedmessagep

filesystems - IBM 通用并行文件系统 (GPFS) 是否支持 Map/Reduce 作业?

我正在研究各种分布式文件系统。IBM通用并行文件系统(GPFS)本身是否支持Map/Reduce作业?不使用第三方软件(如HadoopMap/reduce)?谢谢! 最佳答案 2009年,GPFS被扩展为与Hadoop无缝协作,成为GPFS-SharedNothingCluster架构,现在以GPFSFilePlacementOptimizer(FPO)的名义提供。如果应用程序需要,FPO允许完全控制所有副本的数据放置。当然,您可以轻松配置以匹配HDFS分配。查看详细信息http://publib.boulder.ibm.com/i

hadoop - 使用 Hadoop mapreduce 进行并行缩减

我正在使用Hadoop的MapReduce。我有一个文件作为map函数的输入,map函数做了一些事情(与问题无关)。我希望我的reducer获取map的输出并写入两个不同的文件。在我看来(我想要一个高效的解决方案),我的想法有两种:1个reducer知道识别不同的情况并写入2个不同的上下文。2个并行化简器,每个化简器都知道识别其相关输入,忽略另一个化简器,这样每个化简器都会写入一个文件(每个化简器将写入不同的文件)。我更喜欢第一个解决方案,因为它意味着我将只检查map的输出一次而不是并行两次-但如果第一个在某种程度上不受支持-我会很高兴听到第二个建议的解决方案。*注意:这两个最终文件应

FPGA 20个例程篇:20.USB2.0/RS232/LAN控制并行DAC输出任意频率正弦波、梯形波、三角波、方波(二)

   通过上面的介绍相信大家对数字变频已经有了一个较为整体性的认识,下面笔者来对照XILINX的DDSIP核对数字变频技术展开更进一步的说明,做到了理论和实践很好地结合,这样大家再带入Modelsim进行仿真测试就不仅掌握了数字变频的理论知识,也明白了其IP核的使用方法。    查阅XILINX的DDSIP核官方手册pg141-dds-compiler,如图1所示是DDSIP核的简化图,大家可以看到这里和前面数字变频理论基础介绍大同小异,XILINX的DDSIP核内部由累加器、寄存器、查找表等组成。图1DDSIP核的简化图   如图2所示是DDSIP核的频率控制字计算说明,这里XILINX也举