草庐IT

并行性

全部标签

hadoop - 使用非重叠查询并行插入配置单元表

假设我必须将表T1和T2都按(天,国家/地区)进行分区,并且我并行运行两个查询,类似于:INSERTOVERWRITETABLET1PARTITION(day,country)SELECT*FROMT2WHEREcountry='DE'INSERTOVERWRITETABLET1PARTITION(day,country)SELECT*FROMT2WHEREcountry='FR'因此,对于非重叠查询。我不确定在这种情况下发生了什么?根据文档https://cwiki.apache.org/confluence/display/Hive/Locking#Locking-TurnOffC

image - hadoop 上的并行图像处理

我有几个巨大的TIFF图像(60,000x60,000~600MB)。我想使用Hadoop为每个图像创建一个金字塔(深度缩放格式)并将它们存储在HDFS上。理想情况下,我想实现每个节点只处理图像的一部分。实现它的最佳方法是什么?在HDFS上存储小文件会不会有很大的开销? 最佳答案 你确定你需要hadoop吗?你的图像不是那么大。我用了6年的台式机可以在4分钟内对更大的图像进行深度缩放:$tiffinfohuge.tifTIFFDirectoryatoffset0x12d095e4(315659748)ImageWidth:91460

hadoop - Hadoop 中的并行 Map Reduce 作业

我必须在hadoop1.0.4中运行许多(也许12个)作业。我希望这五个首先并行运行,当所有完成后并行运行其他4个作业,最后再次运行最后3个并行运行。我如何在hadoop1.0.4中设置它,因为我看到所有作业都相互运行而不是并行运行。 最佳答案 JobControlAPI可用于MR作业依赖。对于复杂的工作流程,Oozie或Azkaban被推荐。Here是OozievsAzkaban, 关于hadoop-Hadoop中的并行MapReduce作业,我们在StackOverflow上找到一个

algorithm - map reduce算法的并行效率计算公式是什么?

有没有公式可以告诉我们mapreduce算法的并行效率?(换句话说,我如何在数学上证明MR算法A优于MR算法B)我用谷歌搜索,但我只能在wiki上找到并行算法的加速和效率的定义。但如果有人能展示这些公式如何应用于MR算法,那就太好了 最佳答案 看看维基forBulkSynchronousParallelinshortBSP.RobBisselings的论文中包含另一个复杂度计算ParallelScientificComputation:AStructuredApproachUsingBSPandMPIBSP是对MapReduce的抽

hadoop - Spark 作业似乎不能很好地并行化

使用星火1.1我有一份工作如下:读取给定根下的文件夹列表,并行化列表对于每个文件夹,读取其下的文件-这些是gzip文件对于每个文件,提取内容-这些是行,每行代表一个事件,字段用制表符(TSV)分隔创建一个包含所有行的RDD。将TSV转换为json。(现在的线条代表某种事件类型,有4种类型:Session、request、recommendation、userevent)仅过滤session事件。根据某些用户ID字段仅对其中的1:100进行采样。将它们转换为一对,使用表示某种输出结构(例如:事件类型/日期/事件)的键,然后将其写入FS。对请求和用户事件做同样的事情(对于推荐,无法根据用户

hadoop - 如何并行执行多个 PIG 脚本?

我有多个PIG脚本,目前我正在使用命令pig-xmapreduce/path/to/Script/Script1.pig&&/path/to/Script/Script2.pig&&/path/to按顺序执行它/Script/Script3.pig现在我正在寻找并行执行这些脚本以提高性能的方法,因为它们彼此独立。我试图搜索它但没有得到准确的结果。那么有什么方法可以并行执行所有PIG脚本吗? 最佳答案 #!/bin/bashpig-xmapreduce/path/to/Script/Script1.pig&pig-xmapreduce

java - 如何在远程系统上并行执行

将工作分配给一组远程机器的好方法是什么?考虑一个任务非常占用CPU和RAM,但实际上并不处理大型数据集的示例。选择的语言是Java。我原以为Hadoop会是一个不错的选择,但是在远程机器之间传递的数据集相当小,而且Hadoop似乎主要关注数据的分布而不是工作的分布。有哪些好的技术可以提供帮助?编辑:我主要对负载平衡感兴趣。将有一系列作业,数据集较小( 最佳答案 MPI可能是个不错的选择,甚至还有一个JAVAimplementation. 关于java-如何在远程系统上并行执行,我们在St

matlab - 无法使用 MATLAB MapReducer 2014b 中的 'local' 配置文件启动并行池

我正在使用here中的示例作为MATLAB2014b中的“使用MapReduce计算平均值”。当我运行示例时,出现以下错误:Startingparallelpool(parpool)usingthe'local'profile...Errorusingmapreducer(line96)Failedtostartaparallelpool.(Forinformationinadditiontothecausingerror,validatetheprofile'local'intheClusterProfileManager.)Erroringcmr(line34)mr=mapredu

hadoop - 数据移动 HDFS 与并行文件系统与 MPI

我目前正致力于在MR-MPI(MPI上的MapReduce)上实现机器学习算法。我也在尝试了解其他MapReduce框架,尤其是Hadoop,所以以下是我的基本问题(我是MapReduce框架的新手,如果我的问题没有意义,我深表歉意)。问题:由于MapReduce可以在并行文件系统(GPFS)、HDFS、MPI等许多事物之上实现,等等。映射步骤之后是整理操作,然后是缩减操作。对于整理操作,我们需要跨节点进行一些数据移动。在这方面,我想知道HDFS、GPFS和MPI中的数据移动机制(节点之间)有什么区别。如果你能给我一些很好的解释,我很感激,并且可以给我一些很好的引用,这样我就可以深入了

python - 如何动态扩展 StarCluster/qsub/EC2 以跨多个节点运行并行作业

我不熟悉使用Startcluster/qsub/gridengine来运行并行作业,我尝试阅读其他几篇与此相关的文章。我仍然不确定如何为我的特定要求构建可扩展的解决方案。在继续进行相同的操作之前,我想听取更多建议。这是我的要求:我有一个巨大的tar文件[~40-50GB,最大可达100GB]----->我在这里无能为力。我接受了一个巨大的单个tar文件作为输入。我必须解压缩它----->我运行tarxvftarfilename.tar|parallelpbzip-d解压和解压缩相同的。这个解压缩的输出是几十万个文件,大约500,000个文件。必须处理这些未压缩的文件。我有模块化代码,可