并行性

hadoop - 使用非重叠查询并行插入配置单元表

假设我必须将表T1和T2都按(天，国家/地区)进行分区，并且我并行运行两个查询，类似于:INSERTOVERWRITETABLET1PARTITION(day,country)SELECT*FROMT2WHEREcountry='DE'INSERTOVERWRITETABLET1PARTITION(day,country)SELECT*FROMT2WHEREcountry='FR'因此，对于非重叠查询。我不确定在这种情况下发生了什么？根据文档https://cwiki.apache.org/confluence/display/Hive/Locking#Locking-TurnOffC

image - hadoop 上的并行图像处理

我有几个巨大的TIFF图像(60,000x60,000~600MB)。我想使用Hadoop为每个图像创建一个金字塔(深度缩放格式)并将它们存储在HDFS上。理想情况下，我想实现每个节点只处理图像的一部分。实现它的最佳方法是什么？在HDFS上存储小文件会不会有很大的开销？最佳答案你确定你需要hadoop吗？你的图像不是那么大。我用了6年的台式机可以在4分钟内对更大的图像进行深度缩放:$tiffinfohuge.tifTIFFDirectoryatoffset0x12d095e4(315659748)ImageWidth:91460

hadoop image section stackoverflow questions tiles deepzoom

hadoop - Hadoop 中的并行 Map Reduce 作业

我必须在hadoop1.0.4中运行许多(也许12个)作业。我希望这五个首先并行运行，当所有完成后并行运行其他4个作业，最后再次运行最后3个并行运行。我如何在hadoop1.0.4中设置它，因为我看到所有作业都相互运行而不是并行运行。最佳答案 JobControlAPI可用于MR作业依赖。对于复杂的工作流程，Oozie或Azkaban被推荐。Here是OozievsAzkaban，关于hadoop-Hadoop中的并行MapReduce作业，我们在StackOverflow上找到一个

hadoop section noreferrer mapreduce

algorithm - map reduce算法的并行效率计算公式是什么？

有没有公式可以告诉我们mapreduce算法的并行效率？(换句话说，我如何在数学上证明MR算法A优于MR算法B)我用谷歌搜索，但我只能在wiki上找到并行算法的加速和效率的定义。但如果有人能展示这些公式如何应用于MR算法，那就太好了最佳答案看看维基forBulkSynchronousParallelinshortBSP.RobBisselings的论文中包含另一个复杂度计算ParallelScientificComputation:AStructuredApproachUsingBSPandMPIBSP是对MapReduce的抽

algorithm reduce code section noreferrer hadoop parallel-processing mapreduce

hadoop - Spark 作业似乎不能很好地并行化

使用星火1.1我有一份工作如下:读取给定根下的文件夹列表，并行化列表对于每个文件夹，读取其下的文件-这些是gzip文件对于每个文件，提取内容-这些是行，每行代表一个事件，字段用制表符(TSV)分隔创建一个包含所有行的RDD。将TSV转换为json。(现在的线条代表某种事件类型，有4种类型:Session、request、recommendation、userevent)仅过滤session事件。根据某些用户ID字段仅对其中的1:100进行采样。将它们转换为一对，使用表示某种输出结构(例如:事件类型/日期/事件)的键，然后将其写入FS。对请求和用户事件做同样的事情(对于推荐，无法根据用户

hadoop Spark String ObjectNode gt bigdata apache-spark google-hadoop

hadoop - 如何并行执行多个 PIG 脚本？

我有多个PIG脚本，目前我正在使用命令pig-xmapreduce/path/to/Script/Script1.pig&&/path/to/Script/Script2.pig&&/path/to按顺序执行它/Script/Script3.pig现在我正在寻找并行执行这些脚本以提高性能的方法，因为它们彼此独立。我试图搜索它但没有得到准确的结果。那么有什么方法可以并行执行所有PIG脚本吗？最佳答案 #!/bin/bashpig-xmapreduce/path/to/Script/Script1.pig&pig-xmapreduce

hadoop PIG Script section apache-pig

java - 如何在远程系统上并行执行

将工作分配给一组远程机器的好方法是什么？考虑一个任务非常占用CPU和RAM，但实际上并不处理大型数据集的示例。选择的语言是Java。我原以为Hadoop会是一个不错的选择，但是在远程机器之间传递的数据集相当小，而且Hadoop似乎主要关注数据的分布而不是工作的分布。有哪些好的技术可以提供帮助？编辑:我主要对负载平衡感兴趣。将有一系列作业，数据集较小( 最佳答案 MPI可能是个不错的选择，甚至还有一个JAVAimplementation. 关于java-如何在远程系统上并行执行，我们在St

何在 java section noreferrer noopener parallel-processing hadoop load-balancing

matlab - 无法使用 MATLAB MapReducer 2014b 中的 'local' 配置文件启动并行池

我正在使用here中的示例作为MATLAB2014b中的“使用MapReduce计算平均值”。当我运行示例时，出现以下错误:Startingparallelpool(parpool)usingthe'local'profile...Errorusingmapreducer(line96)Failedtostartaparallelpool.(Forinformationinadditiontothecausingerror,validatetheprofile'local'intheClusterProfileManager.)Erroringcmr(line34)mr=mapredu

MapReducer amp section strong Error matlab hadoop parallel-processing mapreduce

hadoop - 数据移动 HDFS 与并行文件系统与 MPI

我目前正致力于在MR-MPI(MPI上的MapReduce)上实现机器学习算法。我也在尝试了解其他MapReduce框架，尤其是Hadoop，所以以下是我的基本问题(我是MapReduce框架的新手，如果我的问题没有意义，我深表歉意)。问题:由于MapReduce可以在并行文件系统(GPFS)、HDFS、MPI等许多事物之上实现，等等。映射步骤之后是整理操作，然后是缩减操作。对于整理操作，我们需要跨节点进行一些数据移动。在这方面，我想知道HDFS、GPFS和MPI中的数据移动机制(节点之间)有什么区别。如果你能给我一些很好的解释，我很感激，并且可以给我一些很好的引用，这样我就可以深入了

hadoop HDFS 上实 section MapReduce filesystems

python - 如何动态扩展 StarCluster/qsub/EC2 以跨多个节点运行并行作业

我不熟悉使用Startcluster/qsub/gridengine来运行并行作业，我尝试阅读其他几篇与此相关的文章。我仍然不确定如何为我的特定要求构建可扩展的解决方案。在继续进行相同的操作之前，我想听取更多建议。这是我的要求:我有一个巨大的tar文件[~40-50GB，最大可达100GB]----->我在这里无能为力。我接受了一个巨大的单个tar文件作为输入。我必须解压缩它----->我运行tarxvftarfilename.tar|parallelpbzip-d解压和解压缩相同的。这个解压缩的输出是几十万个文件，大约500,000个文件。必须处理这些未压缩的文件。我有模块化代码，可

StarCluster python li section 的 hadoop qsub parallel-python

92 93 949596 97 98