草庐IT

并行机

全部标签

hadoop - 并行运行 Oozie 操作

我正在使用Hue中的工作流编辑器来开发Oozie工作流。有一些Action应该并行执行。是否可以同时执行两个或多个Action?如何在Hue中进行设置? 最佳答案 是的,这是可能的。在各种Oozieworkflownodes,有两个控制节点fork和join:Aforknodesplitsonepathofexecutionintomultipleconcurrentpathsofexecution.Ajoinnodewaitsuntileveryconcurrentexecutionpathofapreviousforknodea

python - 并行化 GZip 文件处理 Spark

我有大量需要转换为Parquet的GZip文件。由于GZip的压缩特性,这不能针对一个文件并行化。但是,既然我有很多,有没有比较简单的方法让每个节点做一部分文件呢?这些文件在HDFS上。我假设我不能使用RDD基础设施来编写Parquet文件,因为这一切都是在驱动程序上完成的,而不是在节点本身上完成的。我可以并行化文件名列表,编写一个处理本地Parquets并将它们保存回HDFS的函数。我不知道该怎么做。我觉得我错过了一些明显的东西,谢谢!这被标记为重复问题,但事实并非如此。我完全了解Spark能够将它们作为RDD读取而不必担心压缩,我的问题更多是关于如何并行地将这些文件转换为结构化Pa

hadoop - 云端小功能并行处理

我有几百万/十亿(10^9)个数据输入集需要处理。它们很小我阅读了很多有关ApacheHadoop、MapReduce和StarCluster的文章。但我不确定最有效和最快的处理方式是什么?我正在考虑使用AmazonEC2或类似的云服务。 最佳答案 您可能会考虑像AmazonEMR这样的东西它负责处理Hadoop的很多管道。如果您只是想快速编写代码,hadoop流、hive和PIG都是很好的hadoop入门工具,不需要您了解MapReduce的所有来龙去脉。 关于hadoop-云端小功能

hadoop - Hadoop 是为解决需要对相同数据但具有不同参数的多个并行计算的问题而设计的吗?

从我所读的内容来看,我了解到Hadoop非常适合解决以下类别的问题-通过在可能的许多节点之间分配计算来回答一个巨大的问题。Hadoop的设计目的是解决涉及在同一数据集上进行多次计算但每个参数不同的问题吗?例如,基于相同的主数据集模拟不同的场景,但使用不同的参数(例如,在相同的数据集上测试数据挖掘模型,但产生多次模拟迭代,每次迭代使用不同的参数集并找到最佳模型)例如对于一个预测天气的模型,它有一组不同权重的规则,Hadoop是否支持运行相同的模型,但每个“节点”在学习集上以不同的权重值运行并比较预测结果以找到最佳模型?或者这是Hadoop根本不打算做的事情?

azure - Azure Data Lakes (Hadoop) 中的优先级和并行值意味着什么?

换句话说,并行度值为5和优先级值为1000是什么意思? 最佳答案 它们会影响您的作业运行的方式和时间。优先级确定作业相对于其他排队作业的运行顺序,并行性设置为其启动的并行进程数(更多意味着它运行得更快但成本更高)https://learn.microsoft.com/en-us/azure/data-lake-analytics/data-lake-analytics-manage-use-portal优先级Lowernumberhashigherpriority.Iftwojobsarebothqueued,theonewithl

algorithm - mapreduce中是否有可以并行执行的非交换reducer?

某些运算(例如中位数和均值)是不可交换的。在这种情况下似乎只能有一个reducer,因为reducer需要具有全局View。map-reduce中是否有可以并行执行的非交换reducer?当遇到非交换操作时,人们真的会使用map-reduce吗?或者只是在一些非常强大的机器上运行它?是否有将非交换运算分解为交换运算的通用方法?谢谢 最佳答案 我不知道“交换”这个词用在这里是否合适,但我明白你在说什么。在hadoop中,post-mapping阶段其实分为两步:Combiner和Reducer,签名相同。Combiner在映射器上运行

shell - 如何在oozie中执行并行作业

我在HDFS中有一个shell脚本。我已使用以下工作流程在oozie中安排此脚本。工作流程:Actionfailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]${jobTracker}${nameNode}shell.sh${input_file}HADOOP_USER_NAME=${wf:user()}/user/xxxx/shell_script/lib/shell.sh#shell.sh/user/xxxx/args/${input_file}#${input_file}工作性质nameNode=xxxxxxxxxx

scala - 了解 Spark 中的闭包和并行性

我正在尝试了解某些​​事情在Spark中是如何工作的。在示例中如http://spark.apache.org/docs/latest/programming-guide.html#understanding-closures-a-nameclosureslinka表示代码将对RDD中的值求和并将其存储在计数器中,但这里不是这种情况,因为它不起作用。只有当您删除paralelize时,它​​才会起作用。有人可以向我解释一下这是如何工作的吗?还是例子有误?谢谢valdata=Array(1,2,3,4,5)varcounter=0varrdd=sc.parallelize(data)//

hadoop/yarn 和非 hdfs 文件系统上的任务并行化

我已经实例化了一个Hadoop2.4.1集群,我发现运行MapReduce应用程序的并行化取决于输入数据所在的文件系统类型。使用HDFS,MapReduce作业将生成足够多的容器以最大限度地利用所有可用内存。例如,一个172GB内存的3节点集群,每个map任务分配2GB内存,将创建大约86个应用程序容器。在非HDFS的文件系统上(如NFS或在我的用例中,并行文件系统),MapReduce作业将仅分配可用任务的子集(例如,对于相同的3节点集群,大约25-创建了40个容器)。由于我使用的是并行文件系统,因此我不太关心使用NFS时会发现的瓶颈。是否有YARN(yarn-site.xml)或M

hadoop - 在 hadoop 中并行运行作业

我是hadoop的新手。我已经设置了一个2节点集群。如何在hadoop中并行运行2个作业。当我提交作业时,它们会按照先进先出的顺序一个接一个地运行。我必须并行运行这些作业。如何实现。谢谢MRK 最佳答案 Hadoop可以配置多个调度器,默认是FIFO调度器。FIFOSchedule的行为是这样的。场景一:如果集群有10个MapTask容量,job1需要15个MapTask,那么运行job1就占用了整个集群。当job1取得进展并且有可用的空闲插槽未被job1使用时,job2将在集群上运行。场景二:如果集群有10个MapTask容量,j