并行性

algorithm - Hadoop 适合哪种类型的并行算法？

我完全不是Hadoop专家，但我的理解是Hadoop非常适合并行算法，其中并行性表现为map-reduce形式或任何其他类型的分而治之。还有其他类型的算法技术也很适合吗？最佳答案 Hadoop适用于令人尴尬的并行工作负载(并行任务之间没有依赖性)。进程之间没有消息传递机制。Map和Reduce进程遵循基于IO的通信模式，这本身就是一个很大的开销。MapReduce不适合编写迭代算法(例如KMeans、PageRank)，因为每次迭代都是一个单独的mapreduce应用程序，并且由于巨大的IO开销，算法的性能会下降。对于迭代算法，您

hadoop - 在 Spark 中运行并行查询

spark如何处理并发查询？我已经阅读了一些关于spark和底层RDD的内容，但我无法理解如何处理并发查询？例如，如果我运行一个将数据加载到内存中的查询，并且消耗了整个可用内存，同时其他人运行一个涉及另一组数据的查询，那么spark将如何为两个查询分配内存？如果考虑优先级，还会产生什么影响。运行大量并行查询也会导致机器挂起吗？最佳答案首先，Spark占用的内存(RAM)不会超过阈值限制。Spark尝试将默认内存分配给每个作业。如果新作业的内存不足，它会尝试将LeastRecentlyUsed(LRU)RDD的内存内容溢出到磁盘，

中运 hadoop section Spark 配给 apache-spark

Hadoop 管道写入和并行读取？

我们知道hadoop中的客户端并行读取数据，但数据是在管道结构中写入的，其中一个数据节点将数据写入另一个数据节点。我知道并行读取使系统具有更高的容错能力和更快的读取速度。但是管道写入的好处是什么？为什么HDFS客户端不自己将数据写入每个节点？最佳答案 1。客户端带宽消耗效率更高在管道写入中，客户端只需要向第一个数据节点传输一个副本，每个节点只通过网络获取和发送一个副本(除了最后一个数据节点只接收数据)，从而拥有更多与客户端将三个副本写入三个不同的数据节点相比，平衡了网络带宽消耗。2。更小的发送/确认窗口以维护客户端维护一个小得多的

Hadoop 管道 code DP section hdfs

postgresql - 在不损失 Hadoop 并行处理能力的情况下，将 SAS 与 Hadoop 集成的最佳方法是什么

我想了解SAS和Hadoop之间的集成。据我了解，像procsql这样的SAS进程只能对SAS数据集起作用，我不能对hadoop节点上的文本文件发出procsql。这是正确的吗？如果是，那么我需要使用一些ETL作业首先将数据从HDFS中取出并将其转换为SAS表。但如果我这样做，我将失去Hadoop的并行处理能力，对吗？那么集成SAS和Hadoop并仍然使用Hadoop的并行处理能力的理想方式是什么？我知道您可以从SAS内部调用mapreduce作业，但是mapreduce作业可以用SAS编写吗？我认为不是。最佳答案 SAS全局论坛

Hadoop postgresql SAS data apache-hive hawq

hadoop - 在 Hadoop 上并行化执行决策树 ID3/C4.5

我想在Hadoop上实现决策树ID3/C4.5。任何人都可以知道如何继续。我很清楚这些算法，但我需要知道如何并行化它们。最佳答案我会考虑将属性选择的一次迭代作为一项MapReduce作业的方法。按照这个想法，您可以将属性分配给每个映射器以检查信息增益，并且在减少阶段(使用单个减少器)您可以选择最佳属性。如果在一台机器上(在所有属性上)计算单次迭代的时间比作业开始的开销稍长——大约20-40秒，我会认为这种方法是可行的。关于hadoop-在Hadoop上并行化执行决策树ID3/C4.

hadoop section 上实 code parallel-processing decision-tree id3 c4.5

scala - Spark 作业未在本地并行化(使用本地文件系统中的 Parquet + Avro)

编辑2通过将RDD重新分区为8个分区间接解决了问题。遇到avro对象不是“javaserialisable”的障碍，找到了一个片段heretodelegateavroserialisationtokryo.原来的问题依然存在。编辑1:删除了map函数中的局部变量引用我正在编写一个驱动程序，使用parquet和avroforio/schema在spark上运行计算繁重的作业。我似乎无法得到Spark来使用我所有的核心。我究竟做错了什么？是因为我已将键设置为null吗？我刚刚开始了解hadoop如何组织文件。据我所知，因为我的文件有1GB的原始数据，我应该期望看到与默认block和页面大小

Parquet scala Topic classOf val hadoop parallel-processing bigdata apache-spark

java - 将数据并行加载到 hdfs

我有一个由3个节点组成的Hadoop集群。我想尽快将一个180GB的文件加载到HDFS中。我知道-put和-copyFromLocal都不会在这方面帮助我，因为它们是单线程的。我在考虑Map/Reduce。有没有办法将加载过程分发给节点本身。所以每个节点都会加载文件的一部分，比如每个60GB。我不想从每个节点手动执行此操作(这违背了目的)。如果有办法使用Java和Map/Reduce来做到这一点，我很乐意阅读它。我知道Hadoop可以处理通配符输入文件。假设每个60GBblock的名称如下:file_1、file_2、file_3..然后我可以将file_*用于我的下一个MR作业。我遇

java hdfs section 的 strong multithreading hadoop mapreduce

hadoop - 如何使用 Dask 在 yarn 上运行并行化的 python 作业？

我有几个关于将Dask与Hadoop/Yarn结合使用的问题。1)如何将Dask连接到Hadoop/YARN并并行化作业？当我尝试使用时:fromdask.distributedimportClientclient=Client('Mynamenode:50070')它导致错误:CommClosedError:in:Streamisclosed:whiletryingtocallremotemethod'identity'我应该传递名称节点或数据节点的地址吗？我可以改用Zookeeper吗？2)如何使用Dask和HDFS3从HDFS读取数据？当我尝试使用以下方式读取文件时:import

hadoop python code strong section parallel-processing hadoop-yarn dask dask-distributed

hadoop - 如何在 hadoop distributbuion 0.20.0 中并行运行 hadoop 作业

我头疼了好久，目前我的hadoop集群是这样的，我有40个salve节点要运行，每个slave节点我配置25个mappers10个reducer，所以最多可以启动40*25=1000个mappers和400个reducer同时。好的，现在我有以下工作:job1:我配置运行5个映射器和5个缩减器job2:我配置运行20个映射器和10个reducerjob3:我配置运行975个映射器和385个reducer假设我使用默认的FIFO作业调度，如果我连续提交3个映射器，这3个作业是否可以同时运行？从而最大限度地利用集群？目前我测试在mapper阶段，提交3个job后貌似可以启动1000个map

hadoop distributbuion 射器 section reducer scheduling jobs

hadoop - Mapreduce 并行副本与 http 线程

我无法了解以下2个mapreduce作业配置属性之间的差异。mapreduce.reduce.shuffle.parallelcopiesmapreduce.tasktracker.http.threadsmapreduce.reduce.shuffle.parallelcopies是在复制(洗牌)阶段由reduce运行的并行传输的数量。mapreduce.tasktracker.http.threads是http服务器的工作线程数。这用于map输出获取。parallelcopies表示并行传输的数量，我猜它指的是一次将map输出并行传输到reducer。httpthreads表示要在

Mapreduce hadoop section reducer

94 95 969798 99 100