parallel_executor

parallel-processing - HBase 如何跨区域服务器分区表？

请告诉我HBase如何跨区域服务器分区表。例如，假设我的行键是0到10M之间的整数，并且我有10个区域服务器。这是否意味着第一个区域服务器将存储键值为0-10M、第二个1M-2M、第三个2M-3M、...第十个9M-10M的所有行？我希望我的行键是时间戳，但我认为大多数查询将适用于最新日期，所有查询将仅由一个区域服务器处理，是这样吗？或者这些数据可能会以不同的方式传播？或者也许我可以以某种方式创建比我拥有的区域服务器更多的区域，所以(根据给定的示例)服务器1将具有key0-0,5M和3M-3,5M，这样我的数据会更平均地分布，是吗可能的？更新我刚刚发现有选项hbase.hregion.

parallel-processing processing section 意味着的 hadoop hbase

hadoop - 如何调整 mapred.reduce.parallel.copies？

阅读后http://gbif.blogspot.com/2011/01/setting-up-hadoop-cluster-part-1-manual.html我们想尝试使用mapred.reduce.parallel.copies。该博客提到“非常仔细地查看日志”。我们怎么知道我们已经到达最佳点？我们应该寻找什么？我们如何检测到过度并行化？最佳答案为了做到这一点，您基本上应该寻找4个东西:CPU、RAM、磁盘和网络。如果您的设置超过了这些指标的阈值，您可以推断出您正在突破极限。例如，如果您将“mapred.reduce.par

parallel hadoop section mapred 洗牌

hadoop - Spark 流 : Micro batches Parallel Execution

我们正在从Kafka的sparkstreaming中接收数据。一旦在SparkStreaming中开始执行，它只执行一个批处理，其余批处理开始在Kafka中排队。OurdataisindependentandcanbeprocessesinParallel.我们尝试了具有多个执行器、内核、背压和其他配置的多种配置，但到目前为止没有任何效果。有很多消息在排队，一次只处理了一个微批处理，其余的都留在队列中。我们希望最大程度地实现并行性，以便没有任何微批处理排队，因为我们有足够的可用资源。那么我们如何通过最大限度地利用资源来减少时间。//StartreadingmessagesfromKaf

Execution Parallel blockquote String code hadoop apache-spark apache-kafka spark-streaming

hadoop - 在 EC2 : spark. driver.extraClassPath 和 spark.executor.extraClassPath 上设置 spark 类路径

通过为maven依赖项提供spark-classPath来减少应用程序jar的大小:我的集群有3个运行hadoop和spark的ec2实例。如果我使用maven依赖项构建jar，它会变得太大(大约100MB)，我想避免这种情况，因为Jar正在所有节点上进行复制，每次我运行作业。为了避免我构建了一个maven包作为“maven包”。为了解决依赖关系，我已经在每个节点上下载了所有maven依赖关系，然后只在jar路径下方提供:我在“spark-defaults.conf”中的每个节点上添加了类路径作为spark.driver.extraClassPath/home/spark/.m2/re

extraClassPath spark repository cassandra hadoop apache-spark classpath maven-3

hadoop - Spark : multiple spark-submit in parallel

我有一个关于ApacheSpark的一般性问题:我们有一些使用Kafka消息的spark流脚本。问题:它们在没有特定错误的情况下随机失败...有些脚本在我手动运行时什么都不做，其中一个失败并显示此消息:ERRORSparkUI:FailedtobindSparkUIjava.net.BindException:Addressalreadyinuse:Service'SparkUI'failedafter16retries!所以我想知道是否有一种特定的方法可以并行运行脚本？它们都在同一个jar里，我用Supervisor运行它们。Spark安装在ClouderaManager5.4onY

spark-submit multiple spark SLF4J SLF4 hadoop apache-spark cloudera hadoop-yarn

multithreading - 使用 spark-submit，--total-executor-cores 选项的行为是什么？

我在用python封装的C++代码上运行一个spark集群。我目前正在测试多线程选项的不同配置(在Python级别或Spark级别)。我在HDFS2.5.4集群上将spark与独立二进制文件一起使用。该集群目前由10个从站组成，每个从站有4个核心。据我所知，默认情况下，Spark每个节点启动4个从节点(我有4个python一次在一个从节点上工作)。我怎样才能限制这个数字？我可以看到我有一个用于“spark-submit”的--total-executor-cores选项，但是关于它如何影响执行程序在集群上的分布的文档很少!我将运行测试以获得一个清晰的想法，但如果有知识的人知道这个选项的

total-executor-cores multithreading spark code section hadoop apache-spark pyspark cpu-cores

performance - spark.sql.shuffle.partitions 和 spark.default.parallelism 有什么区别？

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别？我在SparkSQL中都尝试过设置，但是第二阶段的任务数一直是200。最佳答案来自答案here,spark.sql.shuffle.partitions配置在为连接或聚合改组数据时使用的分区数。spark.default.parallelism是RDD中的默认分区数s由join等转换返回,reduceByKey,和parallelize当用户未明确设置时。注意spark.default.parallelism似

spark performance code section apache-spark hadoop apache-spark-sql

PHP/Beanstalkd : Spawning Multiple workers in parallel

我有一个脚本可以检查哪个MX记录属于一个电子邮件地址。我有大约30万封电子邮件要检查。因此，单线程进程将花费很长时间。我有一个带有队列的beanstalkd，php正在通过一个文件向它发送电子邮件。但是，我只让一名worker执行队列。我目前无法为一个流程生成10多个worker。我运行do_job_mx.php，然后打开一个只包含电子邮件的文件并将它们传递到队列。从文件中获取电子邮件并放入队列的php代码-do_job_mx.php:require_once('pheanstalk_init.php');$pheanstalk=newPheanstalk_Pheanstalk('12

Beanstalkd Multiple worker process 39 php

java - Executor 和 PriorityBlockingQueue 上的 ASyncTask

我正在尝试让一些ASyncTask以优先级同时运行。我创建了一个带有PriorityBlockingQueue的ThreadPoolExecutor，propper比较器非常适合标准Runnable。但是调用的时候newTask().executeOnExecutor(threadPool,(Void[])null);PriorityBlockingQueue的比较器接收ASyncTask(在源代码中称为mFuture)内部的Runnable(私有(private))，因此在比较器中我无法识别runnable或读取“优先级”值。我该如何解决？谢谢最佳答案

PriorityBlockingQueue ASyncTask section EXECUTOR java android multithreading

java - Android AsyncTask.THREAD_POOL_EXECUTOR 与自定义 ThreadPool 与 Runnables

我有一些任务需要在Android上并发处理，我想使用某种线程池来完成这些任务。当使用AsyncTask.THREAD_POOL_EXECUTOR执行AsyncTask时，我无法在文档中找到“幕后”实际发生的情况。我的问题是:通过将AsyncTasks与AsyncTask.THREAD_POOL_EXECUTOR结合使用而不是通过Runnables实现自定义ThreadPool，我会失去什么？(让我们谈谈后蜂窝)。我意识到这个问题很笼统，但我对并发编程还很陌生(除了AsyncTask本身)。我不是在寻找有关并发编程的教程!我只是想了解Android特定的AsyncTask.THREAD_

自定 THREAD_POOL_EXECUTOR AsyncTask section java android multithreading android-asynctask threadpool