multiple-processes

java - Spark Elasticsearch : Multiple ES-Hadoop versions detected in the classpath

我是新手。我正在尝试运行将数据加载到elasticsearch的spark作业。我用我的代码构建了一个fatjar，并在spark-submit期间使用了它。spark-submit\--classCLASS_NAME\--masteryarn\--deploy-modecluster\--num-executors20\--executor-cores5\--executor-memory32G\--jarsEXTERNAL_JAR_FILES\PATH_TO_FAT_JARelasticsearch-hadoop依赖的maven依赖为:org.elasticsearchelasti

java - 带有 Java 的 Apache Spark : Launching multiple app requests simultaneously

我们将spark与java结合使用，并创建了JavaRESTapi来调用我们的spark代码。在调用RESTurl时，我的java方法将创建SparkSession和Context以继续计算。这对于单个请求工作正常，但同时对于多个请求，我们收到与SparkContexts相关的问题:同一驱动程序JVM中的多个SparkContexts还尝试使用:conf.set("spark.driver.allowMultipleContexts","true");请建议如何管理同步spark请求的Spark上下文。或者任何其他处理这种情况的方法？最佳答案

simultaneously Launching section spark noreferrer java apache-spark hadoop bigdata

image-processing - 使用 Hadoop MapReduce 进行图像处理

很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visitthehelpcenter.关闭11年前。我正在motionestimation上做一个项目在视频序列的两帧之间使用BlockMatchingAlgorithm并使用SAD指标。它涉及在窗口大小中计算引用帧的每个block和候选帧的每个block之间的SAD，以获得两个帧之间的运动矢量。我想使用MapReduce实现相同的功能。以键值对的形式拆分框架，但我无法弄清楚逻辑，因为我到处都能看到wordCount或查询搜索问题，这与我的不相似

image-processing processing section noreferrer noopener hadoop

java - Hadoop Process从Java代码开始

我目前正在尝试在我的Java代码中启动ApacheHadoop作业。在进入我的问题之前，我想提供一些有关我的代码和工作环境的信息。由于我在开发环境(Ubuntu14.04、EclipseKepler、OpenJDKv7)上工作，所以我在独立模式下设置了Hadoop。详细地说，我只在我的.bashrc文件中做了以下更改:exportJAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64exportHADOOP_INSTALL=/home/db2inst1/hadoopexportPATH=$PATH:$HADOOP_INSTALL/bin:$HADOOP_

Process Hadoop code java

hadoop - HDFS 联邦 : Submission of Map Reduce jobs among multiple Name nodes

根据HdfsFederation上的Apache文档,系统可通过多个名称节点的联合进行隔离扩展。多个名称节点/namespace为了横向扩展名称服务，联邦使用多个独立的名称节点/namespace。名称节点是联合的；Namenodes是独立的，不需要相互协调。Datanodes被所有Namenodes用作block的公共(public)存储。我唯一的疑问:我没有看到名称节点之间有任何中央协调器，因为所有节点都在运行隔离。对如何提交和处理作业感到困惑。1)如果我提交一个map-reduce作业，哪个名称节点将处理它？或者2)客户端是否应该知道必须为其提交作业的名称节点？如果客户端不知道哪

Submission multiple section hadoop Federation hdfs hadoop2

hadoop - Dataproc 上的 "processing node"是什么？

数据处理documentation表示抢占式虚拟机仅作为处理节点附加。什么是处理节点？最佳答案当在Dataproc中使用可抢占VM时，可抢占VM将不会用作HDFSDataNode。这样做的主要目的是为了在VM被抢占时不会丢失或复制不足的数据。关于hadoop-Dataproc上的"processingnode"是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/3961

processing amp section 抢占 stackoverflow hadoop apache-spark google-cloud-platform google-cloud-dataproc

Hadoop安装配置 : multiple versions side-by-side on same host

能否在同一个系统上以伪分布式的方式安装不同版本的Hadoop？其实我想探索不同版本的hadoop-1.x和hadoop-2.x的特性，我已经在运行Linux的两个不同系统上配置了hadoop-1.x和hadoop-2.x。有什么方法可以在同一台机器上配置吗？最佳答案是的，可以在同一台主机上并排安装多个版本的Hadoop软件。将不同版本的Hadoop软件提取到单独的子目录中。为不同的版本创建单独的配置文件(core-site.xml、hdfs-site.xml、yarn-site.xml等)，并将这些文件集保存在单独的目录中。确保

side side-by-side code section Hadoop hadoop2

java - Hadoop : Multiple Emits from one Map function

我正在用java编写一个小的hadoop程序，我的要求是从一个Map方法执行两个Emits，并在一个Reduce方法中处理这两个Emits。这可能吗？如果可能，我如何区分这两个Emits以便我可以在我的Reduce方法中以不同方式处理它们？我对此进行了很多搜索，但无法获得任何具体信息。我不允许使用任何外部库。最佳答案 map/reduce任务将键/值作为输入。值不必是像WordCount这样的大多数示例中的字符串，它也可以是复杂的结构。你可以有一个结构，其中有两个字段对应于两个发射器，并且该键/值对将自动发送到一个缩减器。

Multiple function section Emits stackoverflow java hadoop

java - Hadoop : set a variable like hashSet only once so that it can be utilized multiple times in each map task

您好，我有一个HashSet，它需要在hadoop中的每个映射任务中使用。我不想多次初始化它。我听说可以通过在配置函数中设置变量来实现。欢迎提出任何建议。最佳答案看来你还没有真正了解Hadoop的执行策略。如果你是分布式模式，你不能在多个map任务中共享一个集合(HashSet)。这是因为任务是在它们自己的JVM中执行的，并且它不是确定性的，即使不使用jvm重用，你的集合在jvm被重置后仍然存在。您可以做的是在计算开始时为每个任务设置一个HashSet。因此您可以覆盖setup(Contextctx)方法。这将在调用映射方法之前

multiple variable section code HashSet java hadoop mapreduce configure

scala - 卡夫卡+ Spark 流: Multi topic processing in single job

Kafka中有40个主题和编写的SparkStreaming作业，每个主题处理5个表。sparkstreaming作业的唯一目标是读取5个kafka主题并将其写入相应的5个hdfs路径。大多数时候它工作正常，但有时它会将主题1数据写入其他hdfs路径。下面的代码试图归档一个sparkstreaming作业来处理5个主题并将其写入相应的hdfs，但是这个将主题1数据写入HDFS5而不是HDFS1。请提供您的建议:importjava.text.SimpleDateFormatimportorg.apache.kafka.common.serialization.StringDeseria

卡夫 processing 34 kafka section scala hadoop apache-spark apache-kafka spark-streaming