multiple-sites

hadoop - Spark 流 : How to process using multiple inputs to job?

输入1:KV数据流。输入2:一些静态数据分区(用于处理输入1中的流)问题可以建模为下图:与HDFS/RDD分区共置:我们如何确保流式任务Map1、Map2和Map3在存在HDFS/RDD分区的机器上运行？图像描述:假设K是流式key(不是元组)。FirstMap将其转换为元组(具有空值)并将其广播给3个映射器。每个映射器都在不同的节点上运行，这些节点包含RDD(或HDFS文件，这是第二个输入和静态数据)的不同分区。每个Mapper使用RDD分区来计算键的值。最后，我们要聚合键的值(使用reduceByKey_+_)。最佳答案如果

configuration - HBaseConfiguration 不读取我在 ${HBASE_HOME}/conf/hbase-site.xml 中设置的值

${HBASE_HOME}/conf/hbase-site.xml有下一个值:hbase.zookeeper.quorumhd1“hd1”主机名设置在“/etc/hosts”中，ping正常...使用这个简单的Java程序:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;publicclassTestConfigurator{/***@paramargs*/publicstaticvoidmain(String[]args){Configuration

中设 HBaseConfiguration code section conf configuration hadoop hbase

hadoop - 如何在不重启集群的情况下更新 hadoop mapred-site.xml 的配置参数

我想添加/更新以下参数mapred.map.tasks.speculative.executionfalse在hadoop的mapred-site.xml中。如何在不重启集群的情况下执行此操作？最佳答案您可以在您的作业配置中设置每个作业。如果您想全局更改此行为，则必须重新启动集群。如果不重新启动，则无法更改它。关于hadoop-如何在不重启集群的情况下更新hadoopmapred-site.xml的配置参数，我们在StackOverflow上找到一个类似的问题：

hadoop 何在 section mapred

jdbc - 在类路径中找不到 hive-site.xml

在运行giraphhiverunner时，我收到有关与hive-site.xml相关的类路径的以下错误，我已经设置了hive-env.sh和bash.bashrc，但错误仍然存在。任何帮助如何设置类路径和解决这个错误..？？我还需要修改什么吗？？我已经尝试过hivejdbcex它的执行没有任何错误..但是在使用jars的hadoop时会出错..如果有任何帮助，将会非常充实..13/01/1611:58:23WARNconf.HiveConf:hive-site.xmlnotfoundonCLASSPATHExceptioninthread"main"java.lang.NullPo

hive-site jdbc HiveGiraphRunner section java hadoop jar hive

hadoop - Yarn : Make yarn-site. xml 更改对集群中的工作节点有效

我们有一个在HDFS2.7.3上运行的Spark流应用程序，使用Yarn作为资源管理器。运行应用程序时，这两个文件夹:/tmp/hadoop/data/nm-local-dir/filecache/tmp/hadoop/data/nm-local-dir/filecache正在填满磁盘。因此，根据我的研究发现，在yarn-site.xml中配置这两个属性会有所帮助。yarn.nodemanager.localizer.cache.cleanup.interval-ms2000yarn.nodemanager.localizer.cache.target-size-mb2048我已经在每

yarn-site hadoop section yarn strong hadoop-yarn hadoop2

hadoop - 如何在配置单元 Metastore 连接的 Hive-Site.xml 文件中设置配置？

我想使用java代码连接MetaStore。我不知道如何在Hive-Site.xml文件中设置配置设置以及我将在哪里发布Hive-Site.xml文件。请帮忙。importjava.sql.Connection;importjava.sql.DriverManager;importjava.sql.ResultSet;importjava.sql.Statement;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.hive.conf.HiveConf;importorg.apache.hadoop.hive.conf.Hi

中设配置单 code mysql hive hadoop cloudera impala metastore

Python Streaming : how to reduce to multiple outputs?(尽管使用 Java 是可能的)

我读了HadoopinAction并发现在Java中使用MultipleOutputFormat和MultipleOutputs类，我们可以将数据减少到多个文件，但我不确定如何实现使用Python流式处理也是一样。例如:/out1/part-0000mapper->reducer\out2/part-0000如果有人知道，听说过，做过类似的事情，请告诉我最佳答案 DumboFeathers，一组与Dumbo一起使用的java类(一个python库，可以轻松为hadoop编写高效的pythonM/R程序)，在其outputcla

Streaming multiple section code noreferrer python hadoop mapreduce hadoop-streaming

hadoop - 在 core-site.xml 中设置 fs.default.name 将 HDFS 设置为安全模式

我在一台机器上以伪分布式模式安装了ClouderaCDH4发行版并成功测试它是否正常工作(例如可以运行MapReduce程序，在Hive服务器上插入数据等)但是，如果我有机会core-site.xml文件将fs.default.name设置为机器名而不是localhost并重启NameNode服务，HDFS进入安全-模式。在更改fs.default.name之前，我运行了以下命令来检查HDFS的状态:$hadoopdfsadmin-report...ConfiguredCapacity:18503614464(17.23GB)PresentCapacity:13794557952(12

中设 core-site code hadoop section hdfs cloudera

hadoop - hadoop中core-site.xml中fs.defaultFS属性的含义

我正在尝试以完全分布式模式设置hadoop，并且在某种程度上我成功地做到了这一点。但是，我对core-site.xml中的一个参数设置有些疑惑-->fs.defaultFS在我的设置中，我有如下所述的三个节点:Node1--192.168.1.2-->配置为主节点(运行ResourceManager和NameNode守护进程)Node2--192.168.1.3-->配置为从节点(运行NodeManager和Datanode守护进程)Node3--192.168.1.4-->配置为从站(运行NodeManager和Datanode守护进程)现在属性fs.defaultFS是什么意思？例

hadoop core-site section hdfs code

hadoop - Spark : multiple spark-submit in parallel

我有一个关于ApacheSpark的一般性问题:我们有一些使用Kafka消息的spark流脚本。问题:它们在没有特定错误的情况下随机失败...有些脚本在我手动运行时什么都不做，其中一个失败并显示此消息:ERRORSparkUI:FailedtobindSparkUIjava.net.BindException:Addressalreadyinuse:Service'SparkUI'failedafter16retries!所以我想知道是否有一种特定的方法可以并行运行脚本？它们都在同一个jar里，我用Supervisor运行它们。Spark安装在ClouderaManager5.4onY

spark-submit multiple spark SLF4J SLF4 hadoop apache-spark cloudera hadoop-yarn