cores_草庐IT

hadoop - 为什么cloudera建议选择他们在Spark中做的executors、cores和RAM的数量

在博文中:http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/我用天真的方式来解决它:给定16个内核、64个RAM、8个线程-使用15个内核、63个RAM、6个执行程序。相反，他们推荐17个执行程序、5个内核和19个RAM。我看到他们有一个RAM方程式，但我不知道发生了什么。如果您只在一台机器上运行它(而不是通过HDFS)，这是否仍然适用？感谢帮助最佳答案我认为他们很好地解释了为什么here:(查看从幻灯片5开始的幻灯片)

java - 查找 hadoop-core-2.7.2.jar 路径

我是hadoop的新手，我正在尝试使用hadoop2.7.2版本运行使用hadoop1.2.1版本的代码。这是代码的一部分:MR_HADOOPJAR=/usr/local/hadoop/hadoop-1.2.1/hadoop-core-1.2.1.jarMR_MANIFEST=${rootPath}mp/src/manifest.txtecho"Compilingmpsourcecode.."javac-classpath$MR_HADOOPJAR${rootPath}mp/src/*.java可是，我找不到hadoop-core-2.7.2.jar？？关于hadoop-core-2.

hadoop-core hadoop section java linux bash

hadoop - 如何使用 Ambari 通过浏览器访问 hdfs-site.xml 和 core-site.xml？

我需要文件hdfs-site.xml和core-site.xml可以通过url访问，因为我正在安装的服务需要在安装时检索这些文件。我正在使用Ambari来管理我的hdfs和我的hadoop/堆栈。最佳答案看起来Ambari本身没有能力直接这样做。下载配置的一种方法是使用“服务操作”下的“下载客户端配置”菜单选项，它会为您提供配置，但在必须解压缩的tar.gz存档中。API调用的例子是:http://c6401:8080/api/v1/clusters/cl1/services/HDFS/components/HDFS_CLIEN

site core-site section hdfs-site hadoop hdfs ambari

hadoop - 使用不同的 hadoop-mapreduce-client-core.jar 运行 hadoop 集群

我在安装了CDH4.2.0的hadoop集群上工作并遇到了this错误。它已在更高版本的hadoop中得到修复，但我无权更新集群。有没有办法告诉hadoop在通过命令行参数运行我的工作时使用这个jarhadoopjarMyJob.jar-Dhadoop.mapreduce.client=hadoop-mapreduce-client-core-2.0.0-cdh4.2.0.jar新的mapreduce-client-core.jar文件是票证中的补丁jar。或者必须用这个新的jar完全重新编译hadoop？我是hadoop的新手，所以我不知道所有可能的命令行选项。

hadoop hadoop-mapreduce-client-core section jar java-opts

hadoop - 使用 cloudera 管理器部署 hdfs core-site.xml

我正在尝试使用cloudera管理器(CDH5b2)将lzo支持添加到我的配置文件中。如果我将io.compression.codecs添加到服务范围的hdfs配置中，并部署配置文件，/etc/hadoop/conf.cloudera.hdfs/core-site.xml现在包含新值。但是，/etc/hadoop/conf.cloudera.yarn/core-site.xml有更高的优先级(update-alternatives--displayhadoop-conf)，当我开始MR作业时，不使用hdfscore-site.xml值。显然，我可以简单地手动修改yarncore-sit

core-site cloudera code hadoop cloudera-manager

hadoop - core-site.xml在mapreduce程序中的使用

我见过mapreduce程序使用/添加core-site.xml作为程序中的资源。core-site.xml是什么或如何在mapreduce程序中使用？最佳答案来自documentation,除非明确关闭，否则Hadoop默认指定两个资源，从类路径按顺序加载:core-default.xml:hadoop的只读默认值，core-site.xml:给定hadoop安装的站点特定配置Configurationconfig=newConfiguration();config.addResource(newPath("/user/had

core-site mapreduce section hadoop bigdata

java - Hadoop 2.6.x 和 Amazon AWS SDK Library 冲突 http-core 冲突

我的工作是将每条记录写入Hadoop映射中的DynamoDB。我无法使用具有httpclient-4.2.5.jar和httpcore-4.2.5.jar的Hadoop2.6运行它。我使用的AWS是使用httpclient-4.5.2.jar和httpcore-4.4.4.jar构建的。当我使用类路径来包含新的jar文件时，出现以下异常。java.lang.Exception:java.lang.NoSuchFieldError:INSTANCEatorg.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.j

http-core Library gt lt artifactId java hadoop amazon-web-services

opencv - java.library.path hadoop 中没有 libopencv_core.so

我在hadoop中工作，当我为我的图像处理程序创建可运行的jar时，突然发生了这个错误，它与opencvnative库路径有关在使用eclipse时我可以设置路径://System.loadLibrary(Core.NATIVE_LIBRARY_NAME);但是在使用hadoop执行可运行的jar时它会出错。谁能指正一下？hduser@master:/home/mnh/Desktop$hadoopjaropencv19.jar/usr/local/hadoop/input/cars.mp4/usr/local/hadoop/cars8917/06/0716:15:37WARNutil.

libopencv_core libopencv mapreduce 1496831815466 16 opencv hadoop hadoop2 opencv3.1 hadoop-native-library

java - Flink 1.7.1 无法通过 core-site.xml 验证 s3a

使用Flink1.7.1为kubernetes上的单个作业集群构建它flink无法加载核心站点xml尽管在类路径上，导致忽略配置，但是，如果我将ENV变量AWS_SECRET_ACCESS_KEYAWS_ACCESS_KEY_ID工作找到它，但如果我依赖于core-site.xml，那么没有环境变量它就永远无法工作。我目前正在复制core-site.xml，因为它显示在Dockerfile中，并且正如文档所说，将HADOOP_CONF_DIR作为指向它的环境变量。它仍然不加载它，导致NoCredentialsProvider。异常(exception)是:Causedby:org.ap

core-site Flink jar java hadoop amazon-s3 bigdata apache-flink

hadoop - 在 spark-submit 执行时覆盖 core-site.xml 属性值

有没有办法在执行sparksubmit时覆盖core-site属性值？我可以在spark-env.sh中使用HADOOP_CONF_DIR变量来指向一个新的核心站点文件，但我只想覆盖几个值以便为每个spark作业使用不同的存储帐户。最佳答案找到了我自己问题的答案。hadoop相关的配置可以通过预先固定“spark.hadoop”到属性键来覆盖，然后提交给sparkconf。即Spark提交--sparkconfspark.hadoop.io.file.buffer.size12952查看源代码:https://github.co

行时 spark-submit section spark hadoop apache-spark