$集群

hadoop - 从本地 IDE 针对远程 Spark 集群运行

我们有一个基于Kerberos的集群，Spark在Yarn上运行。目前，我们在本地用Scala编写Spark代码，然后构建一个胖JAR，我们将其复制到集群，然后运行spark-submit。相反，我想在我的本地PC上编写Spark代码并让它直接在集群上运行。有没有直接的方法来做到这一点？Spark文档似乎没有任何此类模式。仅供引用，我的本地计算机正在运行Windows，集群正在运行CDH. 最佳答案虽然cricket007的答案适用于spark-submit，但这是我使用IntelliJ针对远程集群运行的方法:首先，确保客户端

hadoop Spark 34 cdh5 apache-spark hadoop-yarn kerberos cloudera-cdh

部署大数据集群时踩过的坑 (持续更新)

大数据集群踩过的坑前言(必看)如果你遇到了和我一样的问题并通过搜索引擎进入这篇文章，请善用Ctrl+F键搜索该自检手册仅用于自己学习使用，记录所有自己遇到的问题。如果你没有检索到你的问题，请使用Bing或Google进行搜索该自检手册严格按照以下模板标准编写：##主要出错集中点标题###该错误的具体分支错误报错信息code==原因：(若分点则另起一行)==![出错截图](ERROR.jpg/png)>提示信息:(若有则写，没有就不写)==解决方法：(若分点则另起一行)==![解决成功后的截图](RESOLVE.jpg/png)>提示信息:(若有则写，没有就不写)关键词：xxx、xxx参考资料：

集群部署 span class token 大数据 hadoop hdfs java centos

Hadoop 虚拟集群 vs 单机

我有一个关于速度和性能的问题在单台机器上使用多个虚拟化节点VS在单台机器上使用单节点。哪一个会表现更好？之所以问这个问题是因为我目前是在单机上学习hadoop，在网上看到一些教程是单机多虚拟化节点的使用。提前致谢最佳答案虚拟化总是会带来一些开销，因此除非真的有必要，否则我不建议在虚拟化环境中运行Hadoop。也就是说，我知道VMWare在使Hadoop在虚拟化环境中工作方面做了很多工作，并且他们已经发布了somebenchmarks他们声称在某些情况下，VM的性能优于native应用程序。我对vSphere的了解不多，但如果您想

Hadoop vs 虚拟化 section cluster-computing virtualization virtual-machine

java - 如何在 Amazon EMR 上编辑和重新启动已终止的集群？

我是AWS和AmazonEMR的新手。我使用自定义引导脚本创建了一个新集群。当我启动集群时，它因Bootstrap脚本失败而终止。我现在已经修复了我的脚本，并想重新启动theNow，在EMR控制台中我没有找到任何重新启动集群的选项!我在网上搜索了很多，但没有找到任何帮助指导重新启动已终止的集群。感谢您的帮助。最佳答案您可以选择克隆集群。它甚至可以具有相同的名称。关于java-如何在AmazonEMR上编辑和重新启动已终止的集群？，我们在StackOverflow上找到一个类似的问题

上编何在 section 新集 stackoverflow java hadoop amazon-web-services emr

java - 如何对 Hadoop 集群进行性能分析

有谁知道如何对Hadoop集群中运行的所有java代码进行性能分析？我会用一个简单的例子来解释。如果我们做一个本地java开发，我们可以运行Yourkit来测量每个类的每个方法占用的CPU百分比。我们可以看到类A调用了方法X，这占用了整个应用程序90%的执行时间，然后修复了代码中的低效问题。但是如果我们正在做一个mapreduce作业并在集群中运行它，我也想看看是什么东西是缓慢的:我们的map/reduce代码，或者框架本身。所以，我想要一个服务来获取有关每个类/方法调用的信息及其执行时间百分比，将其收集到HDFS中的某处，然后分析方法调用树和CPU消耗。问题:有人知道这样的解决方案是

性能分析 Hadoop section 中运 noreferrer java mapreduce apache-spark profiling

hadoop - 如何将位于 HDFS 上的类型安全配置文件添加到 spark-submit(集群模式)？

我有一个Spark(Spark1.5.2)应用程序，可以将数据从Kafka流式传输到HDFS。我的应用程序包含两个Typesafe配置文件来配置某些东西，比如Kafka主题等。现在我想在集群中使用spark-submit(集群模式)运行我的应用程序。我项目的所有依赖项的jar文件存储在HDFS上。只要我的配置文件包含在jar文件中，一切正常。但这对于测试目的是不切实际的，因为我总是必须重建jar。因此我排除了项目的配置文件，并通过“driver-class-path”添加了它们。这适用于客户端模式，但如果我现在将配置文件移动到HDFS并在集群模式下运行我的应用程序，它找不到设置。您可以

spark-submit 位于 spark SimpleConfig code hadoop apache-spark hdfs typesafe

map - 配置Hadoop集群时应该设置多少个mapper/reducer？

配置Hadoop集群时，为集群设置映射器/缩减器数量的科学方法是什么？最佳答案没有公式。这取决于你有多少核心和多少内存。mapper的个数+reducer的个数一般不要超过core的个数。请记住，该机器还运行着TaskTracker和DataNode守护进程。一般建议之一是映射器多于缩减器。如果我是你，我会使用合理数量的数据运行我的一项典型工作来尝试一下。关于map-配置Hadoop集群时应该设置多少个mapper/reducer？，我们在StackOverflow上找到一个类似的

reducer Hadoop section 射器缩减 map reduce

使用elasticsearch_exporter监控elasticsearch集群的状态

https://github.com/justwatchcom/elasticsearch_exporterhttps://github.com/justwatchcom/elasticsearch_exporter/releases/download/v1.1.0/elasticsearch_exporter-1.1.0.linux-amd64.tar.gz--------启动参数[root@cygs-09-10.168-jiaogou.cnes-exporter]#./elasticsearch_exporter-husage:elasticsearch_exporter[]Flags:-

elasticsearch elasticsearch_exporter node 61 大数据搜索引擎 jvm maven

hadoop - 将数据节点添加到 hadoop 集群

当我使用start-all.sh启动hadoopnode1时，它成功地启动了master和slave上的服务(请参阅slave的jps命令输出)。但是当我尝试在管理屏幕中查看事件节点时，从属节点没有出现。即使当我从master运行hadoopfs-ls/命令时，它也能完美运行，但从salve时它显示错误消息@hadoopnode2:~/hadoop-0.20.2/conf$hadoopfs-ls/12/05/2801:14:20INFOipc.Client:Retryingconnecttoserver:hadoopnode1/192.168.1.120:8020.Alreadytri

hadoop 将 hadoopnode hadoopnode1

java - HDFS 集群中的 ListFiles

我是hadoop和其他东西的业余爱好者。现在，我正在尝试访问hadoop集群(HDFS)并从客户端eclipse检索文件列表。我在hadoopjavaclient上设置好需要的配置后就可以进行如下操作了。我可以执行copyFromLocalFile、copyToLocalFile操作从客户端访问HDFS。这就是我所面临的。当我给出listFiles()方法时，我得到了org.apache.hadoop.fs.LocatedFileStatus@d0085360org.apache.hadoop.fs.LocatedFileStatus@b7aa29bf主要方法Propertiespro

ListFiles java hadoop apache code

54 55 565758 59 60