草庐IT

hadoop - 从本地 IDE 针对远程 Spark 集群运行

我们有一个基于Kerberos的集群,Spark在Yarn上运行。目前,我们在本地用Scala编写Spark代码,然后构建一个胖JAR,我们将其复制到集群,然后运行​​spark-submit。相反,我想在我的本地PC上编写Spark代码并让它直接在集群上运行。有没有直接的方法来做到这一点?Spark文档似乎没有任何此类模式。仅供引用,我的本地计算机正在运行Windows,集群正在运行CDH. 最佳答案 虽然cricket007的答案适用于spark-submit,但这是我使用IntelliJ针对远程集群运行的方法:首先,确保客户端

部署大数据集群时踩过的坑 (持续更新)

大数据集群踩过的坑前言(必看)如果你遇到了和我一样的问题并通过搜索引擎进入这篇文章,请善用Ctrl+F键搜索该自检手册仅用于自己学习使用,记录所有自己遇到的问题。如果你没有检索到你的问题,请使用Bing或Google进行搜索该自检手册严格按照以下模板标准编写:##主要出错集中点标题###该错误的具体分支错误报错信息code==原因:(若分点则另起一行)==![出错截图](ERROR.jpg/png)>提示信息:(若有则写,没有就不写)==解决方法:(若分点则另起一行)==![解决成功后的截图](RESOLVE.jpg/png)>提示信息:(若有则写,没有就不写)关键词:xxx、xxx参考资料:

Hadoop 虚拟集群 vs 单机

我有一个关于速度和性能的问题在单台机器上使用多个虚拟化节点VS在单台机器上使用单节点。哪一个会表现更好?之所以问这个问题是因为我目前是在单机上学习hadoop,在网上看到一些教程是单机多虚拟化节点的使用。提前致谢 最佳答案 虚拟化总是会带来一些开销,因此除非真的有必要,否则我不建议在虚拟化环境中运行Hadoop。也就是说,我知道VMWare在使Hadoop在虚拟化环境中工作方面做了很多工作,并且他们已经发布了somebenchmarks他们声称在某些情况下,VM的性能优于native应用程序。我对vSphere的了解不多,但如果您想

java - 如何在 Amazon EMR 上编辑和重新启动已终止的集群?

我是AWS和AmazonEMR的新手。我使用自定义引导脚本创建了一个新集群。当我启动集群时,它因Bootstrap脚本失败而终止。我现在已经修复了我的脚本,并想重新启动theNow,在EMR控制台中我没有找到任何重新启动集群的选项!我在网上搜索了很多,但没有找到任何帮助指导重新启动已终止的集群。感谢您的帮助。 最佳答案 您可以选择克隆集群。它甚至可以具有相同的名称。 关于java-如何在AmazonEMR上编辑和重新启动已终止的集群?,我们在StackOverflow上找到一个类似的问题

java - 如何对 Hadoop 集群进行性能分析

有谁知道如何对Hadoop集群中运行的所有java代码进行性能分析?我会用一个简单的例子来解释。如果我们做一个本地java开发,我们可以运行Yourkit来测量每个类的每个方法占用的CPU百分比。我们可以看到类A调用了方法X,这占用了整个应用程序90%的执行时间,然后修复了代码中的低效问题。但是如果我们正在做一个mapreduce作业并在集群中运行它,我也想看看是什么东西是缓慢的:我们的map/reduce代码,或者框架本身。所以,我想要一个服务来获取有关每个类/方法调用的信息及其执行时间百分比,将其收集到HDFS中的某处,然后分析方法调用树和CPU消耗。问题:有人知道这样的解决方案是

hadoop - 如何将位于 HDFS 上的类型安全配置文件添加到 spark-submit(集群模式)?

我有一个Spark(Spark1.5.2)应用程序,可以将数据从Kafka流式传输到HDFS。我的应用程序包含两个Typesafe配置文件来配置某些东西,比如Kafka主题等。现在我想在集群中使用spark-submit(集群模式)运行我的应用程序。我项目的所有依赖项的jar文件存储在HDFS上。只要我的配置文件包含在jar文件中,一切正常。但这对于测试目的是不切实际的,因为我总是必须重建jar。因此我排除了项目的配置文件,并通过“driver-class-path”添加了它们。这适用于客户端模式,但如果我现在将配置文件移动到HDFS并在集群模式下运行我的应用程序,它找不到设置。您可以

map - 配置Hadoop集群时应该设置多少个mapper/reducer?

配置Hadoop集群时,为集群设置映射器/缩减器数量的科学方法是什么? 最佳答案 没有公式。这取决于你有多少核心和多少内存。mapper的个数+reducer的个数一般不要超过core的个数。请记住,该机器还运行着TaskTracker和DataNode守护进程。一般建议之一是映射器多于缩减器。如果我是你,我会使用合理数量的数据运行我的一项典型工作来尝试一下。 关于map-配置Hadoop集群时应该设置多少个mapper/reducer?,我们在StackOverflow上找到一个类似的

使用elasticsearch_exporter监控elasticsearch集群的状态

https://github.com/justwatchcom/elasticsearch_exporterhttps://github.com/justwatchcom/elasticsearch_exporter/releases/download/v1.1.0/elasticsearch_exporter-1.1.0.linux-amd64.tar.gz--------启动参数[root@cygs-09-10.168-jiaogou.cnes-exporter]#./elasticsearch_exporter-husage:elasticsearch_exporter[]Flags:-

hadoop - 将数据节点添加到 hadoop 集群

当我使用start-all.sh启动hadoopnode1时,它成功地启动了master和slave上的服务(请参阅slave的jps命令输出)。但是当我尝试在管理屏幕中查看事件节点时,从属节点没有出现。即使当我从master运行hadoopfs-ls/命令时,它也能完美运行,但从salve时它显示错误消息@hadoopnode2:~/hadoop-0.20.2/conf$hadoopfs-ls/12/05/2801:14:20INFOipc.Client:Retryingconnecttoserver:hadoopnode1/192.168.1.120:8020.Alreadytri

java - HDFS 集群中的 ListFiles

我是hadoop和其他东西的业余爱好者。现在,我正在尝试访问hadoop集群(HDFS)并从客户端eclipse检索文件列表。我在hadoopjavaclient上设置好需要的配置后就可以进行如下操作了。我可以执行copyFromLocalFile、copyToLocalFile操作从客户端访问HDFS。这就是我所面临的。当我给出listFiles()方法时,我得到了org.apache.hadoop.fs.LocatedFileStatus@d0085360org.apache.hadoop.fs.LocatedFileStatus@b7aa29bf主要方法Propertiespro