草庐IT

集群NoSQL

全部标签

hadoop - 将作业提交到 YARN 集群的正确方法,其中作业依赖于外部 jar?

我试图了解将MR(就此而言,基于Java的Spark)作业提交到YARN集群的正确方法是什么。考虑以下情况:使用客户端机器开发代码(MR或Spark)作业,并说代码使用第3方jar。现在,当开发人员必须将作业提交到YARN集群时,将作业提交到集群的正确方法是什么,这样就不会出现未找到类的运行时异常。由于作业是作为jar文件提交的,开发人员如何“放置”第3方jar?我很难理解这一点,谁能帮助我理解这一点? 最佳答案 您必须使用Gradle或Maven简单地构建一个“fatjar子”,它不仅包含您编译的代码,还包含所有传递依赖项。您可以

hadoop - hadoop/hive/spark/有没有适合我管理大数据集群的开源软件?

我正在寻找一个开源系统来管理我的大数据集群,该集群由50多台机器组成,包括hadoop、hdfs、hive、spark、oozie、hbase等组件,动物园管理员,麒麟。我想在网络系统中管理它们。“管理”的含义是:我可以一键重新启动组件,例如当我点击“重启”按钮时,组件zookeeper将一台机器被另一台机器重启我只需单击一下即可部署一个组件,例如当我部署一个新的zookeeper,我可以准备一个编译好的zookeeper一台机器,然后我点击“部署”,它将部署到所有机器自动。我只需单击一下即可升级一个组件,例如当我想更新一个zookeeper集群,我可以把更新后的zookeeper在一

hadoop - 在 HDP 集群上安装 Snappy

我有一个使用HortonworksDataPlatform2.6.1构建的HBase集群。现在我需要对HBase表应用Snappy压缩。在没有安装Snappy的情况下,我执行了压缩测试并获得了成功输出。我使用了以下命令。hbaseorg.apache.hadoop.hbase.util.CompressionTestfile:///tmp/test.txtsnappyhbaseorg.apache.hadoop.hbase.util.CompressionTesthdfs://hbase.primary.namenode:8020/tmp/test1.txtsnappy两个命令都得到了

hadoop - spark history 不在 ambari 集群上启动

我们如下启动sparkhistory/usr/hdp/2.6.0.3-8/spark2/sbin/start-history-server.sh来自日志spark-root-org.apache.spark.deploy.history.HistoryServer-1-master01我们得到WARNAbstractLifeCycle:FAILEDServerConnector@14a54ef6{HTTP/1.1}{0.0.0.0:18081}:java.net.BindException:Addressalreadyinusejava.net.BindException:Addres

hadoop - 如何将数据从生产集群传输到数据实验室集群进行实时数据分析?

我们正在使用mapr并且我们想要部署一个新的(datalab)集群,我想问一下将数据从我们的生产集群传输到datalab集群的最佳方法?我们在两个集群之间使用了镜像,但是有了这个选项,我们的数据实验室中只有读取数据,那么我们如何实时传输数据呢? 最佳答案 您可以使用以下选项:Distcp。但同样支持某些协议(protocol)。Referhere如果您正在使用hbase,那么您可以使用快照功能。Referhere或者,您可以使用数据库实用程序来创建转储。对于例如,如果您使用的是mysql,则使用mysqldump-u[usernam

apache-spark - SAP Vora 2.1 是否需要 Hadoop/Spark 集群?并且可以使用 PySpark 吗?

根据文档SAP_Vora_Installation_Admin_Guide_2.0_en.pdf,需要运行Hadoop/Spark集群和运行Kubernetis集群。现在我的问题是,为什么需要这个Hadoop/Spark集群?因为SAPVora可以从HDFS、WebHDFS等读取。如果您有一个Spark作业,您是否可以在Spark集群上运行它,如果它需要来自HANA/Vora的数据,它可以访问它吗?还是Vora也使用Spark集群来处理数据?因为现在看起来Spark可以使用Vora但Vora不能使用Spark(VoraUI工具,如SQL编辑器等)。因为你可以附加到Vora上的Zeppe

apache-spark - Hadoop copyToLocalFile 在 Yarn 集群模式下失败

我试图从我的Spark2应用程序使用Hadoop的copyToLocalFile函数将文件从HDFS复制到本地。valhadoopConf=newConfiguration()valhdfs=FileSystem.get(hadoopConf)valsrc=newPath("/user/yxs7634/all.txt")valdest=newPath("file:///home/yxs7634/all.txt")hdfs.copyToLocalFile(src,dest)当我在Yarn客户端模式下提交我的spark应用程序时,上面的代码工作正常。但是,它在Yarn集群模式下一直失败并出

apache-spark - 设置 fs.defaultFS 属性时无法创建 Dataproc 集群?

这已经是之前post的讨论对象了,但是,我不相信答案是Googledocs指定可以创建集群设置fs.defaultFS属性。此外,即使可以通过编程方式设置此属性,但有时从命令行设置它会更方便。所以我想知道为什么传递给我的集群创建命令的以下选项不起作用:--propertiescore:fs.defaultFS=gs://my-bucket?请注意,我没有包含所有参数,因为我在没有前面标志的情况下运行命令并且它成功创建了集群。然而,当传递这个时,我得到:“失败:无法启动主控:报告的DataNodes数量不足。”如果有人通过设置fs.defaultFS成功创建了一个dataproc集群,那

sql-server - 集群 SQL 与 Hadoop

我是hadoop新手刚读到HadoopHDFS是基于平面文件的虽然ClusteredMSSQLServer是RDBMS(不太确定它叫什么,但它是DB拆分成多个服务器并充当一个数据库)对于单个服务器数据,我知道RDBMS比基于平面文件的数据快得多,因为您可以为RDBMS建立索引(我希望我没记错)如果这是真的,那么为什么基于多服务器平面文件的Hadoop比多服务器RDBMS的ClusteredMSSQLServer更快? 最佳答案 SQLServer2019(即将推出)实际上有一个功能将这两个世界融合在一起。您可以在集群配置中针对HDF

amazon-web-services - 使用 whirr 启动集群

我是whirr和AWS的新手,所以如果我问的问题很愚蠢,请提前致歉。我遵循指示here设置whirr和bin/whirrlaunch-cluster--confighadoop.properties失败并出现以下情况:[~/src/cloudera/whirr-0.1.0+23]$bin/whirrversionrvm:ruby-1.8.7-p299ApacheWhirr0.1.0+23[~/src/cloudera/whirr-0.1.0+23]$bin/whirrlaunch-cluster--confighadoop.propertiesrvm:ruby-1.8.7-p299La