集群NoSQL

hadoop - 将作业提交到 YARN 集群的正确方法，其中作业依赖于外部 jar？

我试图了解将MR(就此而言，基于Java的Spark)作业提交到YARN集群的正确方法是什么。考虑以下情况:使用客户端机器开发代码(MR或Spark)作业，并说代码使用第3方jar。现在，当开发人员必须将作业提交到YARN集群时，将作业提交到集群的正确方法是什么，这样就不会出现未找到类的运行时异常。由于作业是作为jar文件提交的，开发人员如何“放置”第3方jar？我很难理解这一点，谁能帮助我理解这一点？最佳答案您必须使用Gradle或Maven简单地构建一个“fatjar子”，它不仅包含您编译的代码，还包含所有传递依赖项。您可以

交到 hadoop section noreferrer apache-spark hadoop-yarn hadoop2

hadoop - hadoop/hive/spark/有没有适合我管理大数据集群的开源软件？

我正在寻找一个开源系统来管理我的大数据集群，该集群由50多台机器组成，包括hadoop、hdfs、hive、spark、oozie、hbase等组件，动物园管理员，麒麟。我想在网络系统中管理它们。“管理”的含义是:我可以一键重新启动组件，例如当我点击“重启”按钮时，组件zookeeper将一台机器被另一台机器重启我只需单击一下即可部署一个组件，例如当我部署一个新的zookeeper，我可以准备一个编译好的zookeeper一台机器，然后我点击“部署”，它将部署到所有机器自动。我只需单击一下即可升级一个组件，例如当我想更新一个zookeeper集群，我可以把更新后的zookeeper在一

hadoop 大数 strong section ambari bigdata

hadoop - 在 HDP 集群上安装 Snappy

我有一个使用HortonworksDataPlatform2.6.1构建的HBase集群。现在我需要对HBase表应用Snappy压缩。在没有安装Snappy的情况下，我执行了压缩测试并获得了成功输出。我使用了以下命令。hbaseorg.apache.hadoop.hbase.util.CompressionTestfile:///tmp/test.txtsnappyhbaseorg.apache.hadoop.hbase.util.CompressionTesthdfs://hbase.primary.namenode:8020/tmp/test1.txtsnappy两个命令都得到了

hadoop Snappy section blockquote compression hbase hortonworks-data-platform

hadoop - spark history 不在 ambari 集群上启动

我们如下启动sparkhistory/usr/hdp/2.6.0.3-8/spark2/sbin/start-history-server.sh来自日志spark-root-org.apache.spark.deploy.history.HistoryServer-1-master01我们得到WARNAbstractLifeCycle:FAILEDServerConnector@14a54ef6{HTTP/1.1}{0.0.0.0:18081}:java.net.BindException:Addressalreadyinusejava.net.BindException:Addres

history hadoop code section spark apache-spark ambari apache-spark-2.0

hadoop - 如何将数据从生产集群传输到数据实验室集群进行实时数据分析？

我们正在使用mapr并且我们想要部署一个新的(datalab)集群，我想问一下将数据从我们的生产集群传输到datalab集群的最佳方法？我们在两个集群之间使用了镜像，但是有了这个选项，我们的数据实验室中只有读取数据，那么我们如何实时传输数据呢？最佳答案您可以使用以下选项:Distcp。但同样支持某些协议(protocol)。Referhere如果您正在使用hbase，那么您可以使用快照功能。Referhere或者，您可以使用数据库实用程序来创建转储。对于例如，如果您使用的是mysql，则使用mysqldump-u[usernam

hadoop 数据 section strong noreferrer bigdata mapr

apache-spark - SAP Vora 2.1 是否需要 Hadoop/Spark 集群？并且可以使用 PySpark 吗？

根据文档SAP_Vora_Installation_Admin_Guide_2.0_en.pdf，需要运行Hadoop/Spark集群和运行Kubernetis集群。现在我的问题是，为什么需要这个Hadoop/Spark集群？因为SAPVora可以从HDFS、WebHDFS等读取。如果您有一个Spark作业，您是否可以在Spark集群上运行它，如果它需要来自HANA/Vora的数据，它可以访问它吗？还是Vora也使用Spark集群来处理数据？因为现在看起来Spark可以使用Vora但Vora不能使用Spark(VoraUI工具，如SQL编辑器等)。因为你可以附加到Vora上的Zeppe

apache-spark PySpark Spark Vora section hadoop sap

apache-spark - Hadoop copyToLocalFile 在 Yarn 集群模式下失败

我试图从我的Spark2应用程序使用Hadoop的copyToLocalFile函数将文件从HDFS复制到本地。valhadoopConf=newConfiguration()valhdfs=FileSystem.get(hadoopConf)valsrc=newPath("/user/yxs7634/all.txt")valdest=newPath("file:///home/yxs7634/all.txt")hdfs.copyToLocalFile(src,dest)当我在Yarn客户端模式下提交我的spark应用程序时，上面的代码工作正常。但是，它在Yarn集群模式下一直失败并出

copyToLocalFile apache-spark section 并出 hadoop hdfs hadoop-yarn

apache-spark - 设置 fs.defaultFS 属性时无法创建 Dataproc 集群？

这已经是之前post的讨论对象了，但是，我不相信答案是Googledocs指定可以创建集群设置fs.defaultFS属性。此外，即使可以通过编程方式设置此属性，但有时从命令行设置它会更方便。所以我想知道为什么传递给我的集群创建命令的以下选项不起作用:--propertiescore:fs.defaultFS=gs://my-bucket？请注意，我没有包含所有参数，因为我在没有前面标志的情况下运行命令并且它成功创建了集群。然而，当传递这个时，我得到:“失败:无法启动主控:报告的DataNodes数量不足。”如果有人通过设置fs.defaultFS成功创建了一个dataproc集群，那

apache-spark defaultFS code section hadoop google-cloud-dataproc

sql-server - 集群 SQL 与 Hadoop

我是hadoop新手刚读到HadoopHDFS是基于平面文件的虽然ClusteredMSSQLServer是RDBMS(不太确定它叫什么，但它是DB拆分成多个服务器并充当一个数据库)对于单个服务器数据，我知道RDBMS比基于平面文件的数据快得多，因为您可以为RDBMS建立索引(我希望我没记错)如果这是真的，那么为什么基于多服务器平面文件的Hadoop比多服务器RDBMS的ClusteredMSSQLServer更快？最佳答案 SQLServer2019(即将推出)实际上有一个功能将这两个世界融合在一起。您可以在集群配置中针对HDF

sql-server server section SQL hadoop

amazon-web-services - 使用 whirr 启动集群

我是whirr和AWS的新手，所以如果我问的问题很愚蠢，请提前致歉。我遵循指示here设置whirr和bin/whirrlaunch-cluster--confighadoop.properties失败并出现以下情况:[~/src/cloudera/whirr-0.1.0+23]$bin/whirrversionrvm:ruby-1.8.7-p299ApacheWhirr0.1.0+23[~/src/cloudera/whirr-0.1.0+23]$bin/whirrlaunch-cluster--confighadoop.propertiesrvm:ruby-1.8.7-p299La

amazon-web-services services java whirr ComputeServiceContextBuilder hadoop cloudera

268 269 270271272 273 274