zeppelin-mongodb-interpreter

mongodb - hadoop-mongodb 驱动程序和 mahout

我使用hadoop-mongodb驱动程序在mongodb之上设置了hadoop。目前我可以成功地将M/R作业的结果输出到mongo集合。我想使用mahout来利用一些提供的算法。是否可以在mongodb之上使用mahout并直接输出到mongo集合？有我可以阅读的方法或示例吗？最佳答案是的，但它与Mahout没有直接关系。您以选择MongoDB位置的方式指定输入和输出URL。剩下的就是Hadoop-Mongo集成和设置的问题。关于mongodb-hadoop-mongodb驱动程

mongodb - flume 或 kafka 相当于 mongodb

在Hadoop世界中，flume或kafka用于流式传输或收集数据并将它们存储在Hadoop中。我只是想知道MangoDB是否有一些类似的机制或工具来实现一些？最佳答案 MongoDB只是数据库层，并不是像Hadoop生态系统那样的完整解决方案。实际上，在需要处理和存储大量传入数据的情况下，我实际上使用Kafka和Storm将数据存储在MongoDB中。关于mongodb-flume或kafka相当于mongodb，我们在StackOverflow上找到一个类似的问题：

mongodb 相当 section Hadoop stackoverflow flume apache-kafka

python - 在 Zeppelin 上增加 Spark Executors

我正在使用Hortnworks(HDP2.4)设置集群。我有一个4节点集群，每个节点都有(16Gb-RAM，8-CPU)。为了使用python(pyspark)，我还在ZeppelinNotebook上安装了Spark。我的问题是:我从3个节点的配置开始，后来我添加了另一个新节点(如前所述总共4个)，无论如何Spark上的执行者数量仍然是“3”。我在网上看到执行者的数量可以在SPARK_EXECUTOR_INSTANCES中设置，但是这个参数只存在于Spark的配置页面的spark-envtemplate中安巴里用户界面。似乎它需要YARN来决定执行者，但在YARN中我还没有找到任何关

Executors Zeppelin section Spark python hadoop apache-spark hadoop-yarn apache-zeppelin

mongodb - 如何将 _id 数据从 mongodb 加载到 Apache Pig

我是Hadoop和ApachePig的新手。我在mongodb中有一个名为用户的集合，具有以下结构。我想通过以下方式将_id加载到ApachePig中:B=LOAD'mongodb://localhost:27017/test.user'USINGcom.mongodb.hadoop.pig.MongoLoader('_id:chararray,firstName:chararray,email:chararray')AS(UID,NAME,EMAIL);但我无法加载它。名称和电子邮件已完美加载。我正在使用这些jar文件REGISTER//avro-1.7.5.jarREGISTER/

mongodb Apache 34 section hadoop github apache-pig

MongoDB主从复制，一文打尽！

📢📢📢📣📣📣哈喽！大家好，我是【IT邦德】，江湖人称jeames007，10余年DBA及大数据工作经验一位上进心十足的【大数据领域博主】！😜😜😜中国DBA联盟(ACDU)成员，目前服务于工业互联网擅长主流Oracle、MySQL、PG、高斯及Greenplum运维开发，备份恢复，安装迁移，性能优化、故障应急处理等。✨如果有对【数据库】感兴趣的【小可爱】，欢迎关注【IT邦德】💞💞💞❤️❤️❤️感谢各位大可爱小可爱！❤️❤️❤️文章目录前言📣1.MongoDB概述📣2.MongoDB特点📣3.MongoDB主从复制✨3.1架构介绍✨3.2MongoDB副本集📣4.主从集群部署✨4.1yum源配置✨

一文主从 61 mongodb 数据库

hadoop - 在 docker 容器上的 zeppelin 中运行 spark 时找不到 lzo

我正在尝试将spark代码运行到zeppelin中，我得到了这个:java.lang.ClassNotFoundException:找不到类com.hadoop.compression.lzo.LzoCodeczeppelinembeddedspark和我自己安装的sparkshell(1.6.3)存在同样的问题session:来自debian:jessie的docker容器zeppelin版本:0.6.2(从tar安装而不是从源代码构建)cdh版本:5.9.0容器上安装了liblzo2-dev和hadoop-lzoSPARK_HOME和HADOOP_HOME被设置为环境变量，也在co

中运容器 apache spark scala hadoop apache-spark cloudera-cdh apache-zeppelin

scala - 将文件从远程服务器上运行的 Apache Zeppelin 传输到 HDFS

我有一个在远程服务器上运行的ApacheZeppelin实例，我正在使用Scala通过Spark解释器与其通信。我想将存储在该服务器目录中的csv文件传输到也在远程服务器上的HDFS(Hadoop)。我无权访问服务器上的任何配置文件，我无法安装任何东西，我只能在Zeppelin中发出命令。我试过使用标准sc.textFile("file:///test.csv")语句，但它返回以下错误:org.apache.spark.SparkException:Jobabortedduetostagefailure:Task0instage19.0failed4times,mostrecentfa

Zeppelin Apache code section scala hadoop apache-spark hdfs apache-zeppelin

apache-spark - Apache Zeppelin + Spark 的按需用户集群？

我们使用cloudera来部署一个zeppelin-spark-yarn-hdfs集群。现在，只有一个zeppelin和spark实例，所有sparknotebook的执行都会影响到每个用户。例如，如果我们停止用户笔记本中的spark上下文，它会影响所有其他用户的笔记本。我已经看到zeppelin中有一个选项可以隔离解释器，但是有没有办法根据需要为每个用户提供自己的“集群”？也许使用Docker并使用zeppelin和spark为每个用户构建一个图像，并将他们的资源限制为用户集群提供的资源？我完全不知道如何实现它，或者它是否可能，但我的理想场景是像数据block那样的方法。在那里你可以

需用 apache-spark Zeppelin section spark hadoop hadoop-yarn cloudera apache-zeppelin

amazon-web-services - 如何让 Zeppelin 在 EMR 集群上干净地重启？

我正在运行EMR集群并尝试使用Zeppelin笔记本进行数据分析。版本:发布标签:emr-5.2.1Hadoop发行版:Amazon2.7.3hive2.1.0Spark2.0.2飞艇0.6.2我一直遇到Zeppelin在运行查询时挂起的问题，而且我永远无法恢复它。我试过:-重新启动解释器-通过SSH进入主节点并运行zeppelin_daemon.shrestart(已尝试以hadoop/root/zeppelin身份运行，并使用选项reload运行脚本，开始/停止,upstart)每次我使用守护程序shell脚本时，它都会告诉我它已经停止/启动正常，但是当我运行状态时我得到这个:Ze

amazon-web-services Zeppelin code section hadoop pyspark amazon-emr apache-zeppelin

快速上手MongoDB Atlas

MongoDBAtlas是什么？MongoDBAtlas是MongoDB公司提供的MongoDB云服务，由MongoDB数据库的开发团队构建和运维，可以在AWS、MicrosoftAzure、GoogleCloudPlatform云平台上轻松部署、运营和扩展。MongoDBAtlas内建了MongoDB安全和运维最佳实践，可自动完成基础设施的部署、数据库的构建、高可用部署、数据的全球分发、备份等即费时又需要大量经验运维工作。让您通过简单的界面和API就可以完成这些工作，由此您可以将更多宝贵的时间花在构建您的应用上。开始使用MongoDBAtlas要开始使用MongoDBAtlas，您需要执行以

上手 MongoDB 集群 xff0c xff 数据库 MongoDB Atlas nosql

48 49 505152 53 54