Spark-MongoDB

apache-spark - Spark-redis:数据帧写入时间太慢

我是ApacheSpark/Redis用户，最近我尝试了spark-redis对于一个项目。该程序正在生成大约300万行的PySpark数据帧，我正在使用以下命令将其写入Redis数据库df.write\.format("org.apache.spark.sql.redis")\.option("table","person")\.option("key.column","name")\.save()如GitHubprojectdataframepage中的建议.但是，对于相同的Spark集群配置(相同数量的EC2实例和实例类型)，我的写入时间不一致。有时它发生得非常快，有时又太慢了。

java - 解决Apache Spark中的依赖性问题

构建和部署Spark应用程序时的常见问题是：java.lang.ClassNotFoundExceptionobjectxisnotamemberofpackagey编译错误。java.lang.NoSuchMethodError如何解决这些问题？最佳答案 apachespark的类路径是动态构建的（以适应每个应用程序的用户代码），这使得它容易受到此类问题的攻击。@user7337271的答案是正确的，但还有一些问题，这取决于您使用的集群管理器（“master”）。首先，spark应用程序由这些组件组成（每个组件都是单独的jvm，

依赖性 Apache code spark 驱动 java scala apache-spark classnotfoundexception nosuchmethoderror

python - 一个文件启动所有服务... mongodb、redis、node、angular 和 python

好吧，我的问题是。如何创建一个可以启动nodeangular、pythonmain_worker.py、MongoDB和redis的文件？我真的不知道从哪里开始。我只想启动我的web程序而不打开7个控制台来启动每个服务，如pythonworkerangularNode和数据库。最佳答案我知道angular和MongoDB其他人不知道，这对你有帮助吗？尝试以下方法，但你需要一个控制台"scripts":{"dev":"concurrently\"mongod\"\"ngserve--proxy-configproxy.conf.j

python mongodb section 34 angular node.js redis

使用Apache Spark Job在HDP中创建蜂巢表

我已经在Eclipse中写下了以下Scala程序，用于从HDFS中的位置读取CSV文件，然后将该数据保存到蜂巢表中[我使用的是在本地计算机上存在的VMware上运行的HDP2.4沙盒]：importorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.spark.sql.SQLContextimportorg.apache.spark.sql.hive.HiveContextobjectHDFS2HiveFileRead{defmain(args:Array[String]){valconf=

中创蜂巢 io spark

mongodb - mongo 中的规范化与非规范化数据

我有以下帖子架构。每个帖子都有一个嵌入式作者和附件(链接/视频/照片等)。{"content":"PixabletemptsEverpixuserswithquick-importtoolforphotosaheadofDecember15closurehttp:\/\/t.co\/tbsSrVYneKby@psawers","author":{"username":"TheNextWeb","id":"10876852","name":"TheNextWeb","photo":"https:\/\/pbs.twimg.com\/profile_images\/378800000147

mongodb mongo 34 section quick-import database-design redis denormalized nosql

蓝易云：使用dbeaver连接MongoDB教程

使用DBeaver连接MongoDB的教程如下：首先，确保已经安装了DBeaver工具。你可以从DBeaver官方网站（DBeaverCommunity|FreeUniversalDatabaseTool）下载适用于你的操作系统的安装包，并按照安装向导进行安装。打开DBeaver工具，并点击"新建连接"。在连接配置页面，选择"MongoDB"作为数据库类型，并填写以下信息：主机：MongoDB服务器的主机名或IP地址。端口：MongoDB服务器的端口，默认为27017。用户名和密码：MongoDB数据库的登录凭据，如果启用了身份验证。认证数据库：用于身份验证的数据库名称，默认为"admin"。

连接 dbeaver xff xff0c xff0 mongodb oracle 数据库开发语言 java 前端框架 jvm

mongodb - 最佳数据记录数据库

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭7年前。Improvethisquestion我有很多记录数据通过数据记录器存储到数据库中。基本上我有很多行带有时间戳和一些值。我想将这些数据存储到一个具有性能并且可以在多节点结构上扩展以支持容错行为(和平衡请求)的数据库中。通常我使用MySQL，但我发现它的可扩展性对于这种类型的应用程序来说并不简单。这一次，我想提供其他数据库方案。那么:Mongo、Redis、Couchdb？谢谢大家。

mongodb 数据 section class notice redis couchdb database

mongodb - 延迟排队解决方案

我正在为我的网络应用寻找延迟队列解决方案。它应该接收消息(理想情况下，通过http保持事件连接)，然后在为每个消息延迟预先确定后发出推送请求(理想情况下，通过http到内部url)。也考虑过轮询，但不可取。要求:扩展性、持久性、性能。有人知道开箱即用的现成解决方案吗？最佳答案具有延迟消息交换的rabbitmq应该可以满足您的需求https://github.com/rabbitmq/rabbitmq-delayed-message-exchange 关于mongodb-延迟排队解决方

mongodb 延迟 section rabbitmq rabbitmq-delayed-message-exchange redis queue rethinkdb

mongodb - 解决 Overembedding MongoDB with Slow Down performance

目前我在一个存在严重过度嵌入问题的项目中工作，因为在一个集合中只有3个对象(数组)位于其中，其中几乎包含应用程序业务模型的70%(我们收到了这个来自其他开发团队的项目，是一个完整的挑战)。另一个问题是，该应用程序使用实时跟踪地理定位，并持续使用此集合。我的提示是，我完全确定数据库服务器中的过载问题和应用程序在几个小时内变慢的原因是过度嵌入。我们认为解决方案是建立一个新的数据库模式(理解MongoDB是无模式的，但不是限制)，尝试用低引用规范化树集合中的这三个对象(像关系模型一样模拟外键)，但是，例如，您建议使用旧(当前)数据库设计和制作数据仓库，只进行读取查询，只迁移用户数据或将所有数

Overembedding performance 34 firstNames lastNames mongodb redis data-warehouse node-redis real-time-data

Spark Streaming实时数据处理

作者：禅与计算机程序设计艺术1.简介ApacheSpark™Streaming是一个构建在ApacheSpark™之上的快速、微批次、容错的流式数据处理系统，它可以对实时数据进行高吞吐量、低延迟地处理。SparkStreaming既可用于流计算场景也可用于离线批处理场景，而且可以将结构化或无结构化数据源（如Kafka、Flume、Kinesis）的数据实时流式传输到HDFS、HBase、Kafka等存储中。它具有高吞吐量、容错性、易扩展性、复杂的容错机制和丰富的API支持。本文主要介绍了SparkStreaming的相关知识，并通过例子帮助读者快速上手SparkStreaming。2.基本概念

数据处理实时数据容错 Streaming 大数据人工智能语言模型 Java Python 架构设计

164 165 166167168 169 170