【数据库MongoDB】MongoDB与大数据关系以及MongoDB中重要的进程：mongod进程与mongo进程关系

量化Mike 2023-06-08 原文

一、什么是云计算

云计算的定义有多种说法，对于到底什么是云计算，我们至少可以找到100种解释。目前广为接受的是美国国家标准与技术研究院定义:云计算是一种按使用量付费的模式，这种模式提供可用的、便捷的、按需的网络访问，进入可配置的计算资源共享池（资源包括网络、服务器、存储、应用软件、服务)，这些资源能够被快速提供，只需投入很少的管理工作，或与服务供应商进行很少的交互，本质上就是虚拟化技术的延伸，以服务的形式提供客户。 按照服务的形式，目前主要有如下3种形式的云计算:

1. IaaS:基础设施即服务

laaS ( Infrastructure-as-a-Service):基础设施即服务。消费者通过Internet 可以从完善的计算机基础设施获得服务，例如硬件服务器租用。

2. SaaS:软件即服务

SaaS ( Software-as-a-Service);软件即服务。它是一种通过Internet提供软件的模式，用户无需购买软件，而是向提供商租用基于Web 的软件，来管理企业经营活动。例如:阳光云服务器。

3. PaaS:平台即服务

PaaS ( Platform-as-a- Service ):平台即服务。PaaS 实际上是指将软件研发的平台作为一种服务，以SaaS的模式提交给用户。因此，PaaS也是SaaS模式的一种应用。但是PaaS的出现可以加快SaaS 的发展，尤其是加快 SaaS应用的开发速度，例如软件的个性化定制开发。

二、大数据与云计算关系

从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式计算架构。它的特色在于对海量数据的挖掘，但它必须依托云计算的分布式处理，也就说大数据就像做饭用的一堆原材料，云计算就像做饭用的工具。云计算解决了大数据的运算工具问题，而对大数据的存储我们需要相应的云存储工具。云存储是在云计算概念上延伸和发展出来的一个新的概念，是指通过集群应用或分布式文件系统等功能,将网络中大量的存储设备通过应用软件集合起来协同工作，共同对外提供数据存储和业务访问功能的一个系统。所以云存储是一个以数据存储和管理为核心的云计算系统，本书介绍的MongoDB就可以当作一个云存储系统使用。

三、什么是MongoDB

DB-Engines 数据库排名

MongoDB是一个可扩展、开源、表结构自由、用C++语言编写且面向文档的数据库，旨在为Web应用程序提供高性能、高可用性且易扩展的数据存储解决方案。

MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富、最像关系数据库的 NoSQL 数据库;它支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，可以实现类似关系数据里单表查询的绝大部分功能
而且还支持对数据建立索引。

MongoDB只通过6年时间就将公司市值发展到12亿美元，其成果相当于著名开源公司Red Hat 20年的发展。MongoDB的成功之路，一大部分归功于Web开发者。作为一个面向文档数据库，在许多场景下它都优于RDBMS，同时还可以获得非常高的读写性能。此外，动态、灵活的模式更可以让用户在商用服务器上轻松地进行横向扩展。

四、大数据与MongoDB

MongoDB这样的数据库可以支撑很多大数据系统，它不仅可以作为一个实时的可操作的大数据存储系统，也能在离线大数据分析系统中使用。

MongoDB 公司提供的产品和服务能让使用者担更少的风险、花更少的精力提供更好的生产系统产品。事实上，MongoDB天生就是为云计算而生的，其原生的可扩展架构，通过启用分片和水平扩展，能提供云存储所需的技术;此外，它的自动管理被称为“副本集”的冗余服务器,以保持数据的可用性和完整性。MongoDB目前已经成为多家领先的云计算供应商，其中包括亚马逊网络服务、微软和SoftLayer等。

MongoDB还支持Google提出的 MapReduce并行编程模式,为大数据的分析提供了强有力的保障。MongoDB同时提供了与Hadoop 的接口，与其他第三方数据分析工具完美结合。

MongoDB是一个面向文档的数据库，不支持关系数据库中的join操作和事务。
MongoDB用集合的概念代替了关系数据库中的表，用最小逻辑单元文档代替关系数据库中的行。
MongoDB的集合结构是动态的，没有必要像关系数据库一样插入数据前先定义表结构，而且可以随时增加、修改、删除组成文档的字段。

MongoDB支持当前所有主流编程语言的客户端驱动，使用方便，应用广泛，非常适合文档管理系统的应用、移动APP应用、游戏开发、电子商务应用、分析决策系统、归档和日志系统等应用。MongoDB支持所有主流平台的安装，但在32位的平台上部署时会有所限制，这是由它采用内存映射数据文件机制决定的，生产环境中最好部署在64位平台上。

五、MongoDB特点

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HCxAIxhS-1666882982824)(https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=ba951ce5bc5be1ef5929db61f342cb56&file=file.png)]

关系数据库中最基本的单元是行，而MongoDB中最基本存储单元是document，典型结构如下所示：

{
	"_id" : ObjectId("51e0c391820fdb628ad4635a")，
	"author" : { "name" : "Jordan" , "email" : "Jordan@123.com" ),
	"postcontent" : "jordan is the god of basketball"，
	"comments" : [
			{ "user" : "xiaoming","text" :"great player" },
			{ "user" : "xiaoliang"，"text" : "nice action" }
	]
}

MongoDB用集合的概念代替了关系数据库中的表，用最小逻辑单元文档代替关系数据库中的行。

它用与JSON格式类似的键值对来存储(在 MongoDB中叫 BSON对象)，其中值的数据类型有常见的字符串、数字、日期，还可以是BSON对象、数组以及数组的元素，也可以是BSON对象，通过这种嵌套的方式，使 MongoDB的数据类型变得相当丰富。

MongoDB与传统关系数据库还有一个重大区别就是:可扩展的表结构。也就是说collection（表)中的document(一行记录)所拥有的字段(列)是可以变化的，下面文档对象document(一行记录)比上面列出的文档对象document(一行记录)多一个time字段，但它们可以共存在同一个collection(表)中。

MongoDB 公司提供的产品和服务能让使用者担更少的风险、花更少的精力提供更好的生产系统产品。MongoDB天生就是为云计算而生的，其原生的可扩展架构，通过启用分片和水平扩展，能提供云存储所需的技术;它的自动管理被称为“副本集”的冗余服务器，以保持数据的可用性和完整性。MongoDB目前已经成为多家领先的云计算供应商，其中包括亚马逊网络服务、微软和SoftLayer等。

{
	"_id" : ObjectId("51e0c391820fdb628ad4635a"),
	"author" : { "name" : "Jordan" , "email" : "Jordan@123.com" ),
	"postcontent" : "jordan is the god of basketball",
	"comments" : [
			{ "user" : "xiaoming","text" :"great player" },
			{ "user" : "xiaoliang"，"text" : "nice action" }
	],
	"time":"2013-07-13"
}

MongoDB查询语句不是按照SQL 的标准来开发的，它围绕JSON这种特殊格式的文档型存储模型开发了一套自己的查询体系，这就是现在非常流行的NoSQL体系。
关系数据库中常用的 SQL 语句在 MongoDB中都有对应的解决方案。
MongoDB不支持JOIN语句,传统关系数据库中JOIN操作可能会产生笛卡尔积的虚拟表,消耗较多系统资源。
MongoDB的文档对象集合collection可以是任何结构，我们可以通过设计较好的数据模型尽量避开这样的操作需求。
如果真的需要从多个collection(表)中检索数据，那我们可以通过多次查询得到。

在关系数据库中经常用到的 group by 等分组聚集函数，在 MongoDB中也有，而且MongoDB提供了更加强大的 MapReduce方案(GOOGLE提出的并行编程)，为海量数据的统计、分析提供了便利。

MongoDB支持日志功能Journaling，对数据库的增、删、改操作会记录在日志文件中。MongoDB每100ms将内存中的数据刷到磁盘上，如果意外停机，在数据库重新启动时，MongoDB能通过Journaling日志功能恢复。
MongoDB支持复制集Replset，一个复制集在生产环境中最少需要3台独立的机器（测试的时候为了方便可能都部署在一台机器上)，一台作主节点（primary)，一台作次节点(secondary)，一台作仲裁节点(只负责选出主节点)，备份、自动故障转移，这些特性都是复制集支持的。
MongoDB支持自动分片sharding,分片的功能实现海量数据的分布式存储,分片通常与复制集配合起来使用，实现读写分离、负载均衡，当然如何选择片键是实现分片功能的关键。如何实现读写分离我们后面会详细分析。

总之，MongoDB 最吸引人的地方应该就是自由的表结构、MapReduce、分片、复制集，通过这些功能实现海量数据的存储、高效地读写以及数据的分析。

六、安装MongoDB

一般指的是运行MongoDB服务器端的进程mongod。
解压后，在bin目录下，我们可以看到一个名为mongod.exe的可执行程序，这个就是服务器端进程对应的程序。

下载链接：https://www.mongodb.com/try/download/community
MongoDB启动时需要指定数据文件所在的目录,所以先要建立一个保存数据文件的目录: D:\mongodb-win32-i386-2.6.3\test_single_instance\data
MongoDB启动时也可以指定一个日志文件: D:\mongodb-win32-i386-2.6.3\test_single_instance\logs\123.log
MongoDB通过以下命令就可以启动: > mongod --config E:\MongoDB-win32-i386-2.6.3\test_single_instance\123.conf

七、重要进程介绍

7.1 mongod进程

Mongod.exe为启动此数据库实例进程对应的可执行文件，是整个 MongoDB中最核心的内容，负责数据库的创建、删除等各项管理工作，运行在服务器端为客户端提供监听，相当于MySQL数据库中的 mysqld进程。

启动数据库实例会用到以下命令:

>mongod --config E:\MongoDB-win32-i386-2.6.3\test_single_instance\123.conf

配置文件123.conf内容如下所示:

dbpath  = E:\MongoDB-win32-i386-2.6.3\test_single_instance\data
logpath = E:\MongoDB-win32-i386-2.6.3\test_single_instance\logs\123.log
journal = true
port    = 50000
auth    = true

dbpath 为数据库文件存储路径;
logpath 为数据库实例启动、运行、错误日志文件;
journal 启动数据库实例的日志功能，数据库宕机后重启时依赖它恢复;
port 数据库实例的服务监听端口;
auth 启动数据库实例的权限控制功能。

其他可选参数可以通过mongod-help查看。

7.2 mongo进程

mongo是一个与mongod进程进行交互的JavaScript Shell进程，它提供了一些交互的接口函数用于系统管理员对数据库系统进行管理，如下面命令所示:

>mongo --port 50000-username xxx-password xxx-authenticationDatabase admin

参数 port 为mongod进程监听的端口
参数 username 为连接数据库的用户名
参数 password 为连接数据库的密码
参数 authenticationDatabase 为要连接的数据库

7.3 其他进程

7.3.1 mongodump重建数据库

mongodump提供了一种从mongod实例上创建 BSON dump文件的方法，mongorestore能够利用这些dump文件重建数据库，更多可选参数可通过mongodump-help查看。

常用命令格式如下: mongodump --port 50000 --db eshop --out e:\bak

参数:

–port表示mongod实例监听端口
–db表示数据库名称
–out表示备份文件保存目录

7.3.2 mongoexport导出数据

mongoexport是一个将 MongoDB数据库实例中的数据导出来生产JSON或CSV文件的工具，常用命令格式如下:

mongoexport --port 50000 --db eshop --collection goods --out e:\goods.json

7.3.3 mongoimport导入数据

mongoimport是一个将JSON或CSV文件内容导入到MongoDB实例中的工具,常用命令格式如下:

mongoimport --port 50000 --db eshop --collection goods --file e:lgoods.json

7.3.4 mongos分片操作

mongos是一个在分片中用到的进程。所有应用程序端的查询操作都会先由它分析，然后将查询定位到具体某一个分片上，它的作用与mongod类似，客户端的mongo与它连接。

7.3.5 mongofiles操作分布式文件存储系统

mongofiles提供了一个操作MongoDB分布式文件存储系统的命令行接口，常用命令如下:

mongofiles --port 40009 --db mydocs --local D:/算法导论学习资料.pdf put algorithm.introduction.pdf

它表示将本地文件 D:\算法导论学习资料.pdf上传到数据库mydoc中保存。

7.3.6 mongostat展示运行中mongod实例的状态工具

mongostat提供了一个展示当前正在运行的 mongod 实例的状态工具,相当于UNIX/Linux上的文件系统工具vmstat,但是它提供的数据只与运行着的mongod或mongos的实例相关。

7.3.7 mongotop分析MongoDB实例花在读写数据上时间跟踪方法

mongotop提供了一个分析 MongoDB 实例花在读写数据上的时间的跟踪方法。它提供的统计数据在每一个collection（表)级别上。

八、适合业务

8.1 Web应用程序

Web应用是一种基于BS模式的程序，业务的特点是读写请求都比较高，早期系统的数据量可能很少，但是发展到一定程度后数据量会暴增，这就需要数据存储架构能够适应业务的扩展。
传统的关系数据库表结构都是固定的,增加一个业务或者横向扩展数据库都会带来巨大的工作量。MongoDB支持无固定结构的表模型，因此很容易增加或减少表中的字段，适应业务的变化;

MongoDB本身就支持分片集群，很容易实现水平扩展，将数据分散到集群中的各个片上,提高了系统的存储容量和读写吞吐量。

Web应用程序还有一个特点就是“热数据”读并发很高，也就是说最新的数据被请求的次数会最多。为了提供读的性能，在传统的关系数据将中会采用其他的缓存技术来将这部分数据放在内存中，而 MongoDB本身就支持这一点，它是通过内存映射数据文件来实现的。它会维护一个工作集，将最热的数据放在内存中，不需要其他技术的协助，这为系统开发提供了简便性，如图1-3所示。

8.2 缓存系统

MongoDB使用场景是与关系数据库搭配使用，作为关系数据库的缓存前端。

目前缓存技术有很多种，最常见的就是使用memcached，但是这些缓存系统都有个缺点，就是支持的数据类型有限，查询语句也有限，只能保存少量的数据且不能持久化。

8.3 日志分析系统

这类系统的特点是数据量大，允许部分数据丢失，不会影响整个系统的可靠性。
以前将日志直接保存到操作系统的文件上，我们需要用其他工具打开日志文件或编写工具读日志进行分析，这样的话对于大量的日志查询会比较困难。

如果用MongoDB 数据库来保存这些日志：

可以利用分片集群使日志系统的容量海量大
使用MongoDB特有的查询语句能够快速找到某条日志记录。

最重要的是MongoDB支持聚集分析甚至MapReduce的能力，为大数据的分析和决策提供了强有力的支持。

MongoDB 大数 span xff0c class 大数据数据库云计算 mongod

有关【数据库MongoDB】MongoDB与大数据关系以及MongoDB中重要的进程：mongod进程与mongo进程关系的更多相关文章

ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 在 jRuby 中使用 'fork' 生成进程的替代方案？ - 2
在MRIRuby中我可以这样做:deftransferinternal_server=self.init_serverpid=forkdointernal_server.runend#Maketheserverprocessrunindependently.Process.detach(pid)internal_client=self.init_client#Dootherstuffwithconnectingtointernal_server...internal_client.post('somedata')ensure#KillserverProcess.kill('KILL',
ruby - 通过 ruby 进程共享变量 - 2
我正在编写一个gem，我必须在其中fork两个启动两个webrick服务器的进程。我想通过基类的类方法启动这个服务器，因为应该只有这两个服务器在运行，而不是多个。在运行时，我想调用这两个服务器上的一些方法来更改变量。我的问题是，我无法通过基类的类方法访问fork的实例变量。此外，我不能在我的基类中使用线程，因为在幕后我正在使用另一个不是线程安全的库。所以我必须将每个服务器派生到它自己的进程。我用类变量试过了，比如@@server。但是当我试图通过基类访问这个变量时，它是nil。我读到在Ruby中不可能在分支之间共享类变量，对吗？那么，还有其他解决办法吗？我考虑过使用单例，但我不确定这是
ruby - Ruby 有 `Pair` 数据类型吗？ - 2
有时我需要处理键/值数据。我不喜欢使用数组，因为它们在大小上没有限制(很容易不小心添加超过2个项目，而且您最终需要稍后验证大小)。此外，0和1的索引变成了魔数(MagicNumber)，并且在传达含义方面做得很差(“当我说0时，我的意思是head...”)。散列也不合适，因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题，但我很想知道:Ruby标准库是否已经带有这样一个类？最佳
ruby - Rails 关联 - 同一个类的多个 has_one 关系 - 2
我的问题的一个例子是体育游戏。一场体育比赛有两支球队，一支主队和一支客队。我的事件记录模型如下:classTeam"Team"has_one:away_team,:class_name=>"Team"end我希望能够通过游戏访问一个团队，例如:Game.find(1).home_team但我收到一个单元化常量错误:Game::team。谁能告诉我我做错了什么？谢谢，最佳答案如果Gamehas_one:team那么Rails假设您的teams表有一个game_id列。不过，您想要的是games表有一个team_id列，在这种情况下
ruby - 我如何添加二进制数据来遏制 POST - 2
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2
本教程将在Unity3D中混合Optitrack与数据手套的数据流，在人体运动的基础上，添加双手手指部分的运动。双手手背的角度仍由Optitrack提供，数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照：https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming，开始向Unity3D广播数据；MotionVenus中设置->选项选择Unit
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co
ruby-on-rails - 创建 ruby 数据库时惰性符号绑定(bind)失败 - 2
我正在尝试在Rails上安装ruby，到目前为止一切都已安装，但是当我尝试使用rakedb:create创建数据库时，我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf