草庐IT

NoSQL 与 SQL:内容、地点和方式

科技狠活与软件技术 2023-03-28 原文
这份综合指南将帮助初学者了解 SQL 和 NoSQL 之间的区别、它们的用例和性能场景。

作为初学者,了解两种最常用的数据库类型是必不可少的:SQL和NoSQL。在本文中,我已尽力提供一个全面的指南,帮助初学者了解 SQL 和 NoSQL 之间的区别、它们的用例以及它们比另一个表现更好的场景。此处的信息将为您提供 SQL 和 NoSQL 数据库的概述,并重点介绍每种数据库的优缺点。到本文结束时,您将能够就为您的项目使用哪种类型的数据库做出明智的决定。无论您是软件开发人员、数据分析师,还是希望存储和管理数据的企业主,此信息都对您很有价值且相关。

那么,让我们深入探索 SQL 和 NoSQL 数据库的世界。

关于 SQL 和 NoSQL 的事实

  • SQL 最初是由Donald D. Chamberlin和Raymond F. Boyce在IBM于 1970 年代初从Edgar F. Codd那里学习关系模型后开发的。
  • NoSQL一词由 Carlo Strozzi 在 1998 年使用。
  • Oracle 于 1979 年将第一个商业关系数据库推向市场,随后是DB2、SAP Sybase ASE 和Informix。
  • NoSQL 数据库不是关系数据库的替代品,而是为某些用例提供替代解决方案。
  • SQL 数据库提供高度的数据一致性和事务支持,使其成为需要数据完整性和可靠性的应用程序的热门选择。
  • NoSQL 数据库通常具有水平可扩展性,这意味着它们可以轻松地跨多个服务器分发数据,从而实现更大的可扩展性。
  • CAP定理,也以计算机科学家Eric Brewer的名字命名为 Brewer 定理,指出任何分布式数据存储只能提供三个保证中的两个:

何时使用 SQL 或 NoSQL 没有硬性规定,特定项目的最佳选择将取决于项目的具体需求和约束。

SQL 数据库通常比 NoSQL 数据库使用更广泛。根据 DB-Engines的一项调查,在流行度和使用率上排名前五的数据库都是 SQL 数据库(Oracle、MySQL、Microsoft SQL Server、PostgreSQL 和 SQLite)。

使用 SQL 或 NoSQL 的实际应用程序

  • Twitter 使用 NoSQL 数据库 (Cassandra) 来存储和管理其用户生成的海量数据。他们说, “我们的地理团队使用它来存储和查询他们的兴趣点数据库。研究团队使用它来存储对我们整个用户群进行的数据挖掘的结果。 ”
  • Netflix 使用 SQL 和 NoSQL 数据库的组合来存储和管理与其流媒体服务相关的数据。该公司使用 SQL 数据库 (MySQL) 存储结构化交易数据,例如订户信息和账单记录,并使用 NoSQL 数据库 (Cassandra) 存储与用户交互和推荐相关的数据。
  • LinkedIn 使用 SQL 和 NoSQL 数据库的组合来存储和管理与其专业网络平台相关的数据。Espresso 是 LinkedIn 的在线、分布式、容错 NoSQL 数据库,目前为大约 30 个 LinkedIn 应用程序提供支持,包括会员资料、InMail(LinkedIn 的会员间消息传递系统)、部分主页和移动应用程序。
  • Facebook使用 MySQL 作为主要数据库,这是一个由 Oracle 开发的开源数据库,为 Facebook 的一些最重要的工作负载提供支持。他们引入了 MyRocks,一种新的 MySQL 数据库引擎,其目标是提高空间和写入效率,超过压缩 InnoDB 所能达到的水平。
  • Stack Overflow使用 SQL Server。Nick Craver在他的一篇博客中写道,Stack Overflow 正在使用 SQL Server 作为单一事实来源。Elastic 和 Redis 中的所有数据都来自 SQL Server。他们运行两个带有AlwaysOn 可用性组的 SQL Server 集群。

SQL 和 NoSQL 在不同业务中的用例

数据库

  • 财务系统
  • 客户关系管理 (CRM) 系统
  • 库存管理系统
  • 人力资源 (HR) 系统
  • 数据仓库和商业智能 (BI) 系统

无SQL

  • 社交媒体网络
  • 电子商务网站
  • 实时分析系统
  • 移动应用程序后端
  • 内容管理系统 (CMS)

这些只是几个示例,SQL 和 NoSQL 还有许多其他用例。

特定项目的最佳技术将取决于项目的具体需求和限制。

云端数据库

大多数主要的云提供商都提供各种 SQL 和 NoSQL 数据库作为服务。以下是一些主要云提供商提供的数据库类型的一些示例:

  • Amazon Web Services (AWS) 提供一系列 SQL 和 NoSQL 数据库,包括:
  • SQL:亚马逊 RDS(MySQL、PostgreSQL、Oracle、Microsoft SQL Server)
  • NoSQL:Amazon DynamoDB(键值对)、Amazon DocumentDB(文档)、Amazon Neptune(图形)
  • Microsoft Azure 提供一系列 SQL 和 NoSQL 数据库,包括:
  • SQL:Azure SQL 数据库(关系)、Azure Database for MySQL、Azure Database for PostgreSQL
  • NoSQL:Azure Cosmos DB(多模型)、Azure 表存储(键值)
  • Google Cloud Platform 提供一系列 SQL 和 NoSQL 数据库,包括:
  • SQL:云 SQL(MySQL、PostgreSQL)
  • NoSQL:Cloud Firestore(文档)、Cloud Bigtable(宽列)、Cloud Datastore(文档)

在 SQL 和无 SQL 之间进行选择的最佳实践

在为特定项目选择 SQL 和 NoSQL 时,需要牢记一些最佳实践(这不是最终列表):

  1. 了解项目的具体需求和限制。这将帮助您确定最适合的技术。
  2. 考虑您正在使用的数据的类型和结构。SQL 非常适合具有明确关系的结构化、事务性数据,而 NoSQL 更适合处理具有较少定义关系的非结构化、大容量数据。(同样,您的项目和用例将决定这一点。)
  3. 评估应用程序的可伸缩性和性能要求。您一定听说过 NoSQL 数据库通常比 SQL 数据库更具可扩展性和性能,但情况可能并非总是如此。
  4. 考虑您需要的一致性和可靠性级别。SQL 数据库通常更具可预测性和一致性,但 NoSQL 数据库提供更大的灵活性。
  5. 测试不同的技术,看看哪一种技术在您的特定用例中表现最好。这将帮助您做出明智的决定。
  6. SQL 和 NoSQL 数据库都可以提供高可用性和持久性,具体取决于具体的实施方式以及复制和分片等技术的使用。
  7. 每个人都在使用 NoSQL,所以这样做并不总是正确的策略。

帮助决定的工具

为了帮助企业应用程序在 SQL 和 NoSQL 之间做出选择,您可以考虑使用数据库性能基准测试工具、数据库设计和建模工具以及数据库管理和监控工具等工具。这些类型的工具的一些示例包括:

  • MySQL 工作台
  • MongoDB 指南针
  • 资料夹
  • 海狸
  • Redis 桌面管理器

数据库实现失败的原因

  • 设计不当的数据模型或模式不符合应用程序的需要
  • 性能测试或优化不充分,导致数据库性能不佳
  • 缺乏强大的备份和恢复流程,导致数据丢失或损坏
  • 数据库维护和支持的规划或资源不足

常见故障与异常

  • 连接失败—— 建立与数据库的连接时出现问题,例如数据库服务器未运行或连接详细信息不正确时
  • 解决方案:建立稳健的连接管理和重试策略来处理连接失败
  • 查询失败 - 执行查询时出现问题,例如查询语法无效或查询执行时间过长
  • 解决方案:调试和优化查询以提高性能
  • 事务失败——如果数据库事务出现问题,例如事务由于死锁或违反约束而被取消或回滚
  • 解决方案:实施适当的交易管理以最大限度地降低交易失败的风险
  • 数据损坏—— 当数据库中存储的数据出现问题时,例如当数据因硬件故障或软件错误而损坏或丢失时,就会发生这种情况。
  • 解决方案:实施备份和恢复策略以降低数据丢失或损坏的风险
  • 性能问题:数据库查询性能不佳,如速度慢或数据库消耗过多资源
  • 解决方案:监视和调整数据库以识别和解决性能问题

数据库的部署架构

  1. 独立服务器:在此架构中,数据库安装在单个服务器上并由应用程序直接访问。这是最简单易用的部署选项,但不适合大规模或高可用性应用程序。
  2. 复制:在这里,数据库部署在多台服务器上,每台服务器都托管一份数据副本。服务器配置在副本集中,其中一个服务器被指定为主服务器。应用程序写入主服务器,数据自动复制到其他服务器。这提供了改进的可用性和容错性,但不提供水平可伸缩性。
  3. 分片:这与复制相同,其中数据库部署在多台服务器上,并且数据跨服务器分区。这里的分区称为分片,服务器被组织成一个分片集群。应用程序写入集群,数据自动路由到适当的分片。这种风格提供了改进的可伸缩性和性能,同时需要额外的配置和管理。
  4. 云托管服务:云提供商管理数据库并由 API 访问。这可能是最简单的部署和管理方式。另一方面,它可能很昂贵,与其他相比,控制和定制会更少。

什么会导致数据库中的性能问题

  1. 资源不足
  2. 设计不佳的查询
  3. 索引问题
  4. 架构未优化
  5. 分片问题
  6. 网络延迟或带宽

我使用 SQL 和 NOSQL 的个人经验

我是企业 API 开发团队的一员,最初我们开始使用 SQL 数据库。后来当我们的组织采用 NoSQL 时,考虑到我们将扩展并且其他一切都会顺利的事实,我们搬到了那里。

然而,我们开始遇到规模、性能、索引等挑战。使用 NoSQL 数据库的挑战之一是它们通常缺乏关系数据库提供的强大的数据一致性保证。您需要记住分布式环境中的“最终一致性”。这意味着在某些情况下数据可能会变得不一致或过时,例如当多个客户端同时更新相同的数据时。

所以作为初学者,我们从来没有想过这个场景,逐渐开始学习和重新设计数据库架构,从记录走向文档。NoSQL 数据库旨在处理大量数据和高读写吞吐量,但优化其性能需要深入了解数据库的体系结构和配置设置。

需要从只关注关系的心态转变。数据库是存储数据的地方,遵循特定的数据结构。考虑从充满业务逻辑的存储过程转移到仅应用程序的业务逻辑:数据库内部将没有逻辑。在充分利用 NoSQL 的同时,必须更好地进行数据建模和设计索引。

有关NoSQL 与 SQL:内容、地点和方式的更多相关文章

  1. ruby - 如何以所有可能的方式将字符串拆分为长度最多为 3 的连续子字符串? - 2

    我试图获取一个长度在1到10之间的字符串,并输出将字符串分解为大小为1、2或3的连续子字符串的所有可能方式。例如:输入:123456将整数分割成单个字符,然后继续查找组合。该代码将返回以下所有数组。[1,2,3,4,5,6][12,3,4,5,6][1,23,4,5,6][1,2,34,5,6][1,2,3,45,6][1,2,3,4,56][12,34,5,6][12,3,45,6][12,3,4,56][1,23,45,6][1,2,34,56][1,23,4,56][12,34,56][123,4,5,6][1,234,5,6][1,2,345,6][1,2,3,456][123

  2. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  3. ruby - 将数组的内容转换为 int - 2

    我需要读入一个包含数字列表的文件。此代码读取文件并将其放入二维数组中。现在我需要获取数组中所有数字的平均值,但我需要将数组的内容更改为int。有什么想法可以将to_i方法放在哪里吗?ClassTerraindefinitializefile_name@input=IO.readlines(file_name)#readinfile@size=@input[0].to_i@land=[@size]x=1whilex 最佳答案 只需将数组映射为整数:@land边注如果你想得到一条线的平均值,你可以这样做:values=@input[x]

  4. ruby-on-rails - 如何在我的 Rails 应用程序 View 中打印 ruby​​ 变量的内容? - 2

    我是一个Rails初学者,但我想从我的RailsView(html.haml文件)中查看Ruby变量的内容。我试图在ruby​​中打印出变量(认为它会在终端中出现),但没有得到任何结果。有什么建议吗?我知道Rails调试器,但更喜欢使用inspect来打印我的变量。 最佳答案 您可以在View中使用puts方法将信息输出到服务器控制台。您应该能够在View中的任何位置使用Haml执行以下操作:-puts@my_variable.inspect 关于ruby-on-rails-如何在我的R

  5. ruby-on-rails - 正确的 Rails 2.1 做事方式 - 2

    question的一些答案关于redirect_to让我想到了其他一些问题。基本上,我正在使用Rails2.1编写博客应用程序。我一直在尝试自己完成大部分工作(因为我对Rails有所了解),但在需要时会引用Internet上的教程和引用资料。我设法让一个简单的博客正常运行,然后我尝试添加评论。靠我自己,我设法让它进入了可以从script/console添加评论的阶段,但我无法让表单正常工作。我遵循的其中一个教程建议在帖子Controller中创建一个“评论”操作,以添加评论。我的问题是:这是“标准”方式吗?我的另一个问题的答案之一似乎暗示应该有一个CommentsController参

  6. ruby - 查找字符串中的内容类型(数字、日期、时间、字符串等) - 2

    我正在尝试解析一个CSV文件并使用SQL命令自动为其创建一个表。CSV中的第一行给出了列标题。但我需要推断每个列的类型。Ruby中是否有任何函数可以找到每个字段中内容的类型。例如,CSV行:"12012","Test","1233.22","12:21:22","10/10/2009"应该产生像这样的类型['integer','string','float','time','date']谢谢! 最佳答案 require'time'defto_something(str)if(num=Integer(str)rescueFloat(s

  7. 【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2

    在应用开发中,有时候我们需要获取系统的设备信息,用于数据上报和行为分析。那在鸿蒙系统中,我们应该怎么去获取设备的系统信息呢,比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况,一种是设备信息的获取,一种是系统信息的获取。1.1、获取设备信息获取设备信息,鸿蒙的SDK包为我们提供了DeviceInfo类,通过该类的一些静态方法,可以获取设备信息,DeviceInfo类的包路径为:ohos.system.DeviceInfo.具体的方法如下:ModifierandTypeMethodDescriptionstatic StringgetAbiList​()Obt

  8. Hive SQL 五大经典面试题 - 2

    目录第1题连续问题分析:解法:第2题分组问题分析:解法:第3题间隔连续问题分析:解法:第4题打折日期交叉问题分析:解法:第5题同时在线问题分析:解法:第1题连续问题如下数据为蚂蚁森林中用户领取的减少碳排放量iddtlowcarbon10012021-12-1212310022021-12-124510012021-12-134310012021-12-134510012021-12-132310022021-12-144510012021-12-1423010022021-12-154510012021-12-1523.......找出连续3天及以上减少碳排放量在100以上的用户分析:遇到这类

  9. sql - 查询忽略时间戳日期的时间范围 - 2

    我正在尝试查询我的Rails数据库(Postgres)中的购买表,我想查询时间范围。例如,我想知道在所有日期的下午2点到3点之间进行了多少次购买。此表中有一个created_at列,但我不知道如何在不搜索特定日期的情况下完成此操作。我试过:Purchases.where("created_atBETWEEN?and?",Time.now-1.hour,Time.now)但这最终只会搜索今天与那些时间的日期。 最佳答案 您需要使用PostgreSQL'sdate_part/extractfunction从created_at中提取小时

  10. ruby - 如何使用 Selenium Webdriver 根据 div 的内容执行操作? - 2

    我有一个使用SeleniumWebdriver和Nokogiri的Ruby应用程序。我想选择一个类,然后对于那个类对应的每个div,我想根据div的内容执行一个Action。例如,我正在解析以下页面:https://www.google.com/webhp?sourceid=chrome-instant&ion=1&espv=2&ie=UTF-8#q=puppies这是一个搜索结果页面,我正在寻找描述中包含“Adoption”一词的第一个结果。因此机器人应该寻找带有className:"result"的div,对于每个检查它的.descriptiondiv是否包含单词“adoption

随机推荐