$nosql_草庐IT

【大揭秘】SQL与NoSQL数据库的优缺点全面对比！一篇文章帮助你轻松解决选择困难症！

从分析师、工程师到IT决策者，许多人都熟悉关系数据库管理系统(rDBMS)和用于与它们交互的SQL(SQL)。虽然这些术语指的是一个几十年的范式，仍然是一个广泛使用的标准，今天的纯粹的多样性和数据库系统的深度可以令人眼花缭乱。更重要的是，不断增长的各种数据(尤其是非结构化数据数据)，存储和处理能力的可用性，以及不断发展的分析需求，已经引起了人们对截然不同的技术的兴趣。这些传统RDBMS的流行替代品统称为NoSQL，它们为各种现代用例带来了希望。为了做出明智的决定，从业人员应该意识到SQL、NoSQL、单个数据库管理系统(DBMS)和查询语言之间的差异，以及每种语言最适合的情况，以及前景是如何变

mongodb - NoSQL数据库引擎如何选择？

我们有一个具有以下参数的数据库:30k条记录，7mb大小20次插入/秒1000次更新/秒1000个范围选择/秒，按二级索引，每个大约10行至少需要一个二级索引如果key在75秒内没有更新，则需要一些机制使key过期(可以通过编程垃圾收集器完成，但需要额外的“last_update”索引并增加一些负载)不需要一致性不需要耐用性db应该存储在内存中目前我们使用Redis，但它没有二级索引，而且keysindex:foo:*太慢了。Membase也没有二级索引(据我所知)。MongoDB和MySQL内存引擎具有表级锁。什么引擎适合我们的用例？最佳答案

分布式数据库NoSQL(二)——MongoDB 数据库基本操作

MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。MongoDB最大的特点是它支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。从目前阿里云MongoDB云数据库上的用户看，MongoDB的应用已经渗透到各个领域，比如游戏、物流、电商、内容管理、社交

hadoop - 带有 NOSQL/Hadoop 的企业数据仓库 - "NO RDBMS"

是否有使用NOSQL/Hadoop解决方案设计的EDW(企业数据仓库)系统？我知道有连接到HDFS子系统的PDW系统(MSPDWpolybase、Greenplumhawq等)。这些是专有的硬件和软件解决方案，并且在规模上很昂贵。我正在寻找一个带有NOSQL或Hadoop的解决方案，最好是开源的企业数据仓库解决方案。如果您实现了任何经验，我想听听您的任何经验。再说一遍，我并不是在寻找任何类型的专有RDBMS作为此EDW解决方案的参与者。我在互联网上做了一些研究，虽然它是可能的(Impala是一个可能的选择)但没有看到任何人真正完全使用NOSQL或Hadoop实现。如果您做过此类事情，我

database - HDFS vs NoSQL (HBASE)，它是如何工作的？

我(几乎)浏览了谷歌上的所有资源，但没有得到有关Hadoop和NoSQL的信息。假设我有很多数据要存储。我使用Hadoop和它的原生高清文件系统，但我也想获得实时信息，所以我需要NoSQL。我的数据库将安装在哪里？在数据节点本身？在名称节点上？两者？让我们(再一次)想象一下，我的系统中有数据，namenode将把它分成几部分并将它们复制到不同的datanode上。使用NoSQL，它会以同样的方式工作吗？HDFS是否参与此过程？存储在NameNode中的元数据给出了地址，那么如何查询呢？我想我基本上理解了Hadoop和HBase的概念，但是当我进一步深入时，我就误解了..

Java + Hadoop + NoSql(使用什么组合)

我是新手，我的要求如下:我想处理带有电影评级(文本格式)的庞大文本数据集，并将它们存储在一些NoSQL数据库中，然后进行一些处理并推荐给定一部特定电影的电影。所以我需要速度-我认为Hadoop会在这方面帮助我，而将数据保存在NoSQL数据库中会进一步帮助提高速度。我想知道其他一些方法是否广为人知以及Java使用了哪些组合谢谢最佳答案有多大才算大？您可能想查看ApacheMahout.它具有非常有效的数据结构，正是为了这个目的——为协同过滤算法存储和处理稀疏数据。它将在中等规模的机器上处理大约1000万个评级的数据集+如果您的数据

nosql - NoSQL 上的文件 I/O - 特别是 HBase - 是否推荐？或不？

我是NoSQL的新手，现在我正在尝试使用HBase用于文件存储。我会将文件以二进制形式存储在HBase中。我不需要任何统计数据，只需要文件存储。是否推荐？我担心I/O速度。我使用HBase作为存储的原因是我必须使用HDFS，但我无法在客户端计算机上构建Hadoop。因此，我试图找到一些库来帮助客户端连接到HDFS以获取文件。但是我找不到它，我只是选择了HBase而不是连接库。遇到这种情况，我该怎么办？最佳答案我不知道Hadoop，但MongoDB有GridFS，它专为分布式文件存储而设计，使您能够水平扩展、“免费”获得复制等。h

hadoop - 我怎么知道Sqoop在Hadoop和NoSQL之间传输数据的时间？

我是Hadoop的新手。我需要从couchbase导入数据到hdfs。已经完成了。但是，我怎么知道数据传输已经完成，这样我就可以用这些数据顺序运行作业（mapreduce）？非常感谢你。最佳答案在完成第一个sqoop加载作业后自动触发第二个作业的最佳方法是使用Oozieworkflow自动化。他们创造了两个动作，第一个动作是一个具有相关属性的sqoop动作配置为将数据从couchbase表加载到hdfs。让第二个作业是任何（HIV/MapReduce／Shell／Java）动作将访问第一个操作的输出，然后开始处理。第二个操作将在

sql-server - 将 SQL Server 连接到 "NoSQL"数据库

我目前正在进行有关将MicrosoftSQLServer连接到nosql数据库的商业智能研究。我的目标是将数据从nosql表导入到基于SQLServer的关系型DWH。我发现了以下方法:MicrosoftHadoopConnectorHadoopCloudera构建一个单独的脚本并创建一个xml并通过IntegrationServices包含它(不太令人满意)如果有人以前做过类似的事情或知道某种“最佳实践”。使用NoSQL系统并不重要最佳答案根据“定义”，NoSQL没有标准结构。因此，根据您尝试从中导入的NoSQL后端，您将需要

java - 使用 Hadoop Map Reduce 加入来自 NoSQL 数据库的数据

我目前正在使用Solr作为NoSQL数据库。我已经为各种类型的文档编制了索引，这些文档有时之间存在关联。对于新用例，我必须执行Solr不支持的等效连接。我想知道是否有一种方法可以将map-reduce作业提交到hadoop，然后hadoop可以从Solr中提取数据并执行连接。我正在寻找:讨论执行此操作的现有开源项目示例代码或批评告诉我这既不容易完成，也不能在一般情况下完成。提前致谢。注意:我在这里看到了一些关于相关或类似主题的问题:here,here和here但我没有得到我要找的东西。最佳答案您有两个基本选项。1)使用SOLRR