WP-Benchmarking-Top-NoSQL-Databas

sql-server - 将 SQL Server 连接到 "NoSQL"数据库

我目前正在进行有关将MicrosoftSQLServer连接到nosql数据库的商业智能研究。我的目标是将数据从nosql表导入到基于SQLServer的关系型DWH。我发现了以下方法:MicrosoftHadoopConnectorHadoopCloudera构建一个单独的脚本并创建一个xml并通过IntegrationServices包含它(不太令人满意)如果有人以前做过类似的事情或知道某种“最佳实践”。使用NoSQL系统并不重要最佳答案根据“定义”，NoSQL没有标准结构。因此，根据您尝试从中导入的NoSQL后端，您将需要

java - 使用 Hadoop Map Reduce 加入来自 NoSQL 数据库的数据

我目前正在使用Solr作为NoSQL数据库。我已经为各种类型的文档编制了索引，这些文档有时之间存在关联。对于新用例，我必须执行Solr不支持的等效连接。我想知道是否有一种方法可以将map-reduce作业提交到hadoop，然后hadoop可以从Solr中提取数据并执行连接。我正在寻找:讨论执行此操作的现有开源项目示例代码或批评告诉我这既不容易完成，也不能在一般情况下完成。提前致谢。注意:我在这里看到了一些关于相关或类似主题的问题:here,here和here但我没有得到我要找的东西。最佳答案您有两个基本选项。1)使用SOLRR

mongodb - 为什么 rdbms 不能存储非结构化数据？为什么 nosql 数据库可以？

我读到rdbms和nosql数据库的区别之一是存储非结构化数据，我知道每个nosql数据库都有自己的体系结构和算法，但我想知道为什么rdbms不能存储非结构化数据？以及为什么nosql数据库可以做到这一点，如果你给我一个简单的例子，我将非常感激，这样我就可以理解nosql数据库是如何做到这一点的，以及是什么导致rdbms无法存储非结构化数据。最佳答案关系数据库基于EdgarF.Codd'srelationaldatamodel它假定严格结构化的数据。整个SQL语言都是围绕这个模型构建的，实现它的数据库针对这种方式进行了优化。但在

algorithm - 当 k 个元素不适合内存时，mapreduce 中的 top-k

当k太大而无法在内存中容纳k个元素时，从数据集中查找前k个元素的有效MapReduce算法是什么？我说的是数百万个元素的数据集，例如k。其中3/4。想象一下，每个元素都有一个值，我们想要找到具有最高值的k个元素。例如数据形式:e1:5e2:10e3:7e4:8然后，前2个是e4和e2(不关心它们的相关顺序)。我看过thesolutiontotheproblem,whenkissmallenough,但它不缩放。显然，使用单个reducer同样不切实际(内存不足错误)。最佳答案我想我找到了我要找的东西。在这里找到了答案:http:

hadoop - 海量数据导出noSQL选型建议

我们有数十亿条使用关系数据格式(例如交易ID、用户名、用户ID和其他一些字段)格式化的记录，我的要求是创建一个系统，用户可以请求从该数据存储中导出数据(用户将提供一些过滤器，如用户ID、日期等)，通常导出的文件将包含几千到几十万到数百万条基于所选过滤器的记录(输出文件将是CSV或类似格式)除了原始数据，我还在数据导出过程中寻找一些字段的动态聚合。从用户提交请求到导出数据文件可用之间的典型时间应在2-3分钟内(最多4-5分钟)。我正在为这个用例寻求有关后端noSQL的建议，到目前为止，我一直在使用Hadoopmap-reduce，但在我看来，使用典型的HDFS数据map-reduce执行

mongodb - 所有NoSQL框架都使用Hadoop文件系统吗？

我是大数据的新手；显然，大多数使用NoSQL框架(如MongoDB、CouchDb和Cassandra)的应用程序都需要访问大量数据。现在，我的问题是，如果所有这些NoSQL工具都使用Hadoop文件系统作为它们的存储，或者它们自己的文件系统如何？如果他们使用Hadoop文件系统，那么他们是否有与Hadoop文件系统集成的简单方法？谢谢最佳答案不，他们默认不使用HDFS。许多NoSQL数据库都可以很好地横向扩展。也就是说，数据可以分离到一堆常规的非HDFS机器上，如果配置正确(在某些情况下这可能是一个很大的假设)，它们将高效运行

node.js - NoSQL 架构白皮书

我想更好地了解RabbitMQ、MongoDb、Node.Js和Hadoop等技术如何融入系统架构以提供高可用性/可扩展性/性能。谁能告诉我此类信息的良好来源？编辑诚然，这不是一个很好的问题，我应该澄清一下。我不是在寻找上述堆栈中任何技术的细节，我了解他们每个人的作用以及如何使用它们的一些知识。我正在寻找的是一个利用消息队列/NoSQL/Mapreduce/事件驱动语言的系统的规范，这样我就可以更好地理解它们如何协同工作以提供高可用性/可扩展性/性能。最佳答案如果我是你，我会先关注整体系统设计，然后再关注具体技术。RabbitM

hadoop - 如何高效查找top-k元素？

我有一个很大的序列文件，用于存储文档的tfidf值。每条线代表线，列是每个术语的tfidfs值(行是稀疏向量)。我想使用Hadoop为每个文档挑选前k个词。天真的解决方案是遍历映射器中每一行的所有列并选择top-k但随着文件变得越来越大，我认为这不是一个好的解决方案。在Hadoop中有更好的方法来做到这一点吗？最佳答案 1.IneverymapcalculateTopK(thisislocaltopKforeachmap)2.Spawnasignlereduce,nowtopKfromallmapperswillflowtothi

nosql - Hadoop Map/Reduce - 简单使用示例来执行以下操作

我有MySQL数据库，我在其中存储以下BLOB(包含JSON对象)和ID(用于此JSON对象)。JSON对象包含很多不同的信息。比如，“城市:洛杉矶”和“州:加利福尼亚”。目前大约有50万条这样的记录，但它们还在增长。而且每个JSON对象都很大。我的目标是在MySQL数据库中进行搜索(实时)。比如说，我想搜索所有具有“州”到“加利福尼亚”和“城市”到“旧金山”的JSON对象。我想利用Hadoop来完成这项任务。我的想法是会有“工作”，它从MySQL中获取100条记录(行)，根据给定的搜索条件验证它们，返回符合条件的那些(ID)。优点/缺点？我知道有人可能认为我应该为此使用简单的SQL功

nosql - 从 HBASE 数据返回聚合

我有一个约15万行的HBASE表，每行包含3700列。我需要一次选择多行，然后汇总结果，例如:行[1][列1]+行[2][列1]...+行[n][列1]行[1][列2]+行[2][列2]...+行[n][列2]...行[1][列]+行[2][列]...+行[n][列]我可以使用扫描仪来完成，我认为问题是，扫描仪就像一个游标，它不会同时在多台机器上执行分布的工作，而是从一个区域获取数据，然后跳到另一个区域获取下一组数据，等等，我的结果跨越多个区域。有没有办法以分布式方式进行扫描(一个选项，或者为每个区域的数据值(value)创建多个扫描器[这本身可能就是一堆蠕虫])或者这是必须在map中