NoSQL_草庐IT

nosql - 从 HBASE 数据返回聚合

我有一个约15万行的HBASE表，每行包含3700列。我需要一次选择多行，然后汇总结果，例如:行[1][列1]+行[2][列1]...+行[n][列1]行[1][列2]+行[2][列2]...+行[n][列2]...行[1][列]+行[2][列]...+行[n][列]我可以使用扫描仪来完成，我认为问题是，扫描仪就像一个游标，它不会同时在多台机器上执行分布的工作，而是从一个区域获取数据，然后跳到另一个区域获取下一组数据，等等，我的结果跨越多个区域。有没有办法以分布式方式进行扫描(一个选项，或者为每个区域的数据值(value)创建多个扫描器[这本身可能就是一堆蠕虫])或者这是必须在map中

nosql - 学习 NoSql/非关系数据库的资源

是否有任何好的资源和/或示例应用程序(最好是C#，但任何都可以)来了解有关围绕非关系数据库(例如hadoop、cassandra等)设计应用程序的更多信息？我更感兴趣的是学习此类应用程序的设计/理论，而不是学习特定的非关系数据库产品。到目前为止，我的开发经验一直集中在关系数据模型上，我有兴趣了解非关系模型在关系数据库中的使用。我绝对是这个领域的初学者，所以我需要从头开始... 最佳答案 CassandraarticleandpresentationsCassandra+hadoopCassandradatamodellingCass

nosql - 使用 HBase 和/或 Cassandra 进行搜索(和一般查询)(最佳实践？)

我有一个User模型对象，其中只有很少的字段(属性，如果你愿意的话)。说出“名字”、“姓氏”、“城市”和“出生年份”。每个用户还获得“唯一ID”。我希望能够通过它们进行搜索。我该如何正确地做到这一点？到底该怎么做？我的理解(几乎适用于任何键值存储——先是键，然后是值)u:123456789=serialized_json_object(“u”作为用户key的简单前缀，123456789是“唯一ID”)。现在，考虑到我希望能够按名字和姓氏进行搜索，我可以保存在:f:Steve=u:384734807,u:2398248764,u:23276263f:Alex=u:12324355,u:1

hadoop - 数据存储量 : HDFS vs NoSQL

在Internet上的多个来源中，解释说HDFS旨在处理比NoSQL技术(例如Cassandra)更多的数据。一般来说，当我们超过1TB时，我们必须开始考虑Hadoop(HDFS)而不是NoSQL。除了架构和HDFS支持批处理和大多数NoSQL技术(例如Cassandra)执行随机I/O的事实之外，除了架构设计差异之外，为什么NoSQL解决方案(同样，例如Cassandra)不能处理和HDFS一样多的数据？为什么我们不能使用NoSQL技术作为数据湖？为什么我们应该只将它们用作大数据架构中的热存储解决方案？最佳答案 whycan't

nosql - Hbase性能

我正在使用Spring+DatanucleusJDO+Hbase。Hbase是一个完全分布式的模式，有两个节点。我在这里面临严重的性能问题。我的webapp可以被认为是一个pinger，它只是不断地pingURL并存储他们的响应。Hnce我的应用程序运行多个线程以插入数据库。我观察到，一旦并发写入的数量超过20左右，插入就会开始花费大量时间(有些甚至需要1000秒)。当这种情况发生时，READS也开始失败，我的webapp无法从数据库中提取任何数据(我的webapp挂起)。我不是NoSQL数据库专家，因此不知道从哪里开始寻找性能。我的主要配置是:Zookeeper法定人数:1Hbase

nosql - 单机适合Hadoop和HBase学习吗？

我对使用Hadoop和HBase编写Web服务很感兴趣(我发现我很喜欢与BigData相关的主题)，但我想问你一件事。如果我将它安装在我的PC上，这是否足以学习这些技术的一些基础知识？还是会被限制甚至不能用？最佳答案是的，您可以在普通PC上使用它。它可以作为伪分布式安装在一台机器上，它将多个“服务器”作为单独的进程。请注意，Apache表示Windows安装分布式操作尚未经过充分测试，但如果您正在尝试学习这些技术，那应该不是问题。关于nosql-单机适合Hadoop和HBase学习

nosql - 实时查询/聚合数百万条记录 - hadoop？数据库？ Cassandra ？

我有一个可以并行化的解决方案，但我(还)没有使用hadoop/nosql的经验，而且我不确定哪个解决方案最适合我的需求。理论上，如果我有无限的CPU，我的结果应该会立即返回。因此，任何帮助将不胜感激。谢谢!这是我所拥有的:1000多个数据集数据集键:所有数据集都有相同的键100万个key(以后可能是10或2000万个)数据集列:每个数据集都有相同的列10到20列大多数列是我们需要聚合的数值(avg、stddev，并使用R来计算统计数据)有几列是“type_id”列，因为在特定查询中我们可能只想包含某些type_ids网络应用程序用户可以选择他们感兴趣的数据集(15到1000之间的任何一

nosql - 大规模数据处理 Hbase vs Cassandra

按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭10年前。在研究了大规模数据存储解决方案之后，我差一点就登陆了Cassandra。但普遍认为Hbase是大规模数据处理和分析的更好解决方案。虽然两者都是相同的键/值存储并且都是/可以运行(最近是Cassandra)Hadoop层，但是当需要对大数据进行处理/分析时，是什么让Hadoop成为更好的选择。我还在http://ria101.wordpress.com/2

php - 哪些 php 框架最适合与 Cassandra 等 NoSQL 数据库一起使用？

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭8年前。ImprovethisquestionYii、Laravel、CI和Cakephp是市场上最著名的php框架，我想知道/确认以上所有这些框架是否可以有效地与Cassandra或Mongodb等NoSQL数据库一起工作？我不太清楚，谁能帮我简单理解一下？如果我们使用NoSQL类型的数据库，是否可以执行服务器端验证？

php - 是否有 NoSQL 解决方案的比较(在某些情况下哪个更好？)

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭2年前。Improvethisquestion在Linux/PHP架构中构建基于key的归档应用程序时，我正在尝试了解有关NoSQL的更多信息。任何人都可以解释主要解决方案(CouchDB/MongoDB/等)之间的区别以及每个解决方案的优点/缺点吗？链接会很棒，尽管我很难单独使用Google进行研究。