CASSANDRA_草庐IT

c++ - Cassandra session 线程安全吗？ (使用 cpp 驱动程序)

我正在开发一个多线程应用程序并使用Cassandra作为后端。之前，我为每个子线程创建了一个单独的session，并在线程执行结束前关闭session。但后来我认为这可能是一项昂贵的工作，所以我现在将其设计为在服务器启动时打开一个session，任意数量的客户端都可以使用该session进行查询。问题:我只想知道这是否正确，或者有更好的方法吗？我知道连接池是一种选择，但在这种情况下真的需要吗？最佳答案它在Java驱动程序中肯定是线程安全的，所以我假设C++驱动程序是相同的。我们鼓励您只创建一个session并让您的所有线程都使用

Cassandra：差异B/W文本（VARCHAR）和ASCII

我知道文本和varchar是别叠，它们存储了UTF-8字符串。ASCII呢？除了编码之外，还有什么区别？有尺寸差异吗？当我存储大字符串（〜500kb）时，这两个之间的首选选择是什么？看答案关于这个:如果数据是一段文本，例如Java中的字符串，该字符串在运行时在UTF-16中编码，但是当在Cassandra中使用文本类型序列化时，则使用UTF-8。UTF-16始终每个字符使用2个字节，有时会使用4个字节，但是UTF-8是有效的，并且取决于字符可以长1、2、3或4个字节。这意味着有CPU工作可以序列化此类数据以编码/解码目的。还取决于文本，例如158786464563，数据将以12个字节存储。这意

无法使用CQERL（Erlang-Cassandra驱动程序）创建连接

我正在尝试使用CQERL从ErlangShell连接Cassandra。我用{ok,Client}=cqerl:get_client({}).如文档中所述，创建连接。然后，发生以下错误。**exceptionerror:badargumentinfunctionets:lookup/2calledasets:lookup(cqerl_client_tables,{{{127,0,0,1},9042},[{keyspace,undefined}]})incallfromcqerl_hash:get_table/1有解决方案吗？看答案我猜问题是没有“cqerl_client_tables”的ETS

Spark与Cassandra的集成与数据存储

ApacheSpark和ApacheCassandra是大数据领域中两个重要的工具，用于数据处理和分布式数据存储。本文将深入探讨如何在Spark中集成Cassandra，并演示如何将Spark数据存储到Cassandra中。将提供丰富的示例代码，以帮助大家更好地理解这一集成过程。Spark与Cassandra的基本概念在开始集成之前，首先了解一下Spark和Cassandra的基本概念。ApacheSpark：Spark是一个快速、通用的分布式计算引擎，具有内存计算能力。它提供了高级API，用于大规模数据处理、机器学习、图形处理等任务。Spark的核心概念包括弹性分布式数据集（RDD）、Dat

sql - ETL 管道的数据整合

我目前正计划将一些数据源移动到一个地方进行后验分析。目前我有任何数据源(数据库)，例如:MSSQLMySQLmongodbPostgresCassandra将用于大数据管道中的分析。将任何源迁移到Cassandra集群的最佳方法是什么？最佳答案我强烈建议在此用例中使用NiFi。我可以立即概述的一些好处。内置“处理器”可用于从所有列出的数据源读取数据并写入Cassandra。非常高的吞吐量和低延迟。无需编写大量代码即可快速开发数据采集管道。如果需要，能够在项目后期非常轻松地执行“更改数据捕获”。提供高度并发的模型，开发人员无需担心

hadoop - Cassandra Hadoop map reduce with wide rows ignores slice predicate

我有一个宽行列族，我正在尝试对其运行map缩减作业。CF是按时间顺序排列的事件集合，其中列名本质上是时间戳。我需要针对CF中的特定日期范围运行MR作业。当我在widerow属性设置为false的情况下运行作业时，预期的列切片将传递到映射器类中。但是当我将widerow设置为true时，整个列族都会被处理，而忽略切片谓词。问题是我必须使用widerow支持，因为如果一次加载，切片中的列数会变得非常大并消耗所有内存。我找到了概述问题的这个JIRA任务，但由于“无法重现”而被关闭-https://issues.apache.org/jira/browse/CASSANDRA-4871?pag

hadoop - 热点使用hive插入Cassandra

使用EC2datastaxami评估DSE3.1.3Cassandra.测试设置5xm1.xlarge在一次测试中:4vcpus，15G，4x420G实例店铺。另一个5xhi1.4xlarge:16vcpus，60G，2x1TBSSD实例存储。数据5000多个apache日志文件，约60GB，60MM行。工作流程通过dsehadoopfs-put加载到CFS使用RegexSerDe从CFS加载到Hive。通过键空间日志中的CQL在Cassandra中创建事件表。通过INSERTINTOlogs.event从hive插入Cassandra。总体而言，前两个步骤的性能以及基本查询与其他ha

mongodb - Hbase 数据应该如何才能快速查询响应？

我的情况符合以下规则:一个用户一次只能在一个地点。如果用户A在地点X签到，然后在fieldY，他们不再在fieldX。签到最多只能“持续”3小时。如果用户A在地点X签到然后3小时内什么都没有，他们不再在地点X。数据将使用Kafka和spark-streaming解析到HBase。我想使用HBase，TTL为3小时，版本控制为1，满足上述条件。问题是我很困惑如何在HBase中组织数据以获得更快的查询响应，我应该使用具有field名称或field名称的单个列作为不同的列名称吗？哪个更好，为什么？需要执行的查询是:1.用户A现在在哪里？2.现在X地点有哪些用户？

hadoop - 具有 6 到 7 个节点硬件配置的分布式 Spark 和 HDFS 集群

我计划旋转我的开发集群来为基础设施监控应用程序进行趋势分析，我计划使用Spark来分析故障趋势，并使用Cassandra来存储传入数据和分析数据。考虑从大约25000台机器/服务器(可能是不同服务器上的一组相同应用程序)收集性能矩阵。我期望每台机器的性能矩阵大小为2MB/秒，我计划将其插入具有时间戳、服务器作为主键和应用程序以及一些重要矩阵作为集群键的Cassandra表中。我将在此存储的信息之上运行Spark作业，以进行性能矩阵故障趋势分析。关于这个问题，考虑到上述情况，我需要多少个节点(机器)以及CPU和内存方面的什么配置来启动我的集群。最佳答案

hadoop - 如何使用 hadoop 在 cassandra 中运行字数统计示例？

我可以使用hadoop运行字数统计，现在我想将cassandra与hadoop结合使用。我想在cassandra中运行字数统计示例，但我不明白该怎么做。我通读了示例中的自述文件，但它没有提及如何或何时启动hadoop。我有点困惑。我怎样才能做到这一点？逐步解释会很有帮助。问候，最佳答案我做过一次并在这里做了一些笔记http://blog.alvazan.com/165/how-to-set-up-the-cassandra-wordcount-example/ 关于hadoop-如何