草庐IT

Cassandra

全部标签

mysql - 对于大型数据集,mongoDB 或 Cassandra 是否比 MySQL 更好?

在我们的(目前是MySQL)数据库中,有超过1.2亿条记录,我们经常使用PHP中涉及数据库的复杂JOIN查询和应用程序级逻辑。我们是一家营销公司,主要关注数据挖掘,因此我们有许多需要每天、每周或每月运行的大型报告。同时,客户服务在同一数据库的复制从属设备上运行。我们希望能够在网络上实时生成这些报告,而不必为它们手动生成电子表格。但是,我们的许多报告需要大量时间来提取数据(在某些情况下,需要一个多小时)。我们不在云端运行,而是选择使用我们服务器机房中的两台物理服务器运行。考虑到这一切,我们最好的数据库选择是什么? 最佳答案 我认为你在

mysql - 对于大型数据集,mongoDB 或 Cassandra 是否比 MySQL 更好?

在我们的(目前是MySQL)数据库中,有超过1.2亿条记录,我们经常使用PHP中涉及数据库的复杂JOIN查询和应用程序级逻辑。我们是一家营销公司,主要关注数据挖掘,因此我们有许多需要每天、每周或每月运行的大型报告。同时,客户服务在同一数据库的复制从属设备上运行。我们希望能够在网络上实时生成这些报告,而不必为它们手动生成电子表格。但是,我们的许多报告需要大量时间来提取数据(在某些情况下,需要一个多小时)。我们不在云端运行,而是选择使用我们服务器机房中的两台物理服务器运行。考虑到这一切,我们最好的数据库选择是什么? 最佳答案 我认为你在

image - 存储数百万张图像

就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter寻求指导。关闭9年前。我需要为数亿张图像准备存储空间(现在我有7000万张,而且这个数字还在增长)。每个图像有大约。20KB。当然,我可以将它们存储在文件系统中,但我害怕inode的数量。我已经测试过MongoDB和Cassandra。两者都有缺点(我的硬盘资源有限):MongoDB-磁盘空间消耗是原始数据大小的3倍Cassandra-磁盘空间消耗与原始数据的大小相似,但C

image - 存储数百万张图像

就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visitthehelpcenter寻求指导。关闭9年前。我需要为数亿张图像准备存储空间(现在我有7000万张,而且这个数字还在增长)。每个图像有大约。20KB。当然,我可以将它们存储在文件系统中,但我害怕inode的数量。我已经测试过MongoDB和Cassandra。两者都有缺点(我的硬盘资源有限):MongoDB-磁盘空间消耗是原始数据大小的3倍Cassandra-磁盘空间消耗与原始数据的大小相似,但C

amazon-web-services - 在 ECS 上部署 Cassandra?

我正在尝试在AWSECS上将Cassandra部署为docker容器。单个节点很容易完成,但现在我正在尝试为它创建一个集群。Cassandra需要固定的IP地址,至少对于种子节点而言,需要将其传递给集群中的所有节点。Cassandra无法使用ELB地址,因为ELB名称解析为与docker主机本身不同的ip。所以基本上我需要能够强制AWS将镜像部署到特定的实例/主机/IP。这样,我可以在运行docker镜像时传递正确的配置。我可以使用RunTaskapi并将其传递给PlacementConstraint,从而根据IP将主机限制为单个主机吗?PrivateIp是此接口(interface)

docker - 如何为包含模式的 cassandra(或任何数据库)创建 Dockerfile?

我想创建一个dockerfile来构建一个Cassandra镜像,该镜像在启动时已经存在一个键空间和架构。一般来说,您如何创建一个Dockerfile来构建一个包含一些在容器运行之前(至少是第一次)才能真正完成的步骤的镜像?现在,我有两个步骤:从现有的cassandraDockerfile构建cassandra镜像,该文件将带有CQL模式文件的卷映射到临时目录,然后在镜像完成后使用cqlsh运行dockerexec以导入模式作为容器启动。但这并不会使用架构创建图像-只是一个容器。该容器可以保存为图像,但这很麻烦。dockerrun--name$CASSANDRA_NAME-d\-h$C

Python 将 Cassandra 数据读入 pandas

将Cassandra数据读入pandas的正确且最快的方法是什么?现在我使用下面的代码,但是速度很慢……importpandasaspdfromcassandra.clusterimportClusterfromcassandra.authimportPlainTextAuthProviderfromcassandra.queryimportdict_factoryauth_provider=PlainTextAuthProvider(username=CASSANDRA_USER,password=CASSANDRA_PASS)cluster=Cluster(contact_poin

python - Python 的最佳 Cassandra 库/包装器?

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题吗?更新问题,以便editingthispost提供事实和引用来回答它.关闭9年前。Improvethisquestion我找到了lazyboy和pycassa-也许还有其他人。我看过很多推荐lazyboy的网站。恕我直言,该项目似乎已死,请参阅https://www.ohloh.net/p/compare?project_0=pycassa&project_1=lazyboy那么,新项目的最佳选择是什么?谢谢。 最佳答案 Cassandra项目现在一直建

json - 使用 NoSQL 数据库对 JSON 数据进行高效且可扩展的存储

我们正在开展一个项目,该项目应收集日志和审计数据并将其存储在数据存储中以用于存档和某些View。我们不太确定哪个数据存储适合我们。我们需要存储小的JSON文档,大约150字节,例如"audit:{timestamp:'86346512',host':'foo',username:'bar',task:'foo',result:0}"或"journal:{timestamp:'86346512',host':'foo',terminalid:1,type='bar',rc=0}"我们预计每天大约100万条条目,大约150MB数据数据将被存储和读取,但不会被修改数据应以有效的方式存储,例如

json - 使用 NoSQL 数据库对 JSON 数据进行高效且可扩展的存储

我们正在开展一个项目,该项目应收集日志和审计数据并将其存储在数据存储中以用于存档和某些View。我们不太确定哪个数据存储适合我们。我们需要存储小的JSON文档,大约150字节,例如"audit:{timestamp:'86346512',host':'foo',username:'bar',task:'foo',result:0}"或"journal:{timestamp:'86346512',host':'foo',terminalid:1,type='bar',rc=0}"我们预计每天大约100万条条目,大约150MB数据数据将被存储和读取,但不会被修改数据应以有效的方式存储,例如