我有一个大约有 14 亿条记录的表,格式如下:
mysql> describe _2009all; +---------------+--------------+------+-----+---------+-------+ | Field | Type | Null | Key | Default | Extra | +---------------+--------------+------+-----+---------+-------+ | userId | int(11) | YES | MUL | NULL | | | type | varchar(50) | YES | | NULL | | | kind | varchar(50) | YES | | NULL | | | description | varchar(255) | YES | | NULL | | | bundleVersion | varchar(255) | YES | | NULL | | | bundleId | varchar(255) | YES | | NULL | | | time | bigint(20) | YES | | NULL | | +---------------+--------------+------+-----+---------+-------+ 7 rows in set (0.02 sec)
整个数据库占用不到 0.4 TB,我有大约 1.5 TB 的可用磁盘空间。
我正在尝试准备数据以供分析,我会查看每个用户在一段时间内所做的事情。所以我运行以下语句:
create table sorted2009 AS (select * from _2009all order by userid,time);
该语句(显然)需要很长时间才能运行,但在某些时候,它会耗尽所有可用磁盘空间并且我收到“错误 3 (HY000):写入文件时出错”错误。
关于如何创建排序表的任何想法?提前致谢。
澄清
Martin:只有 1 个分区。
Andy:我要解决的问题是“select * from _2009all order by userid,time”的结果是我将在接下来的几个月里经常检查的内容。因此,我不想在每次要检查结果时都运行此查询,而是想将结果放在一个表中以便更快地访问。
我最初认为随着时间的推移建立索引会浪费空间,因为时间戳大多是唯一的。但是我只是给_2009all中的time字段加了一个索引,索引占用的空间还是比较合理的。但是现在要对两个索引进行排序(我假设您所说的“索引遍历”是什么意思):
mysql> select * from _2009all order by userId,time limit 2; ... 2 rows in set (25 min 36.48 sec)
是的,我认为 25 分钟太长了。但是,如果您的建议另有所指,我愿意接受其他选择。
bot43:
将索引添加到时间字段后:
mysql> explain select * from _2009all order by userid,time; +----+-------------+----------+------+---------------+------+---------+------+------------+----------------+ | id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra | +----+-------------+----------+------+---------------+------+---------+------+------------+----------------+ | 1 | SIMPLE | _2009all | ALL | NULL | NULL | NULL | NULL | 1384378798 | Using filesort | +----+-------------+----------+------+---------------+------+---------+------+------------+----------------+ 1 row in set (0.05 sec) mysql> explain select userId,type,kind,description,bundleVersion,bundleId,time from _2009all order by userid,time +----+-------------+----------+------+---------------+------+---------+------+------------+----------------+ | id | select_type | table | type | possible_keys | key | key_len | ref | rows | Extra | +----+-------------+----------+------+---------------+------+---------+------+------------+----------------+ | 1 | SIMPLE | _2009all | ALL | NULL | NULL | NULL | NULL | 1384378798 | Using filesort | +----+-------------+----------+------+---------------+------+---------+------+------------+----------------+ 1 row in set (0.00 sec)
关于 DBMS 以任何该死的方式存储表的好处。我想我需要另一种解决方案。
最佳答案
你的表上有哪些索引?
你不能放一个composite index吗?在两列上?
ALTER TABLE `_2009all` ADD INDEX ( `userId` , `time` ) ;
关于MySQL 在排序期间耗尽 1.5TB 的磁盘空间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3908557/
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co
我们目前正在为ROR3.2开发自定义cms引擎。在这个过程中,我们希望成为我们的rails应用程序中的一等公民的几个类类型起源,这意味着它们应该驻留在应用程序的app文件夹下,它是插件。目前我们有以下类型:数据源数据类型查看我在app文件夹下创建了多个目录来保存这些:应用/数据源应用/数据类型应用/View更多类型将随之而来,我有点担心应用程序文件夹被这么多目录污染。因此,我想将它们移动到一个子目录/模块中,该子目录/模块包含cms定义的所有类型。所有类都应位于MyCms命名空间内,目录布局应如下所示:应用程序/my_cms/data_source应用程序/my_cms/data_ty
我需要用任何语言编写一个算法,根据3个因素对数组进行排序。我以度假村为例(如Hipmunk)。假设我想去度假。我想要最便宜的地方、最好的评论和最多的景点。但是,显然我找不到在所有3个中都排名第一的方法。Example(assumingthereare20importantattractions):ResortA:$150/night...98/100infavorablereviews...18of20attractionsResortB:$99/night...85/100infavorablereviews...12of20attractionsResortC:$120/night
我正在尝试按Rails相关模型中的字段进行排序。我研究的所有解决方案都没有解决如果相关模型被另一个参数过滤?元素模型classItem相关模型:classPriority我正在使用where子句检索项目:@items=Item.where('company_id=?andapproved=?',@company.id,true).all我需要按相关表格中的“位置”列进行排序。问题在于,在优先级模型中,一个项目可能会被多家公司列出。因此,这些职位取决于他们拥有的company_id。当我显示项目时,它是针对一个公司的,按公司内的职位排序。完成此任务的正确方法是什么?感谢您的帮助。PS-我
我看到其他人也遇到过类似的问题,但没有一个解决方案对我有用。0.3.14gem与其他gem文件一起存在。我已经完全按照此处指示完成了所有操作:https://github.com/brianmario/mysql2.我仍然得到以下信息。我不知道为什么安装程序指示它找不到include目录,因为我已经检查过它存在。thread.h文件存在,但不在ruby目录中。相反,它在这里:C:\RailsInstaller\DevKit\lib\perl5\5.8\msys\CORE\我正在运行Windows7并尝试在Aptana3中构建我的Rails项目。我的Ruby是1.9.3。$gemin
我正在构建一个小部件来显示奥运会的奖牌数。我有一个“国家”对象的集合,其中每个对象都有一个“名称”属性,以及奖牌计数的“金”、“银”、“铜”。列表应该排序:1.首先是奖牌总数2.如果奖牌相同,按类型分割(金>银>铜,即2金>1金+1银)3.如果奖牌和类型相同,则按字母顺序子排序我正在用ruby做这件事,但我想语言并不重要。我确实找到了一个解决方案,但如果感觉必须有更优雅的方法来实现它。这是我做的:使用加权奖牌总数创建一个虚拟属性。因此,如果他们有2个金牌和1个银牌,加权总数将为“3.020100”。1金1银1铜为“3.010101”由于我们希望将奖牌数排序为最高的,因此列表按降序排
我已经开始使用mysql2gem。我试图弄清楚一些基本的事情——其中之一是如何明确地执行事务(对于批处理操作,比如多个INSERT/UPDATE查询)。在旧的ruby-mysql中,这是我的方法:client=Mysql.real_connect(...)inserts=["INSERTINTO...","UPDATE..WHEREid=..",#etc]client.autocommit(false)inserts.eachdo|ins|beginclient.query(ins)rescue#handleerrorsorabortentirelyendendclient.commi
例如,假设我有一个名为Products的模型,并且在ProductsController中,我有以下代码用于product_listView以显示已排序的产品。@products=Product.order(params[:order_by])让我们想象一下,在product_listView中,用户可以使用下拉菜单按价格、评级、重量等进行排序。数据库中的产品不会经常更改。我很难理解的是,每次用户选择新的order_by过滤器时,rails是否必须查询,或者rails是否能够以某种方式缓存事件记录以在服务器端重新排序?有没有一种方法可以编写它,以便在用户排序时rails不会重新查询结果
我构建了一个简单的银行应用程序,它能够执行通常的操作;充值、提现等我的Controller方法执行这些操作并拯救由帐户或其他实体引发的异常。以下是Controller代码中使用的一些方法:defopen(type,with:)account=createtype,(holders.findwith)addaccountinit_yearly_interest_foraccountboundary.renderAccountSuccessMessage.new(account)rescueItemExistError=>messageboundary.rendermessageendde
我有一个允许更新用户记录的表单。它包含:password和:password_confirmation字段,但我不希望在数据库中已存储加密密码时对它们运行验证。View文件中的字段:'ConfirmPassword'%>在互联网上搜索时,我发现了这段代码,我认为它是针对以前版本的Ruby/Rails的。(我会把它放在我的用户模型中。)validates_presence_of:password,:on=>create由于我的用户模型中密码验证的语法不同(如下),我对我需要的语法感到困惑。validates:password,:presence=>true,:confirmation=>