我有一个表,用于存储有关第三方网站访问者 session 的一些基本数据。这是它的结构:
id, site_id, unixtime, unixtime_last, ip_address, uid
有四个索引:id、site_id/unixtime、site_id/ip_address、site_id/uid
我们查询此表的方式有很多种,而且都是特定于 site_id 的。带有 unixtime 的索引用于显示给定日期或时间范围内的访问者列表。其他两个用于查找来自 IP 地址或“uid”(为每个访问者创建的唯一 cookie 值)的所有访问,以及确定这是新访问者还是回访者。
显然,将 site_id 存储在 3 个索引中对于写入速度和存储来说都是低效的,但我认为没有办法解决它,因为我需要能够快速查询给定特定 site_id 的数据。
有什么提高效率的想法吗?
除了一些非常基本的东西外,我不太了解 B 树,但是让索引的最左边的列成为方差最小的列会更有效 - 对吗?因为我考虑过将 site_id 作为 ip_address 和 uid 索引的第二列,但我认为这会使索引效率降低,因为 IP 和 UID 的变化将超过站点 ID,因为我们只有大约 8000每个数据库服务器的唯一站点,但每天有数百万的唯一访问者来自所有约 8000 个站点。
我还考虑过从 IP 和 UID 索引中完全删除 site_id,因为同一位访问者访问共享同一数据库服务器的多个站点的机会非常小,但如果确实发生这种情况,我担心确定这是否是此 site_id 的新访问者可能会很慢。查询将类似于:
select id from sessions where uid = 'value' and site_id = 123 limit 1
... 所以如果这个访问者以前访问过这个站点,它只需要在停止之前找到一行具有这个 site_id 的行。这不一定是超快的,但可以接受的快。但是假设我们有一个每天有 500,000 名访问者的网站,并且某个特定的访问者喜欢这个网站并且每天去那里 10 次。现在他们碰巧第一次访问同一数据库服务器上的另一个站点。上面的查询可能需要相当长的时间来搜索此 UID 的所有可能的数千行,这些行分散在整个磁盘上,因为它找不到与此站点 ID 对应的行。
任何关于使它尽可能高效的见解将不胜感激:)
更新 - 这是 MySQL 5.0 的 MyISAM 表。我关心的是性能和存储空间。这张表读写都很重。如果我必须在性能和存储之间做出选择,我最关心的是性能 - 但两者都很重要。
我们在服务的所有领域都大量使用 memcached,但这不是不关心数据库设计的借口。我希望数据库尽可能高效。
最佳答案
I don't really understand B-trees besides some very basic stuff, but it's more efficient to have the left-most column of an index be the one with the least variance - correct?
您需要了解 B 树索引的一个重要属性:可以(有效地)搜索全键的任意 prefix,但不能搜索 后缀。如果你有一个索引 site_ip(site_id, ip) , 然后你要求 where ip = 1.2.3.4 , MySQL 不会使用 site_ip 索引。如果你有 ip_site(ip, site_id) , 那么 MySQL 就可以使用 ip_site 索引了。
您还应该了解 B 树索引的第二个属性:它们是有序的。 B 树索引可用于类似 where site_id < 40 的查询.
还有一个磁盘驱动器的重要特性需要牢记:顺序读取成本低,寻道成本低。如果使用了任何不在索引中的列,MySQL 必须从表数据中读取该行。这通常是一种寻找,而且速度很慢。因此,如果 MySQL 认为它最终会像这样读取表的一小部分,它就会忽略索引。一次大表扫描(顺序读取)通常比随机读取表中的百分之几的行要快。
顺便说一句,这同样适用于通过索引查找。在 B 树中查找 key 实际上可能需要进行几次查找,因此您会发现 WHERE site_id > 800 AND ip = '1.2.3.4'不能使用 site_ip索引,因为每个 site_id 都需要多个索引来查找该站点的 1.2.3.4 记录的开头。 ip_site但是,将使用索引。
最终,您将不得不自由使用基准测试和 EXPLAIN找出适合您数据库的最佳索引。请记住,您可以根据需要自由添加和删除索引。非唯一索引不是数据模型的一部分;它们只是一种优化。
PS:同样是Benchmark InnoDB,它往往有更好的并发性能。与 PostgreSQL 相同。
关于具有多个索引的表的 mysql 索引优化,这些索引索引了一些相同的列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2588932/
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题
我想安装一个带有一些身份验证的私有(private)Rubygem服务器。我希望能够使用公共(public)Ubuntu服务器托管内部gem。我读到了http://docs.rubygems.org/read/chapter/18.但是那个没有身份验证-如我所见。然后我读到了https://github.com/cwninja/geminabox.但是当我使用基本身份验证(他们在他们的Wiki中有)时,它会提示从我的服务器获取源。所以。如何制作带有身份验证的私有(private)Rubygem服务器?这是不可能的吗?谢谢。编辑:Geminabox问题。我尝试“捆绑”以安装新的gem..
我有多个ActiveRecord子类Item的实例数组,我需要根据最早的事件循环打印。在这种情况下,我需要打印付款和维护日期,如下所示:ItemAmaintenancerequiredin5daysItemBpaymentrequiredin6daysItemApaymentrequiredin7daysItemBmaintenancerequiredin8days我目前有两个查询,用于查找maintenance和payment项目(非排他性查询),并输出如下内容:paymentrequiredin...maintenancerequiredin...有什么方法可以改善上述(丑陋的)代
我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何
我有一个具有一些属性的模型:attr1、attr2和attr3。我需要在不执行回调和验证的情况下更新此属性。我找到了update_column方法,但我想同时更新三个属性。我需要这样的东西:update_columns({attr1:val1,attr2:val2,attr3:val3})代替update_column(attr1,val1)update_column(attr2,val2)update_column(attr3,val3) 最佳答案 您可以使用update_columns(attr1:val1,attr2:val2
我正在尝试修改当前依赖于定义为activeresource的gem:s.add_dependency"activeresource","~>3.0"为了让gem与Rails4一起工作,我需要扩展依赖关系以与activeresource的版本3或4一起工作。我不想简单地添加以下内容,因为它可能会在以后引起问题:s.add_dependency"activeresource",">=3.0"有没有办法指定可接受版本的列表?~>3.0还是~>4.0? 最佳答案 根据thedocumentation,如果你想要3到4之间的所有版本,你可以这
我有一个这样的哈希数组:[{:foo=>2,:date=>Sat,01Sep2014},{:foo2=>2,:date=>Sat,02Sep2014},{:foo3=>3,:date=>Sat,01Sep2014},{:foo4=>4,:date=>Sat,03Sep2014},{:foo5=>5,:date=>Sat,02Sep2014}]如果:date相同,我想合并哈希值。我对上面数组的期望是:[{:foo=>2,:foo3=>3,:date=>Sat,01Sep2014},{:foo2=>2,:foo5=>5:date=>Sat,02Sep2014},{:foo4=>4,:dat
我正在尝试按0-9和a-z的顺序创建数字和字母列表。我有一组值value_array=['0','1','2','3','4','5','6','7','8','9','a','b','光盘','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','','u','v','w','x','y','z']和一个组合列表的数组,按顺序,这些数字可以产生x个字符,比方说三个list_array=[]和一个当前字母和数字组合的数组(在将它插入列表数组之前我会把它变成一个字符串,]current_combo['0','0','0']
是否有可能:before_filter:authenticate_user!||:authenticate_admin! 最佳答案 before_filter:do_authenticationdefdo_authenticationauthenticate_user!||authenticate_admin!end 关于ruby-on-rails-before_filter运行多个方法,我们在StackOverflow上找到一个类似的问题: https://
我正在使用RubyonRails3.0.9,我想生成一个传递一些自定义参数的link_toURL。也就是说,有一个articles_path(www.my_web_site_name.com/articles)我想生成如下内容:link_to'Samplelinktitle',...#HereIshouldimplementthecode#=>'http://www.my_web_site_name.com/articles?param1=value1¶m2=value2&...我如何编写link_to语句“alàRubyonRailsWay”以实现该目的?如果我想通过传递一些