对于 Facebook 应用程序,我必须在我的 MySQL 数据库中存储用户的好友列表。此列表是从我的数据库请求的,与其他数据等进行比较。
目前,我将这个 friend 列表存储在我的用户表中, friend 的 uid 放在一个“文本”字段中,带有“|”作为分隔符。例如:
ID - UID - NAME - FRIENDS => 1 - 123456789 - John Doe - 987654321|123456|765432
我的 PHP 文件请求这一行并通过展开该字段 ('|') 来提取好友列表。这一切都很好,每 1000 个用户大约有 5MB 磁盘空间。
现在的问题:
对于一个额外的功能,我还需要保存用户 friend 的名字。我可以用不同的方式做到这一点:
1) 将此数据保存在一个额外的表中。例如:
ID - UID - NAME => 1 - 1234321 - Jane Doe
如果我需要 ID 为 1234321 的 friend 的名字,我可以从这个表中请求名字。然而,问题是这个表会一直增长,直到 Facebook 上的所有用户都被索引(>5 亿行)。我的虚拟主机不会喜欢这个!这样的表将占用大约 25GB 的磁盘空间。
2) 另一种解决方案是扩展用户表中保存的数据,方法是将名称添加到好友字段中的 UID(使用额外的分隔符,让我们使用',')。例如:
ID - UID - NAME - FRIENDS => 1 - 123456789 - John Doe - 987654321,Mike Jones|123456,Tom Bright|765432,Rick Smith
对于这个解决方案,我必须改变脚本,添加另一个额外的爆炸(',')等。我不确定这将占用多少额外的磁盘空间......但是数据没有得到这样好办!
3) 第三种解决方案可以很好地概览所有数据,但会导致数据库变得庞大。在这个解决方案中,我们创建了一个 friend 表,每条 friend 都有一行。例如:
ID - UID - FRIENDUID => 1 - 123456789 - 54321
ID - UID - FRIENDUID => 3 - 123456789 - 65432
ID - UID - FRIENDUID => 2 - 987654321 - 54321
ID - UID - FRIENDUID => 4 - 987654321 - 65432
如您在此示例中所见,它很好地概述了所有友谊。然而,对于大约 5 亿用户,假设每个用户平均有 300 个好友,这将创建一个包含 1500 亿行的表。我的主机肯定不会喜欢那样...而且我认为这种表会占用大量磁盘空间...
那么...如何解决这个问题呢?您认为在 Facebook 上存储用户的 UID + 好友姓名的最佳方式是什么?如何扩展这种数据?或者,除了上述三种可能性,您还有其他(更好)的解决方案吗?
希望你能帮助我!
最佳答案
If I need the name of the friend with ID 1234321, I can request the name from this table. However, the problem is that this table will keep growing, until all users on Facebook are indexed (>500million rows). My webhost is not going to like this! Such a table will take about 25GB of diskspace.
如果存储您需要的用户名确实需要 25GB,那么它需要 25GB。您不能四处移动数据并期望它变得更小 - 而且表的开销并不那么。相反,您需要专注于仅存储您实际需要的数据。 Facebook 上的每个人 都不太可能使用您的应用程序(如果是,您不应该使用担心 25GB 空间的主机)。 p>
因此,与其为整个 Facebook 建立索引(无论如何这都会很困难),不如存储与实际使用您的应用程序的人及其直接 friend 相关的数据,这是一个小得多的数据集。
您提出的第一个解决方案是正确的方法;它消除了名称存储中的任何潜在冗余。
关于php - 扩展数据、减少加载时间、让我的虚拟主机满意的最佳方式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5096127/
我试图获取一个长度在1到10之间的字符串,并输出将字符串分解为大小为1、2或3的连续子字符串的所有可能方式。例如:输入:123456将整数分割成单个字符,然后继续查找组合。该代码将返回以下所有数组。[1,2,3,4,5,6][12,3,4,5,6][1,23,4,5,6][1,2,34,5,6][1,2,3,45,6][1,2,3,4,56][12,34,5,6][12,3,45,6][12,3,4,56][1,23,45,6][1,2,34,56][1,23,4,56][12,34,56][123,4,5,6][1,234,5,6][1,2,345,6][1,2,3,456][123
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
我正在编写一个包含C扩展的gem。通常当我写一个gem时,我会遵循TDD的过程,我会写一个失败的规范,然后处理代码直到它通过,等等......在“ext/mygem/mygem.c”中我的C扩展和在gemspec的“扩展”中配置的有效extconf.rb,如何运行我的规范并仍然加载我的C扩展?当我更改C代码时,我需要采取哪些步骤来重新编译代码?这可能是个愚蠢的问题,但是从我的gem的开发源代码树中输入“bundleinstall”不会构建任何native扩展。当我手动运行rubyext/mygem/extconf.rb时,我确实得到了一个Makefile(在整个项目的根目录中),然后当
鉴于我有以下迁移:Sequel.migrationdoupdoalter_table:usersdoadd_column:is_admin,:default=>falseend#SequelrunsaDESCRIBEtablestatement,whenthemodelisloaded.#Atthispoint,itdoesnotknowthatusershaveais_adminflag.#Soitfails.@user=User.find(:email=>"admin@fancy-startup.example")@user.is_admin=true@user.save!ende
我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样?我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用,需要1秒才能返回,我有100,000多个页面要访问,所以我试图运行多个线程来解决这个问题。有更好的方法吗?classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("
我已经构建了一些serverspec代码来在多个主机上运行一组测试。问题是当任何测试失败时,测试会在当前主机停止。即使测试失败,我也希望它继续在所有主机上运行。Rakefile:namespace:specdotask:all=>hosts.map{|h|'spec:'+h.split('.')[0]}hosts.eachdo|host|begindesc"Runserverspecto#{host}"RSpec::Core::RakeTask.new(host)do|t|ENV['TARGET_HOST']=hostt.pattern="spec/cfengine3/*_spec.r
我需要检查DateTime是否采用有效的ISO8601格式。喜欢:#iso8601?我检查了ruby是否有特定方法,但没有找到。目前我正在使用date.iso8601==date来检查这个。有什么好的方法吗?编辑解释我的环境,并改变问题的范围。因此,我的项目将使用jsapiFullCalendar,这就是我需要iso8601字符串格式的原因。我想知道更好或正确的方法是什么,以正确的格式将日期保存在数据库中,或者让ActiveRecord完成它们的工作并在我需要时间信息时对其进行操作。 最佳答案 我不太明白你的问题。我假设您想检查
有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳
我有一个存储主机名的Ruby数组server_names。如果我打印出来,它看起来像这样:["hostname.abc.com","hostname2.abc.com","hostname3.abc.com"]相当标准。我想要做的是获取这些服务器的IP(可能将它们存储在另一个变量中)。看起来IPSocket类可以做到这一点,但我不确定如何使用IPSocket类遍历它。如果它只是尝试像这样打印出IP:server_names.eachdo|name|IPSocket::getaddress(name)pnameend它提示我没有提供服务器名称。这是语法问题还是我没有正确使用类?输出:ge
这个问题在这里已经有了答案:Railsformattingdate(4个答案)关闭4年前。我想格式化Time.Now函数以显示YYYY-MM-DDHH:MM:SS而不是:“2018-03-0909:47:19+0000”该函数需要放在时间中.现在功能。require‘roo’require‘roo-xls’require‘byebug’file_name=ARGV.first||“Template.xlsx”excel_file=Roo::Spreadsheet.open(“./#{file_name}“,extension::xlsx)xml=Nokogiri::XML::Build