草庐IT

ruby-on-rails - 这是在使用 dbpedia 和 SPARQL 的 Rails 应用程序中实现搜索功能的好方法吗?有一个更好的方法吗?

coder 2023-10-31 原文

我正在尝试使用 Ruby on Rails 3 组合一个“电影搜索”应用程序。我正在使用 SPARQL(RDF 和 sparql/client)从 dbpedia 中提取数据。我希望潜在用户能够搜索电影、查看结果,然后单击以查看我为该电影生成的包含更多信息(来自 dbpedia 和我自己的本地数据库)的页面。

这是我第一次使用庞大的数据集和 SPARQL,我注意到它非常慢,我想这也无济于事。不过,我仍然非常想将它用作数据源。

我的 Rails 应用程序设置为使用 MongoDB,所以我想我可以利用它来缓存一些 DBPedia 数据,这样用户就不需要每次都等待查询。但是,我坚持使用实现此类功能的最佳方法。我目前的想法是这样的:

在第一次搜索时,我将每个结果的详细信息存储在我的本地数据库中(可能是基本的电影信息,例如标题、概述、年份、备用标题)

当用户进行搜索时,会发生以下情况:

  1. 在我的本地数据库上运行搜索查询以获取相关的存储电影(很可能只搜索标题和概述)。如果电影在过去 X 天内没有从 dbpedia 更新,我不会收录它。
  2. 快速向用户显示那些相关的本地结果并列出这些电影。
  3. 当用户查看存储的结果时,会查询 dbpedia。根据这个查询结果,我创建了一个来自 DBpedia 的相关结果列表。
  4. 我从 dbpedia 查询结果集中删除了已在初始本地结果集中的所有电影,以防止用户看到重复的结果。
  5. 我在本地结果下方显示剩余的 dbpedia 查询结果,并将每个新的未存储结果保存在我的本地数据库中(包括 last_updated 时间,并根据需要更新任何现有的本地项目)。
  6. 当用户点击进入电影页面时,来自 dbpedia 的基本信息和我存储的额外信息已经存储在本地,可以在页面上快速拉出,但更高级的信息(导演、语言、位置、链接到相关站点)在加载时从 dbpedia 查询。当检索到新信息时,我会在不同部分显示加载对话框等。

我正在考虑做类似上面的事情,这样用户可以快速看到一些结果,同时剩余的结果从 dbpedia 加载,我存储了一些东西但不是疯狂的数量。

但我想就这是否现实以及这是否是一个好主意获得一些帮助。我可以想象,首先搜索我的本地数据库可能会使用户的初始结果偏向之前搜索过的内容,并且如果他们特别想要的电影(例如,如果他们输入标题)在它可能进一步显示之前没有被搜索在列表中。只在本地存储相关数据集(即所有电影)的副本并根据需要更新它是否更有意义?那会太多了,对吧?

无论如何,我真的很感激一些建议,这些建议可以让用户尽可能无缝地使用,同时仍然保持在理智的范围内。提前致谢!

编辑:这是我目前正在使用的测试搜索查询的代码。我以为我正在使它成为测试的 super super 基础......但它超时了很多

query = "
    PREFIX owl: <http://www.w3.org/2002/07/owl#>
    PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>
    PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
    PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
    PREFIX foaf: <http://xmlns.com/foaf/0.1/>
    PREFIX dc: <http://purl.org/dc/elements/1.1/>
    PREFIX : <http://dbpedia.org/resource/>
    PREFIX dbpedia2: <http://dbpedia.org/property/>
    PREFIX dbpedia: <http://dbpedia.org/>
    PREFIX skos: <http://www.w3.org/2004/02/skos/core#>
    PREFIX dbo: <http://dbpedia.org/ontology/>

    SELECT ?subject ?label ?abstract ?runtime ?date ?name WHERE {
    {?subject rdf:type <http://dbpedia.org/ontology/Film>}
    UNION
    {?subject rdf:type <http://dbpedia.org/ontology/TelevisionShow>}.
    OPTIONAL {?subject dbo:runtime ?runtime}.
    OPTIONAL {?subject dbo:releaseDate ?date}.
    OPTIONAL {?subject foaf:name ?name}.
    ?subject rdfs:comment ?abstract.
    ?subject rdfs:label ?label.
    FILTER((lang(?abstract) = 'en') && (lang(?label) = 'en') && REGEX(?label, '" + str + "')).

    }
    LIMIT 30
"
 result = {}
 client = SPARQL::Client.new("http://dbpedia.org/sparql")
 result = client.query(query).each_binding  { |name, value| puts value.inspect }
 return result

最佳答案

您用来查询 dbpeid 的 SPARQL 查询是什么?。应该可以优化它以提高性能。您还应该能够使用类别 URI 进行过滤。此外,您应该能够使用 OFFSET 和 LIMIT 预测来减少结果的数量。如果您正在使用全文搜索,那么您也可以考虑使用 Virtuoso Specific 'bif:contains' 属性,因为它比正则表达式过滤器要快一些,但有非标准/Virtuoso 特定的缺点。此外,您还可以使用 HTTP 缓存来改进后续搜索结果(不出所料,SPARQL 协议(protocol)在 HTTP 上运行)。

除此之外,您可以尝试简单地使用您自己的三元存储,并每晚将来自 dbpedia 的电影加载到其中,而不是将内容放入 mongo db。

根据提供的查询进行编辑

只要通过反复试验就可以了,以下模式会导致大问题:

    ?subject rdfs:comment ?abstract.
    ?subject rdfs:label ?label.
    FILTER((lang(?abstract) = 'en') && (lang(?label) = 'en') && REGEX(?label, '" + str + "')).

过滤器可能很慢,但即使没有过滤器,查询也会超时。我会更关心 OPTIONAL 子句(OPTIONAL 可能很慢)。试试吧。您可能需要对摘要和标签运行单独的查询。

关于ruby-on-rails - 这是在使用 dbpedia 和 SPARQL 的 Rails 应用程序中实现搜索功能的好方法吗?有一个更好的方法吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9058502/

有关ruby-on-rails - 这是在使用 dbpedia 和 SPARQL 的 Rails 应用程序中实现搜索功能的好方法吗?有一个更好的方法吗?的更多相关文章

  1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

    我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

  2. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

    总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

  3. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

    类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

  4. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

    很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

  5. ruby-on-rails - rails : keeping DRY with ActiveRecord models that share similar complex attributes - 2

    这似乎应该有一个直截了当的答案,但在Google上花了很多时间,所以我找不到它。这可能是缺少正确关键字的情况。在我的RoR应用程序中,我有几个模型共享一种特定类型的字符串属性,该属性具有特殊验证和其他功能。我能想到的最接近的类似示例是表示URL的字符串。这会导致模型中出现大量重复(甚至单元测试中会出现更多重复),但我不确定如何让它更DRY。我能想到几个可能的方向...按照“validates_url_format_of”插件,但这只会让验证干给这个特殊的字符串它自己的模型,但这看起来很像重溶液为这个特殊的字符串创建一个ruby​​类,但是我如何得到ActiveRecord关联这个类模型

  6. ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2

    我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,

  7. ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2

    作为我的Rails应用程序的一部分,我编写了一个小导入程序,它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是,与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存,我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关,因为当我删除对LDAP内容的调用时,内存使用情况会很好地稳定下来。此外,不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray,它们都是LDAP库的一部分。当我运行导入时,内存使用量最终达到超过1GB的峰值。如果问题存在,我需要找到一些方法来更正我的代

  8. ruby-on-rails - unicode 字符串的长度 - 2

    在我的Rails(2.3,Ruby1.8.7)应用程序中,我需要将字符串截断到一定长度。该字符串是unicode,在控制台中运行测试时,例如'א'.length,我意识到返回了双倍长度。我想要一个与编码无关的长度,以便对unicode字符串或latin1编码字符串进行相同的截断。我已经了解了Ruby的大部分unicode资料,但仍然有些一头雾水。应该如何解决这个问题? 最佳答案 Rails有一个返回多字节字符的mb_chars方法。试试unicode_string.mb_chars.slice(0,50)

  9. ruby - Facter::Util::Uptime:Module 的未定义方法 get_uptime (NoMethodError) - 2

    我正在尝试设置一个puppet节点,但ruby​​gems似乎不正常。如果我通过它自己的二进制文件(/usr/lib/ruby/gems/1.8/gems/facter-1.5.8/bin/facter)在cli上运行facter,它工作正常,但如果我通过由ruby​​gems(/usr/bin/facter)安装的二进制文件,它抛出:/usr/lib/ruby/1.8/facter/uptime.rb:11:undefinedmethod`get_uptime'forFacter::Util::Uptime:Module(NoMethodError)from/usr/lib/ruby

  10. ruby-on-rails - Ruby on Rails 迁移,将表更改为 MyISAM - 2

    如何正确创建Rails迁移,以便将表更改为MySQL中的MyISAM?目前是InnoDB。运行原始执行语句会更改表,但它不会更新db/schema.rb,因此当在测试环境中重新创建表时,它会返回到InnoDB并且我的全文搜索失败。我如何着手更改/添加迁移,以便将现有表修改为MyISAM并更新schema.rb,以便我的数据库和相应的测试数据库得到相应更新? 最佳答案 我没有找到执行此操作的好方法。您可以像有人建议的那样更改您的schema.rb,然后运行:rakedb:schema:load,但是,这将覆盖您的数据。我的做法是(假设

随机推荐