xml - 计算 XQuery 中多个值出现次数的最有效方法

coder 2024-06-26 原文

我需要在荷兰语 XML 语料库(5 亿个单词)中查找 1581 个单词。这个语料库本身被分成许多数据库。 (您可以阅读为什么 here。)我们使用 BaseX 作为服务器(7.9 版)，它使用 XQuery 作为输入。

我有兴趣找出每个单词在语料库中有多少次带有中性限定词 (het) 或非中性限定词 (de) - 这是通过寻找由 NP(名词短语)组成的 XPath 结构来完成，NP(名词短语)有两个女儿，即具有引理 de 或 het 的限定词，以及一个中心词，它是我感兴趣的词。

de 的示例结构

/node[@cat="np" and node[@rel="det" and @pt="lid" and @lemma="de"] and node[@rel="hd" and @pt="n" and @word="accelerator"]]
/node[@cat="np" and node[@rel="det" and @pt="lid" and @lemma="de"] and node[@rel="hd" and @pt="n" and @word="accountant"]]
/node[@cat="np" and node[@rel="det" and @pt="lid" and @lemma="de"] and node[@rel="hd" and @pt="n" and @word="ace"]]
/node[@cat="np" and node[@rel="det" and @pt="lid" and @lemma="de"] and node[@rel="hd" and @pt="n" and @word="acroniem"]]

het 的示例结构

/node[@cat="np" and node[@rel="det" and @pt="lid" and @lemma="het"] and node[@rel="hd" and @pt="n" and @word="accelerator"]]
/node[@cat="np" and node[@rel="det" and @pt="lid" and @lemma="het"] and node[@rel="hd" and @pt="n" and @word="accountant"]]
/node[@cat="np" and node[@rel="det" and @pt="lid" and @lemma="het"] and node[@rel="hd" and @pt="n" and @word="ace"]]
/node[@cat="np" and node[@rel="det" and @pt="lid" and @lemma="het"] and node[@rel="hd" and @pt="n" and @word="acroniem"]]

在 XQuery 中，对于每个 XPath 结构，我会这样做:

count(for $node in db:open("mydatabase")/treebank/tree/node[@cat="np" and node[@rel="det" and @pt="lid" and @lemma="het"] and node[@rel="hd" and @pt="n" and @word="accelerator"]] return $node)

这很好用。问题是，这需要很长时间。每次都需要依次打开相同的(数千个)数据库，并针对每个单词重复此过程。我的问题是，没有办法连接一些查询。我有一些想法，但我不确定如何执行它们 - 而且，我不确定 BaseX 可以处理多少参数。

合并 de 和 het 查询。

这可能是最直接的案例。通过这样做，我至少将查询需求减少了一半。但是我不知道在找到结果时如何区分两者。例如，如果我将我的 XPath 代码更改为:

... (@lemma="de" or @lemma="het") ...

我应该找到所有的情况，但是我怎么能区分一个或另一个呢？换句话说，如果我使用该 XPath，我将从 XQuery 中的计数函数返回一个数字，但我无法知道哪些是de 哪些是the?

同样的想法可以应用到靠近结尾的单词属性

我可以按如下方式连接它们，而不是对每个单词执行新查询:

... (@word="accelerator" or @word="accountant" or @word="ace" or ...) ...

但是，我又该如何区分这些值呢？我可以将所有 1581 个值放在一个 XPath 中吗？ BaseX 可以处理吗？

带有单词列表的 for 循环，然后以 XML 格式返回大量单词的结果(如果 BaseX 可以处理的话，可能是全部)。

我不是 XQuery 方面的专家，但在伪代码方面我想这样的事情是可能的:

$wordlist = ['accelerator', 'accountant', 'ace', 'acroniem'];
$determinerlist = ['de', 'het'];
$db = 'mydatabase';
foreach ($wordlist as $word) {
  foreach ($determinerlist as $det) {
    count(for $node in db:open("'.$db.'")/treebank/tree/node[@cat="np" and node[@rel="det" and @pt="lid" and @lemma="'.$det.'"] and node[@rel="hd" and @pt="n" and @word="'.$word.'"]] return $node);
  }
}

我不确定如何在 XQuery 中将计数分配给数组变量，如果可能的话，但 XML 输出可能如下所示(当然欢迎更好的变化):

<results>
  <result word="accelerator">
    <neuter>12</neuter>
    <nonneuter>3</nonneuter>
  </result>
  <result word="accountant">
    <neuter>4</neuter>
    <nonneuter>0</nonneuter>
  </result>
  <result word="ace">
    <neuter>14</neuter>
    <nonneuter>2</nonneuter>
  </result>
  <result word="acroniem">
    <neuter>3</neuter>
    <nonneuter>7</nonneuter>
  </result>
</results>

然后我可以使用带有正则表达式或 XML twig 的 Perl 来运行它以获得我需要的值。

如您所见，可能的问题是找到合适的高效 XQuery 代码，并且考虑到我有 1581 个单词要在庞大的语料库中查找，而且要遍历的数据库数量很多以及(千)。对于每个数据库查找，都会通过 Perl 建立一个新连接。

如有任何问题，请发表评论，我会尽力解答。

最佳答案

一般来说，如果您利用索引而不是让您的查询遍历一万亿个节点，BaseX 查询将是最快的(通常快得令人眼花缭乱)。 BaseX 默认为您创建 TEXT、ATTRIBUTE 和 TOKEN 索引，除非您修改了默认的 DB 创建选项。 (BaseX 还尝试重写查询以利用索引 - 尽管这并不总是成功)。

因此假设您的数据库是使用 ATTRIBUTE 索引构建的，您应该能够按照这些行重写查询:

db:attribute('dbname', 'accelerator', 'word')/parent::*

上面使用的 db:attribute 函数将为数据库 'dbname' 返回任何属性的父元素，其中 'accelerator' 作为 @word 的值。显然，根据您之前的示例，您可以根据需要尽可能多地断言此查询，就像这样:

db:attribute('dbname', 'accelerator', 'word')
      [parent::node[@rel="hd" and @pt="n"]]
      [ancestor::node
        [@cat="np"]
        [child::node[@rel="det" and @pt="lid" and @lemma="het"]
      ]
    ]

这是关于 BaseX 索引功能的很好的文档。我用它对大型(> 20 GB)数据库的速度查询产生了很大的影响。

http://docs.basex.org/wiki/Indexes

关于xml - 计算 XQuery 中多个值出现次数的最有效方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38056743/

XQuery xml 34 and node perl xpath basex

有关xml - 计算 XQuery 中多个值出现次数的最有效方法的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby - Facter::Util::Uptime:Module 的未定义方法 get_uptime (NoMethodError) - 2
我正在尝试设置一个puppet节点，但rubygems似乎不正常。如果我通过它自己的二进制文件(/usr/lib/ruby/gems/1.8/gems/facter-1.5.8/bin/facter)在cli上运行facter，它工作正常，但如果我通过由rubygems(/usr/bin/facter)安装的二进制文件，它抛出:/usr/lib/ruby/1.8/facter/uptime.rb:11:undefinedmethod`get_uptime'forFacter::Util::Uptime:Module(NoMethodError)from/usr/lib/ruby
ruby-on-rails - Rails 3 中的多个路由文件 - 2
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情？最佳答案在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中，使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件，我们在StackOverflow上找到一个类似的问题
ruby-on-rails - 在 Ruby 中循环遍历多个数组 - 2
我有多个ActiveRecord子类Item的实例数组，我需要根据最早的事件循环打印。在这种情况下，我需要打印付款和维护日期，如下所示:ItemAmaintenancerequiredin5daysItemBpaymentrequiredin6daysItemApaymentrequiredin7daysItemBmaintenancerequiredin8days我目前有两个查询，用于查找maintenance和payment项目(非排他性查询)，并输出如下内容:paymentrequiredin...maintenancerequiredin...有什么方法可以改善上述(丑陋的)代
Ruby 方法() 方法 - 2
我想了解Ruby方法methods()是如何工作的。我尝试使用“ruby方法”在Google上搜索，但这不是我需要的。我也看过ruby-doc.org，但我没有找到这种方法。你能详细解释一下它是如何工作的或者给我一个链接吗？更新我用methods()方法做了实验，得到了这样的结果:'labrat'代码classFirstdeffirst_instance_mymethodenddefself.first_class_mymethodendendclassSecond使用类#returnsavailablemethodslistforclassandancestorsputsSeco
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - 如何从 format.xml 中删除 <hash></hash> - 2
我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据，就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理？我没有在文档中找到任何内容。最佳答案我遇到了同样的问题；这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML，但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中，将我的XML代码修改为
ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2
我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他，以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时，出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer

xml - 计算 XQuery 中多个值出现次数的最有效方法

有关xml - 计算 XQuery 中多个值出现次数的最有效方法的更多相关文章

随机推荐