草庐IT

xml - 为什么XPath构造不干净?为什么谓词不需要text()?

coder 2024-06-29 原文

假设我有:

<A>
  <B>C</B>
  <D>E</D>
</A>

然后我可以输出b元素(包括标记),其中:
//B

会回来的
<B>C</B>

但是为什么谓词中不需要text()呢?以下两行给出相同的输出:
/A[B = 'C']/D
/A[B/text() = 'C']/D

如果xpath是干净构建的,我希望它是(或者是某种其他元素结构):
/A[B = <B>C></B>]/D

还有:
/A[B/text()='C']/D

有人能告诉我为什么输出需要text()而谓词不需要它吗?

最佳答案

我认为这是一个合理而自然的问题。我宁愿看到人们问这样的概念性问题,理解xpath是如何工作的,而不是满足于对xpath的肤浅理解,最后问一些肤浅的问题,为什么他们的xpath表达式在从某个web页面抓取数据时没有达到预期的效果。
我们先弄清楚一些条件。我认为“output”的意思与“return”相同:xpath表达式选择的值。(xpath本身没有直接输出功能。)
所谓“干净的结构”,我想你的意思是“简单而一致的设计”。
简而言之,xpath是一致的,但和大多数灵活而强大的工具一样,它并不简单。
接下来,我们可能需要询问您正在考虑哪个版本的xpath。版本1、2和3之间有很大的差异。我将重点介绍xpath 1.0,因为它是最著名和最广泛实现的,我也不知道是2.0还是3.0。
无论是否在谓词中,B都意味着相同的东西。在//B/A[B = 'C']中,都是anode test。它匹配(选择)名为B的元素节点。xpath对标记一无所知。它在抽象树文档模型上操作。xpath表达式可以选择元素和其他节点,但不能选择标记。
因此,我认为您的问题可以归结为,当/A[B = 'C']/D选择一个元素而不仅仅是文本时,D为什么在您提供的xml示例中成功地选择了B元素?为了进一步减少,为什么当'C'是元素而不仅仅是包含B = 'C'的文本节点时,A对元素B求值为true?
答案是,when performing comparisons例如'C'
如果要比较的一个对象是节点集,而另一个是字符串,
如果且仅当
节点集,以便在
节点和另一个字符串的字符串值为true[添加了强调]。
换句话说,如果=有多个子元素名为B,子表达式/A可以在这里选择多个元素节点。(在本例中,只有一个这样的子元素)要计算表达式B,xpath将查看由B = 'C'选择的每个节点的字符串值。According to the docs
元素节点的字符串值是按文档顺序连接元素节点的所有文本节点子体的字符串值。
在本例中,B元素节点的唯一文本节点后代是字符串值为B的文本节点。因此'C'的字符串值为B,因此元素'C'的谓词为true。
xpath为什么要这样定义元素节点的字符串值?我猜这部分是因为单个文本节点的便利性,但是当涉及到自由形式的标记文本时,比如

<p>HTML that <em>could</em> have <b>arbitrary <tt>nesting</tt></b></p>

有时出于某些目的您希望忽略其标记,快速检索所有子代文本节点的连接可能非常方便。
你问题的另一部分是,你为什么不写
/A[B = <B>C</B>]/D


/A[B/text()='C']/D

第二个答案最短:你可以。它只是不那么方便,也不那么强大,但它更加明确和精确。它不会一直给您相同的结果,因为这个版本不询问[B = 'C']的字符串值;它询问(any)/A是否有任何值为B的文本节点子节点,而不是询问任何B是否有产生'C'的所有子代文本节点的连接。
至于B,xpath(至少1.0)的设计没有使用创建新节点的语法,例如'C'。但即使是,那又意味着什么呢?很明显,你要求的不是同一性比较,而是一种结构对等。xpath定义者必须创建一个比较语义,其中两个节点集之间或节点集与新定义的类型(如“structural template”)之间的比较,如果且仅当(例如)第一个节点集中存在递归匹配结构模板结构的节点,或第二个节点集中存在递归匹配结构模板结构的节点时,才为true。但事实上,
如果要比较的两个对象都是节点集,则只有当且仅当第一个节点集中有一个节点和第二个节点集中有一个节点时,比较才为真,以便对两个节点的字符串值执行比较的结果为真。
考虑到他们只能选择两个定义中的一个来比较节点集,为什么他们选择后者而不是您期望的定义?我不了解xpath委员会的工作流程,但我怀疑,归根结底,后者的定义更符合他们分析过的最常见的用例,同时考虑到了性能和实现的简单性。
我同意这个定义并不是定义/A[B = <B>C</B>]/D比较的最明显的方式。但是我认为设计人员是对的,比较整个节点树结构并不是一个很常见的用例,而xpath提供的工具很好地涵盖了常见的用例(比如您给出的用例)。例如,在xpath中,询问是否有一个<B>C</B>元素是根节点的子元素,是否有一个B = <B>C</B>子元素,其文本值(暂时忽略所有子标记)是=

关于xml - 为什么XPath构造不干净?为什么谓词不需要text()?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38195275/

有关xml - 为什么XPath构造不干净?为什么谓词不需要text()?的更多相关文章

  1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

    我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

  2. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

    类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

  3. ruby-on-rails - Rails - 子类化模型的设计模式是什么? - 2

    我有一个模型:classItem项目有一个属性“商店”基于存储的值,我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式?如果方法中没有大的if-else语句,这是如何干净利落地完成的? 最佳答案 通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co

  4. ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby​​ 中生成它们? - 2

    我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%

  5. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  6. ruby - 为什么 4.1%2 使用 Ruby 返回 0.0999999999999996?但是 4.2%2==0.2 - 2

    为什么4.1%2返回0.0999999999999996?但是4.2%2==0.2。 最佳答案 参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意,这不是与Ruby相关的问题,而是与所有编程语言相关的问题,因为它来自计算机表示实数的方式。 关于ruby-为什么4.1%2使用Ruby返

  7. ruby-on-rails - 如何从 format.xml 中删除 <hash></hash> - 2

    我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据,就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理?我没有在文档中找到任何内容。 最佳答案 我遇到了同样的问题;这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML,但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中,将我的XML代码修改为

  8. ruby - ruby 中的 TOPLEVEL_BINDING 是什么? - 2

    它不等于主线程的binding,这个toplevel作用域是什么?此作用域与主线程中的binding有何不同?>ruby-e'putsTOPLEVEL_BINDING===binding'false 最佳答案 事实是,TOPLEVEL_BINDING始终引用Binding的预定义全局实例,而Kernel#binding创建的新实例>Binding每次封装当前执行上下文。在顶层,它们都包含相同的绑定(bind),但它们不是同一个对象,您无法使用==或===测试它们的绑定(bind)相等性。putsTOPLEVEL_BINDINGput

  9. ruby - Infinity 和 NaN 的类型是什么? - 2

    我可以得到Infinity和NaNn=9.0/0#=>Infinityn.class#=>Floatm=0/0.0#=>NaNm.class#=>Float但是当我想直接访问Infinity或NaN时:Infinity#=>uninitializedconstantInfinity(NameError)NaN#=>uninitializedconstantNaN(NameError)什么是Infinity和NaN?它们是对象、关键字还是其他东西? 最佳答案 您看到打印为Infinity和NaN的只是Float类的两个特殊实例的字符串

  10. ruby-on-rails - 如果 Object::try 被发送到一个 nil 对象,为什么它会起作用? - 2

    如果您尝试在Ruby中的nil对象上调用方法,则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而,有一个tryRails中的方法,如果它被发送到一个nil对象,它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常? 最佳答案 像Ruby中的所有其他对象

随机推荐