草庐IT

python - 使用 Selenium Webdriver 和 Python 从 XPath 中提取链接?

我是SeleniunWebDriver和Python的新手,我的问题可能比较基础。所以,我有以下HTML代码:Account并且我正在尝试从中提取href,作为XPath的手段,知道它的XPath是".//*[@id='toplevel_page_menu']/ul/li[2]/a".我该怎么做?driver.find_element_by_xpath(".//*[@id='toplevel_page_menu']/ul/li[2]/a").link或driver.find_element_by_xpath(".//*[@id='toplevel_page_menu']/ul/li[2

python - 在 Selenium (Python) 中使用 XPath 选择器 'following-sibling::text()'

我正在尝试使用Selenium(在Python中)从网站中提取一些信息。我一直在使用XPaths选择元素,但在使用following-sibling选择器时遇到了问题。HTML如下:Photographer'sName:AnselAdams我可以选择“摄影师的名字”In[172]:metaData=driver.find_element_by_class_name('metadata')In[173]:metaData.find_element_by_xpath('strong').textOut[173]:u"Photographer'sName:"我正在尝试选择标签后的文本部分(示

python - 带有 lxml 子路径的 XPath 谓词?

我正在尝试理解发送给我的用于ACORDXML表单(保险中的通用格式)的XPath。他们发给我的XPath是(为简洁起见被截断了):./PersApplicationInfo/InsuredOrPrincipal[InsuredOrPrincipalInfo/InsuredOrPrincipalRoleCd="AN"]/GeneralPartyInfo我遇到麻烦的地方是Python的lxmllibrary告诉我[InsuredOrPrincipalInfo/InsuredOrPrincipalRoleCd="AN"]是一个无效谓词。我无法在XPathspeconpredicates中找到

python - 使用 XPath 获取特定属性值

来自以下HTML片段:我正在尝试使用relvalue="shortcuticon"获取link标签的href值,我正在尝试使用XPath实现这一目标。如何在Python中做到这一点? 最佳答案 像这样:data=""""""fromlxmlimportetreed=etree.HTML(data)d.xpath('//link[@rel="shortcuticon"]/@href')['/img/all/favicon.ico'] 关于python-使用XPath获取特定属性值,我们在S

python - 在 Python Selenium 的 xpath 中使用变量

我一直无法弄清楚如何让一个变量在Selenium中工作。这篇文章似乎有所帮助(Variablenotworkinginsideparenthesis),但我仍然无法让它发挥作用。当我使用它的实际值时。在这种情况下,阿拉巴马州。我创建了一个名为state的变量,这样我就可以调用在我的职能中。我要跑过13个州。driver.find_element_by_xpath("//option[@value='AL-Alabama']").click()这个使用状态变量,在查看错误消息时,它显示变量值为AL-Alabama。所以好像它在网页中引用了正确的值。不确定我遗漏了什么或为什么它不起作用。任

python - 如何将此 XPath 表达式转换为 BeautifulSoup?

在回答previousquestion,几个人建议我使用BeautifulSoup为我的项目。我一直在努力处理他们的文档,但我无法解析它。有人可以指出我应该能够将此表达式转换为BeautifulSoup表达式的部分吗?hxs.select('//td[@class="altRow"][2]/a/@href').re('/.a\w+')以上表达式来自Scrapy.我正在尝试将正则表达式re('\.a\w+')应用于tdclassaltRow以从那里获取链接。我也很感激任何其他教程或文档的指针。我找不到。感谢您的帮助。编辑:我正在看这个page:>>>soup.head.titleWhit

python - 如何匹配 XPath (lxml) 中元素的内容?

我想使用XPath表达式通过lxml解析HTML。我的问题是匹配标签的内容:例如给定Example元素我可以使用匹配href属性.//a[@href='http://something']但是给定的表达式.//a[.='Example']甚至.//a[contains(.,'Example')]lxml抛出“无效节点谓词”异常。我做错了什么?编辑:示例代码:fromlxmlimportetreefromcStringIOimportStringIOhtml='Example'parser=etree.HTMLParser()tree=etree.parse(StringIO(html)

python - 如何使用 lxml 删除 python 中与 xpath 匹配的所有元素?

所以我有一些这样的XML:SomethingHelloAnother我想删除所有foo节点。这样的事情是行不通的params=xml.xpath('//foo')forninparams:xml.getroot().remove(n)给予ValueError:Elementisnotachildofthisnode.执行此操作的巧妙方法是什么? 最佳答案 尝试:foreleminxml.xpath('//foo'):elem.getparent().remove(elem)从它的父级而不是根级移除它(除非它是根元素的子元素)

html - XPath 主要用于Html 或XML 或XHTML?

我对XPath概念完全陌生,我对XPath有非常基本的了解。我首先开始使用XPath来查找HTML页面上的Web元素。现在在网上搜索(视频和文本)时,我发现所有XPath教程都与XML(而不是HTML页面)相关。维基说,XPath(XMLPathLanguage)isaquerylanguageforselectingnodesfromanXMLdocument.这让我很困惑。XPath不用于HTML文档吗?在为HTML、XML、XHTML编写XPath时是否存在任何基本/结构差异?请注意,我知道这个问题低于标准,但只是出于完全混淆我才在这里问。 最佳答案

用于提取链接的 HTML Treebuilder XPath

我正在编写一个基本脚本,它只从网页中提取所有链接。它是用Perl编写的,使用了WWW::Mechanize和HTML::Treebuilder::Xpath模块,这两个模块都是我通过CPAN安装的。我知道只使用WWW::Mechanize就可以轻松完成,但是我也想学习使用XPath来完成。因此,脚本将解析整个网页,检查每个anchor标记的href属性,提取链接并将其打印到控制台/写入文件。请注意,在下面的脚本中,我没有使用usestrict,因为我写这个只是为了澄清和理解使用XPath遍历HTML树的概念。这是脚本:#!/usr/bin/perluseWWW::Mechanize;u