抓取

r - 在 R 中查找 html 表名并抓取

我正在尝试从包含多个表格的网页中抓取表格。我想从https://www.census.gov/geo/reference/ansi_statetables.html获取“美国和哥伦比亚特区的FIPS代码”表.我认为XML::readHTMLTable()是正确的方法，但是当我尝试以下操作时出现错误:url="https://www.census.gov/geo/reference/ansi_statetables.html"readHTMLTable(url,header=T,stringsAsFactors=F)namedlist()Warningmessage:XMLcontent

html 在 ansi_statetables code section r xml screen-scraping

r - xml2:在同一行中的指定文本之后抓取数组中的文本

我有带有一堆envelope元素的XML。每个里面都有一个数组。数组中的每一行都有2个元素。第一个是标识符，第二个是我要抓取的文本。我需要行的第一个值来标识正确的行，以便我可以获取正确的值。在下面的示例中，我在用代码610954表示的行中有“食物”。我想获取此代码(c('pizza','burger'))之后的2个元素。同样，还有代码605380表示的“饮料”。我想要获取c('coke','pepsi')。我如何使用xml2包来执行此操作？library(xml2)library(magrittr)myxml605380coke610954pizza605380pepsi610954b

xml2 xml card 34 gt r

r - 使用 XML R 包用图像抓取 html 表

我想使用R的XML包来抓取html表，其方式与在此线程中讨论的方式类似:ScrapinghtmltablesintoRdataframesusingtheXMLpackage与我要提取的数据的主要区别在于，我还需要与html表中的图像相关的文本。例如http://www.theplantlist.org/tpl/record/kew-422570处的表包含“置信度”列，其中包含显示一到三颗星的图像。如果我使用:readHTMLTable("http://www.theplantlist.org/tpl/record/kew-422570")那么“Confidence”的输出列除了标题之

html XML 34 section theplantlist r web-scraping html-table

xml - 用 R 抓取维基百科来制作列表和数据框

我想抓取Vancouverolympicgames维基百科词条。不幸的是，它不是一个很好的表格格式。我正在尝试创建一个包含2列的数据框:Nation和numberofathletes。此时我有library(XML)library(RCurl)path国家在哪里>country[1]"\nAfriqueduSud(2)\nAlbanie(1)\nAlgérie(1)\nAllemagne(153)\nAndorre(6)\nArgentine(7)\nArménie(4)\nAustralie(41)\nAutriche(82)\nAzerbaïdjan(2)\nBelgique(8)

维基和数 34 country code xml r web-scraping wikipedia

xml - Selenium:无法通过 XPath 抓取文本

我正在尝试抓取文本:10hoursand51minutes来自以下HTML片段:Guaranteeddeliverydate:Ifyouorderinthenext10hoursand51minutes(Details)我正在使用XPath:.//*[@id='spc-orders']/div[1]/div/div[2]/div/div/div[1]/div/span[3]/span[2]/span然而，尽管我能够使用Firebug和Eclipse识别此元素-当我尝试在此元素上使用getText时，我没有得到任何返回。换句话说，我无法抓取前面提到的值。有什么想法吗？

Selenium XPath 34 class span xml selenium-webdriver web-scraping

python - 用 python 抓取一些 ofx 数据

我正在尝试使用http://www.jongsma.org/gc/scripts/ofx-ba.py从wachovia获取我的银行帐户信息。运气不好，我决定尝试使用thisexample手动构建一些请求数据。所以，我有这个文件，我想将其用作请求数据。我们称它为req.ofxsgml:FXHEADER:100DATA:OFXSGMLVERSION:102SECURITY:NONEENCODING:USASCIICHARSET:1252COMPRESSION:NONEOLDFILEUID:NONENEWFILEUID:NONE20071015021529.000[-8:PST]TheNam

python ofx 39 gt lt xml urllib2 sgml

R - 使用 rvest 包进行抓取

我正在尝试从此网页上的“团队统计”表中获取数据:https://www.hockey-reference.com/teams/CGY/2010.html我在网络抓取方面没有太多经验，但已经尝试使用XML包，现在使用rvest包:library(rvest)url%html_node(xpath="//*[@id='team_stats']")最后得到一个看似单一的节点:{xml_node}[1]TeamStatisticsTable[2]\n\n\n\n\n\n\n\...[3]\n\n\n我如何解析它以仅获取两行表中的标题和信息？最佳答案

rvest 使用 code 34 section r xml web-scraping

r - 无法从维基百科中抓取表格

我无法理解thisquestion的选定答案.我要抓取的表格是thislistofU.S.statepopulations.library(XML)theurl这是我遇到的错误..Error:failedtoloadexternalentity"http://en.wikipedia.org/wiki/List_of_U.S._states_and_territories_by_population"什么给了？(注意-尽管我正在寻求解决此错误，但如果您能指出一种更简单的获取人口数据的方法，我将不胜感激。) 最佳答案您的代码没有任何

从维百科 states_and_territories_by_populat territories section r xml web-scraping

python - 抓取 href 链接

尝试使用正确的关键字收集此页面上的特定链接，到目前为止我有:frombs4importBeautifulSoupimportrandomurl='http://www.thenextdoor.fr/en/4_adidas-originals'r=requests.get(url)soup=BeautifulSoup(r.text,'lxml')raw=soup.findAll('a',{'class':'add_to_compare'})links=raw['href']keyword1='adidas'keyword2='thenextdoor'keyword3='uncaged'f

python href 39 thenextdoor section xml web-scraping beautifulsoup

xml - 抓取网页，页面上的链接，并用 R 形成表格

您好，我刚开始使用R从互联网上抓取数据，遗憾的是，我对HTML和XML知之甚少。我试图在以下父页面上抓取每个故事链接:http://www.who.int/csr/don/archive/year/2013/en/index.html.我不关心父页面上的任何其他链接，但需要为每个故事URL创建一个行，并为相应的URL、故事标题、日期(它总是在开头)创建一个列故事标题后的第一句话)，然后是页面的其余文本(可以是几段文本)。我已尝试修改Scrapingawikipageforthe"Periodictable"andallthelinks处的代码(以及几个相关的线程)但遇到了困难。任何建议

并用 xml 2013 39 section r web-scraping

3 4 567 8 9