抓取

xml - 抓取分层数据

我正在尝试从globalDeptstores中抓取各大洲/国家/地区的百货商店列表。.我正在运行以下代码以首先获取大陆，因为我们可以看到XML层次结构的方式是每个大陆的国家不是该大陆的子节点。>urldoc=htmlTreeParse(url,useInternalNodes=T)>nodeNames=getNodeSet(doc,"//h2/span[@class='mw-headline']")>#ForAfrica>xmlChildren(nodeNames[[1]])$aAfricaattr(,"class")[1]"XMLInternalNodeList""XMLNodeLi

xml 抓取 34 contries section r xpath xml-parsing web-scraping

xml - 使用R抓取多个页面

就这样吧。请记住，在编写代码方面我完全是新手，而且我没有R以外的经验。上下文-我要抓取的每个页面都有一个遵循以下格式的URL:http://www.hockey-reference.com/friv/dailyleaders.cgi?month=10&day=8&year=2014此url中更改的变量是月、日和年(上面的粗体)网址应以10-8-2014开头并在6-18-2015结束。当然不是每天都有NHL比赛，所以有些页面会是空白的。所有其他页面都有一个HTML球员表和一个守门员表。我已经弄清楚了如何只为单个页面抓取并导出到csv，但不知道从这里到哪里才能做到这一点，这样我就可以在上赛

xml 使用 tables code section r

xml - 抓取此 URL、R XML 并获取 sibling

您好:我想取消FederalElectionalDistricts–RepresentationOrderof2003子表“Ontario”。网址在这里:http://www.elections.ca/content.aspx?section=res&dir=cir/list&document=index&lang=e#list我试过这段代码，它让我很接近，但并不完全。doc我知道我可以使用readHTMLTable来简单地执行此操作并找到特定的表，但我还想知道如何选择等于Ontario的标题节点的兄弟节点。谢谢最佳答案您可以在

sibling xml code section list r xpath web-scraping

xml - 使用 R 抓取包含多个页面的 HTML 表格

我正在尝试通过从网络上抓取来制作数据框。但是有多个页面构成了我试图抓取的表格。相同的链接，但页面不同。对于第一页，我会这样抓取它:library(XML)CB.13我需要这样做很多年，所有页面都有多个页面-那么有没有更快的方法来获取数据的所有页面，而不是必须对表格的每个页面都执行此操作并合并它们？下一个链接是http://www.nfl.com/stats/categorystats?tabSeq=1&season=2013&seasonType=REG&Submit=Go&experience=&archive=false&conference=null&d-447263-p=2&s

HTML xml amp 34 url r web-scraping

xml - E4X:抓取带有命名空间的节点？

我想学习如何在E4X中使用namespace处理XML，所以基本上这就是我想学习的内容，假设我有一些这样的XML:我如何分配到名为rdfItems和的变量到一个名为regItems的变量？谢谢! 最佳答案如果您有一个包含多个名称的XML，但您在从XML获取值时不关心命名空间，您可以执行以下操作......示例XMLPrintedMaterialJamesSmithTheBookTitle像这样不管命名空间如何，你都可以获得任何元素varitemType:String=xml.*::ItemType;varbookISBN:Numb

命名 xml section code lt apache-flex actionscript-3 namespaces e4x

c# - 抓取特定类型的所有 XML 元素 : Even nested elements

我正在用C#ASP.NET解析XML文档。有没有我不知道的方法/函数来获取标签“类(class)”的所有元素？XML格式如下:...morecourseelements...当我执行以下代码时，我没有返回任何“类(class)”元素，是否有一个简单的函数可以一次性获取所有这些元素？XmlDocumentxdoc=newXmlDocument();xdoc.Load("http://kjkjkj.com");XmlNodeListlist=xdoc.DocumentElement.SelectNodes("course");//ifIdebug:list.count=0butifIloo

c#elements course code section xml

javascript - 抓取javascript网站

我能够从基本的html页面上抓取数据，但我在抓取下面的网站时遇到了问题。看起来数据是通过javascript呈现的，我不确定如何处理该问题。如果可能的话，我更愿意使用R进行抓取，但也可以使用Python。有什么想法/建议吗？编辑:我需要获取每个列表的年份/制造商/型号、序列号、价格、位置和简短描述(以“拍卖:”开头)。http://www.machinerytrader.com/list/list.aspx?bcatid=4&DidSearch=1&EID=1&LP=MAT&ETID=5&catid=1015&mdlx=Contains&Cond=All&SO=26&btnSearch

javascript 抓取 amp section 34 xml r web-scraping screen-scraping

xml - 使用并行化通过 R 抓取网页

我正在尝试抓取大量网页以便稍后对其进行分析。由于URL的数量巨大，我决定将parallel包与XML一起使用。具体来说，我正在使用XML中的htmlParse()函数，它在与sapply一起使用时工作正常，但会生成空对象与parSapply一起使用时的HTMLInternalDocument类。url1Classes'HTMLInternalDocument','HTMLInternalDocument','XMLInternalDocument','XMLAbstractDocument','oldClass'output1[[1]]#Doesn'tworkmyFunctionCla

xml 使用 code 39 urls r parallel-processing

xml - 使用 xpathSApply 在 R 中抓取 XML 属性

我正在使用xpathSApply(在XML包中)在R中抓取XML，但无法提取属性。首先，一段相关的XML片段:FancyProduct我已经使用以下方法成功提取了“FancyProduct”(即元素？):Products这花了一些时间(我是n00b)，但是文档很好，而且这里有几个我可以利用的已回答问题。我不知道如何拉出“http://www.somesite.com”(属性？)。我推测它涉及将第3项从“xmlValue”更改为“xmlGetAttr”，但我可能会完全放弃。仅供引用(1)在我粘贴的代码片段上方还有2个父级并且(2)这里是缩写的完整代码(我认为不相关但为了完整起见包含在内)

xpathSApply xml code 34 section r xpath

xml - 使用 R 对房地产广告进行网络抓取

作为经济研究团队的实习生，我的任务是使用R找到一种自动收集房地产广告网站上特定数据的方法。我假设相关包是XML和RCurl，但我对它们的工作了解非常有限。这是网站的主页:http://www.leboncoin.fr/ventes_immobilieres/offres/nord_pas_de_calais/?f=a&th=1&zz=59000理想情况下，我想构建我的数据库，使每一行对应一个广告。这是广告的详细信息:http://www.leboncoin.fr/ventes_immobilieres/197284216.htm?ca=17_s我的变量是:价格(“Prix”)、城市(“

xml 使用 code ventes_immobilieres section r web-scraping rcurl

4 5 678 9 10