草庐IT

javascript - 在 R 中抓取 javascript 网站

我想从这个url中抓取比赛时间和日期:http://www.scoreboard.com/game/rosol-l-goffin-d-2014/8drhX07d/#game-summary通过使用chrome开发工具,我可以看到这似乎是使用以下代码生成的:01:20AM,October29,2014但这不在源html中。我认为这是因为它的java(如果我错了请纠正我)。我如何使用R抓取这些信息? 最佳答案 因此,RSelenium不再是唯一的答案。如果您可以安装PhantomJS二进制文件(从这里获取phantomjs二进制文件:h

javascript - 如何使用 R 从国家文件馆 (archives.gov) 中抓取目录系列中的所有文件

我正在寻找一种编程方式来使用R抓取archive.gov上数据文件系列的所有可用文件。archives.gov似乎使用javascript。我的目标是捕获每个可用文件的URL以及文件名。家庭抵押贷款披露法案数据文件系列有153entries在浏览器中,我可以单击“导出”按钮并获得具有以下结构的csv文件:first_exported_record然后在这153个条目的每一个后面,都有文件单元页面,其中包含多个可供下载的文件。例如,第一个导出的记录指向:https://catalog.archives.gov/id/18491490但是这两个页面似乎都是javascript,所以我不确定

xml - rvest 不提取自关闭的 xml 节点

尝试解析此xml文件:http://data.fcc.gov/api/block/find?latitude=48.9905&longitude=-122.2733&showall=falservest/xml2接缝无法正确识别节点:require(rvest)#whichusesxml2internallydocdoc{xml_document}[1][2][3]我尝试获取County节点-结果出现错误(无匹配)doc%>%xml_node("County")#Error:Nomatches我还尝试通过read_html和httr::GET结合使用:read_html和read_xm

R - 使用 rvest 包进行抓取

我正在尝试从此网页上的“团队统计”表中获取数据:https://www.hockey-reference.com/teams/CGY/2010.html我在网络抓取方面没有太多经验,但已经尝试使用XML包,现在使用rvest包:library(rvest)url%html_node(xpath="//*[@id='team_stats']")最后得到一个看似单一的节点:{xml_node}[1]TeamStatisticsTable[2]\n\n\n\n\n\n\n\...[3]\n\n\n我如何解析它以仅获取两行表中的标题和信息? 最佳答案

xml - rvest 中的 html 与 XML 中的 htmlParse

如下代码所示,rvest包中的html使用了XML包中的htmlParse。.htmlfunction(x,...,encoding=NULL){parse(x,XML::htmlParse,...,encoding=encoding)}htmlParsefunction(file,ignoreBlanks=TRUE,handlers=NULL,replaceEntities=FALSE,asText=FALSE,trim=TRUE,validate=FALSE,getDTD=TRUE,isURL=FALSE,asTree=FALSE,addAttributeNamespaces=FA

xml - 将 R2HTML 与 rvest/xml2 一起使用

我正在阅读this关于新包XML2的博文。以前,rvest曾经依赖XML,并且通过将函数组合在两个包中,它(至少)让我的很多工作变得更容易:例如,我会使用htmlParse当我无法使用html读取HTML页面时,来自XML包(现在他们调用了read_html)。参见this例如,然后我可以使用rvest像html_nodes这样的功能,html_attr在解析的页面上。现在,用rvest取决于XML2这是不可能的(至少在表面上)。我只是想知道XML和XML2之间的基本区别是什么。除了在post中注明XML包的作者之外前面提到过,package的作者没有解释XML和XML2的区别。另一个

html - 以本地语言显示内容 : R

我正在尝试从包含英文和本地语言(非英文)内容的网站下载数据。我能够获得英文数据,但对于本地语言的内容,我得到了如下内容。我的问题是如何显示两者?X1X2X3NA12345678910 最佳答案 您可能拥有所需的文本,只是显示不正确。我可以重现你的问题。您的示例数据有10次相同的字符串。为了保持显示的合理性,我只重复了3次。##HexcodesfromyourexampleS1=c("0926","094B","0932","0916","093E")S2=c("0915","093E","0932","093F","0928","0

xml - RCurl 无法下载 URL 内容

页面下载失败。这是我收到的错误:Errorinwhich(value==defs):argument"code"ismissing,withnodefault这是我的代码:require(RCurl)require(XML)ok 最佳答案 如果您愿意生活在Hadleyverse的最前沿,rvest可以很好地处理这个问题:library(rvest)ok_search%html_nodes("div.profile_info")%>%html_text()##[1]"phenombom32·SanFrancisco,CA""sylve

r - 下载 mp3 文件

我想使用R中的网站。该网站是http://soundoftext.com/我在哪里可以下载WAV。包含来自给定文本和语言(语音)的音频的文件。下载WAV格式的语音分两步:1)插入文本并选择语言。并提交2)在新窗口中,单击保存并选择文件夹。到目前为止,我可以获取xml树,将其转换为列表并修改文本和语言的值。但是,我不知道如何将列表转换为XML(使用新值)并执行它。然后,我也需要做第二步。到目前为止,这是我的代码:require(RCurl)require(XML)webpage我已经关注this方法,但“标签”有错误。更新:我刚刚尝试使用rvest下载音频文件,但是,它没有响应或触发任何

r - 无法保存 - 在 R 中加载从 rvest 生成的 xml_document

read_html函数生成一个xml_document,我想保存它并稍后加载它以解析它。问题是加载xml_document后其中没有html。library(rvest)library(magrittr)doc%html_node("h1")%>%html_text我得到:[1]“示例域”但是当我先保存xml_documentdoc对象并再次加载它时,似乎一切都已清除。save(doc,file=paste0(getwd(),"/example.RData"))rm(doc)load(file=paste0(getwd(),"/example.RData"))doc%>%html_no