抓取

php - 发送抓取请求以获取 torrent 的种子和同行

我一直在尝试创建一个Torrent站点，但我遇到了以下问题。如何发送torrent抓取请求以获取它的播种机和吸血机？我有一个PHP类函数可以为我提供公告列表。publicfunctiongetTrackers(){//Loadtrackerlist$trackerlist=array();if($this->torrent->get_value('announce-list')){$trackers=$this->torrent->get_value('announce-list')->get_plain();while(list($key,$value)=each($trackers

种子同行 value section strong php html bittorrent utorrent

java - 一些帮助用 Java 抓取页面

我需要使用Java抓取网页，我了解到正则表达式是一种非常低效的方法，应该将其放入DOM文档中进行导航。我已经尝试阅读文档，但它似乎过于广泛，我不知道从哪里开始。你能告诉我如何抓取this吗？表到一个数组？我可以尝试从那里找出我的出路。片段/示例也可以。谢谢。最佳答案你可以试试jsoup:JavaHTMLParser.这是一个优秀的库，具有很好的示例代码。关于java-一些帮助用Java抓取页面，我们在StackOverflow上找到一个类似的问题： ht

java section noreferrer noopener html xhtml screen-scraping

javascript - 想使用 Puppeteer 抓取表格。如何获取所有行，遍历行，然后为每一行获取 "td' s"？

我有Puppeteer设置，我能够使用以下方法获取所有行:letrows=awaitpage.$$eval('#myTabletr',row=>row);现在我想为每一行获取“td”，然后从中获取innerText。基本上我想这样做:vartds=myRow.querySelectorAll("td");其中myRow是表格行，带有Puppeteer。最佳答案实现此目的的一种方法是使用评估，它首先获取所有TD的数组，然后返回每个TD的textContentconstpuppeteer=require('puppeteer');c

amp javascript code 39 gt html node.js puppeteer headless-browser

php - 如何抓取HTML标签的内容？

嘿，我想做的是捕获第一段的内容。字符串$blog_post包含很多段落，格式如下:Paragraph1Paragraph2Paragraph3我遇到的问题是我正在编写一个正则表达式来获取第一个之间的所有内容标记和第一个关闭标签。然而，它正在抢先标记和最后结束导致我捕获一切的标签。这是我当前的代码:if(preg_match("/[\\s]*[\\s]*(?[\\s\\S]+)[\\s]*[\\s\\S]*/",$blog_post,$blog_paragraph))echo"".$blog_paragraph["firstparagraph"]."";elseecho$blog_pos

HTML php code section lt regex html-parsing

php - 将隐藏的输入作为字符串抓取(使用 PHP 简单 HTML DOM 解析器)

所以我有一个表单，其中包含4个输入、2个文本和2个隐藏。我从名称中获取了两个文本输入值，它们是(get_me_two,get_me_three)，我还获取了表单操作(get_me.php)。我现在要做的是获取2个隐藏的输入，而不是值。我想自己获取输入。E.G:这是我的表格:我想从这里获取的是两个隐藏的输入，不是值，而是完整的字符串。我不确定如何使用:PHPSimpleHTMLDOMParser获取这些信息，如果有人知道一种方法会很好，如果不知道，如果有替代方法也很好。一旦我捕获了这些，我计划将2个输入值传递到另一个带有隐藏字符串的页面，当然还有表单操作。此外，如果有人感兴趣，请查看我的

HTML php 34 input section parsing string-parsing

html - 混合内容 html 跨度的 selenium xpath 抓取

我正在尝试抓取具有混合内容的span元素boldtitletextherethatIwanttograb....这是识别跨度的抓取代码片段。它可以毫无问题地拾取它，但是网络元素的文本字段是空白的。IWebDriverdriver=newFirefoxDriver();driver.Navigate().GoToUrl("http://page-to-examine.com");varquery=driver.FindElement(By.XPath("//span[@id='span-id']"));我已经尝试将/text()添加到同样不返回任何内容的表达式中。如果我添加/b我确实得到

跨度 html code span strong selenium selenium-webdriver xpath

html - 从 R 中多个网页的表格中抓取数据(足球运动员)

我正在为学校开展一个项目，我需要收集NCAA橄榄球运动员个人的职业统计数据。每个玩家的数据都是这种格式。http://www.sports-reference.com/cfb/players/ryan-aplin-1.html我找不到所有球员的总和，所以我需要一页一页地拉出每个传球得分、冲球和catch等html表的最后一行每个玩家都按他们的姓氏分类，这里有指向每个字母表的链接。http://www.sports-reference.com/cfb/players/例如，这里可以找到每个姓A的玩家。http://www.sports-reference.com/cfb/players/

html 中 sports-reference 34 links xml r web-scraping rcurl

html - 跨多个页面的 R 网络抓取

我正在开发一个网络抓取程序来搜索特定的Wine并返回该品种的本地Wine列表。我遇到的问题是多页结果。下面的代码是我正在使用的基本示例url2对于这个特定的搜索，有39页的结果。我知道网址更改为http://www.winemag.com/?s=washington%20merlot&drink_type=wine&page=2，但是有没有一种简单的方法可以使代码循环遍历所有返回的页面并将所有39个页面的结果编译到一个列表中？我知道我可以手动处理所有URL，但这似乎有点过分了。最佳答案如果您希望所有信息都作为data.frame

html 多个 34 section r web-scraping rvest

python - 有多个类的 Scrapy 抓取 div？

我正在尝试获取类的div:“产品”。问题是，某些类为“product”的div也有类“product-small”。所以当我使用xpath('//div[@class='product']')，它只捕获一个类别的div，而不是多个。我怎样才能用scrapy做到这一点？例子:渔获量:没有捕捉到: 最佳答案这也可以用xpath来解决。你只需要使用contains()://div[contains(concat('',normalize-space(@class),''),'product')]不过，是的，CSS选择器选项更加紧凑和可读

python Scrapy code section product html xpath web-scraping

html - 超快的屏幕抓取技术？

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭3年前。Improvethisquestion我经常发现自己需要为内部目的做一些简单的屏幕抓取(即我使用的第三方服务仅通过HTML发布报告)。我现在至少有两三个这样的案例。我可以使用apachehttpclient并创建所有必要的屏幕抓取代码，但这需要一段时间。这是我通常的流程:在网站上打开CharlesProxy，看看发生了什么。开始使用ApacheHttpClient编写一些java代码，处理cookie，多

html 快的 section class notice screen-scraping

84 85 868788 89 90