抓取

javascript - 正则表达式在方括号之间抓取字符串

我有以下字符串:pass[1][2011-08-21][total_passes]如何将方括号之间的项目提取到数组中？我试过了匹配(/\[(.*?)\]/);vars='pass[1][2011-08-21][total_passes]';varresult=s.match(/\[(.*?)\]/);console.log(result);但这只会返回[1]。不确定如何执行此操作。提前致谢。最佳答案你快到了，你只需要一个globalmatch(注意/g标志):match(/\[(.*?)\]/g);示例:http://jsfid

php - 使用 Delphi TidHttp 抓取时检测客户端重定向

我是一名Delphi开发人员，负责抓取和meta面向公众的网站的描述和关键字。一直很好，直到我遇到一个self重定向但未使用HTTP302/301重定向的网站。例如，如果我输入example.com在url中，会自动跳转到example-b.com-但在客户端-不是通过HTTP301或302。我的目标是获取example-b.com的标题、描述和关键字.如果有帮助，我会在delphi中使用TidHttp。编辑我试过这个answer但据说只适用于HTTP301和302。我已经处理了这些重定向。我想弄清楚如何处理refersh标签或其他执行重定向的html命令。编辑2刚刚找到这个命令:he

TidHttp Delphi code section https php html

PHP:Curl 无法抓取我自己网站上的纯文本页面

我正在尝试在php中使用curl从我自己的网络服务器中获取页面。该页面非常简单，只有一些纯文本输出。但是，它返回“null”。我可以使用它成功地检索其他域和我自己的服务器上的其他页面。我可以在浏览器中看到它，我可以用命令行wget抓取它，只是当我试图用curl抓取那个特定页面时，它只是显示为空。我们无法使用file_get_contents，因为我们的主机已将其禁用。为什么会发生这种不同的行为？最佳答案发现问题。我把我的url放在curl_init()之外的某个地方，那个地方截断了查询字符串。一旦我将它移回curl_init，它

站上 Curl section stackoverflow php

php - 智能抓取第一段/起始文本

我想要一个脚本，我可以在其中输入一个URL，它会智能地抓取文章的第一段......除了从中提取文本外，我不知道从哪里开始。标签。你知道关于如何做这种事情的任何提示/教程吗？更新为了进一步说明，我正在构建我的站点的一个部分，用户可以在其中提交链接，就像在Facebook上一样，它会从他们的站点抓取图像以及与链接一起使用的文本。我正在使用PHP并试图确定执行此操作的最佳方法。我说“智能地”是因为我想尝试在该页面上获取重要的内容，不仅仅是第一段，而是最重要内容的第一段。最佳答案如果你想抓取的页面是外国的，或者即使它是本地的，但你事先不

php 智能 section strong code regex data-mining

php - 用 xpath 抓取，报错

我正在尝试使用xpath从页面抓取中获取文本，但现在我不断收到返回的错误，不知道为什么!-请记住，我是一个非常新的php用户，这是我参与的一个大学项目，它的证明非常具有挑战性:P但嘿，它应该是。这是代码，loadHTML($html);$xpath=newDOMXpath($dom);$in_stock=$xpath->query("/html/body/div[@id='divsinglecolumnminwidth']/form[@id='handleBuy']/table[3]/tbody/tr[3]/td/div/span");?>我收到以下错误...Warning:DOMDo

xpath php section amp dom

php - 仅抓取页面标题

我一直在网上四处寻找，希望这是可能的，我基本上只需要获得网页的标题，而不需要其他任何东西。网络爬虫可能需要很长时间才能执行任务，因为它们必须在检查页面之前加载页面，这对于我想要实现的目标来说效率很低......这是我目前所拥有的php代码$url='http://www.ebay.com/itm/300702997750#ht_500wt_1156';$str=file_get_contents($url);$title='';if(strlen($str)>0){preg_match("/\(.*)\/",$str,$titleArr);$title=$titleArr[1];}我想

php 仅 range curl curl_setopt web-crawler

php - 如何用 PHP 抓取 AS400？

有没有一种免费的方法可以使用PHP将屏幕抓取到AS400？我知道Zend解决方案，但它不是免费的。编辑好的，我会详细说明。我们有许多AS400应用程序是一些程序员多年来编写的。现在我的老板希望能够在AS400之外使用他们的屏幕。所以他告诉我用c#和ehllapi来做。问题是我的编程经验不是很丰富，主要是使用PHP和JS而不是c#。我找到了一个关于使用c#抓取屏幕的指南，但不够详尽，这对我来说似乎是一项几乎不可能完成的工作，除非我使用我知道的语言来完成它。最佳答案您真的需要屏幕抓取，还是可以只使用PHP(PDO)使用SQL语句来查

何用 php section c#400 screen-scraping ibm-midrange

php - 我正在尝试在页面上抓取带有 id 的特定 div

我想抓取页面的内容，实际上只是该页面的一个div，然后在网页上的一个小div中将其显示给用户。我只需要来自需要用户凭据的carfax页面的一条信息，因此我无法发布确切的代码，但我尝试使用google.com并遇到了同样的问题，因此解决方案应该交叉。现在我试过这个:$webPage=file_get_contents('http://www.google.com');$doc=newDOMDocument();$doc->loadHTML($webPage);$div=$doc->getElementById('lga');//thisistheidtothedivholdingthei

php div section element the domdocument web-scraping

php - 在 HTML 表格中抓取特定的 <td>

我正在尝试使用PHP抓取表格，问题是我已经设法抓取了它，但我得到了网页表格上的一切。我不确定如何指定要抓取的TD和/或TR。这是PHP代码find('tabletr')as$row){$cell=$row->find('td',0);echo$row;}?>我想要得到的(如果您查看thewebsite)是:俱乐部名称、出场、获胜、失败、进球、失球、净胜球和积分。我得到的是表格中的所有内容，包括折叠的团队信息。看起来像这样(不确定图片是否是发布它的最佳方式，但我不确定如何以其他方式显示它，我突出显示了我真正想要抓取的部分): 最佳答案

amp HTML code section php html-table simple-html-dom scrape

PHP 简单 DOMDocument 抓取排除 td 类

我只是想获取所有驻留在内部的元素数据元素。我的问题是因为我试图抓取表结构，我需要排除所有具有属性COLLSPAN的元素。即从下面的代码中可以看出，获取表数据非常简单，但由于表结构，我需要排除所有collspan属性。loadHTML($html);libxml_clear_errors();//removeerror$xpath=newDOMXPath($game_doc);//ModifytheXPathquerytomatchthecontentforeach($xpath->query('//table')->item(0)->getElementsByTagName('tr')

DOMDocument PHP gt textContent cells html web-scraping

8 9 101112 13 14