抓取

PHP get函数不抓取参数

所以...我有以下非常简单的代码:目前，这只是为了测试。但是我遇到了问题...当使用以下URL进行测试时:http://localhost/?base_grant_url=htt%3A%2F%2Fn00.test.comhttp://localhost/?base_grant_url=http%3A%2F%2Fn00参数打印正确。注意第一个缺少的“p”，没有“.”。第二个参数中的字符。当传递以下2个URL时:http://localhost/?base_grant_url=http%3A%2F%2Fn00.test.comhttp://localhost/?base_grant_url

php - 抓取时的字体或 Unicode 问题

这个问题在这里已经有了答案:PHPDOMDocumentfailingtohandleutf-8characters(☆)(3个答案)关闭7年前。我正在尝试从网站上抓取信息。网站有这样的127EastZhongshanNo2Rd;中山东二路127号但是当我尝试废弃它并回显它时它会显示127EastZhongshanNo2Rd;ä¸å±±ä¸äºè·¯127å·我也试试UTF-8这是我的php代码现在请帮我解决这个问题。functionGrabPage($site){$ch=curl_init();curl_setopt($ch,CURLOPT_RETURNTRANSFER,TRUE)

Unicode php section curl_setopt curl html xpath web-scraping domdocument

php - 抓取标题、描述和关键字的可靠方法

目前我正在使用CURL抓取网站。我想可靠地获取标题、描述和关键字。//Parseforthetitle,descriptionandkeywordsif(strlen($link_html)>0){$tags=get_meta_tags($link);//name$link_keywords=$tags['keywords'];//phpdocumentation$link_description=$tags['description'];}唯一的问题是人们现在正在使用各种元标记，例如opengraph.他们还改变了很多标签.很难可靠地获得这些。我真的需要一些代码来一致地提取这些变量。

可靠关键 code section tags php curl title

php - 抓取站点并仅检索以 http ://开头的链接

我正在使用以下代码从检索链接标签，但想做一些调整。只想返回以“http://”开头的链接想要包含指向包含“http://”的图像和脚本引用的链接如果它能返回所有以“http://”开头的标签的链接就更好了这是当前代码:loadHTML($html);//graballthelinksonthepage$xpath=newDOMXPath($dom);$hrefs=$xpath->evaluate("/html/body//a");for($i=0;$ilength;$i++){$href=$hrefs->item($i);$url=$href->getAttribute('href')

http php code section href

php - 使用 php preg_match_all 和 cURL 从多个页面抓取/下载图像

所以我想从另一个网站抓取一些图片，问题是每张图片都在不同的页面上IE:id/1,id/2,id/3等等到目前为止，我有下面的代码可以从给定的单个URL中获取图像:$returned_content=get_data('http://somedomain.com/id/1/');但需要将上面的行变成一个数组(我猜)，这样它会从第1页抓取图像，然后继续抓取第2页上的下一张图像，然后自动抓取第3页等functionget_data($url){$ch=curl_init();$timeout=5;curl_setopt($ch,CURLOPT_URL,$url);curl_setopt($c

preg_match_all php 39 somedomain section image curl preg-match-all

Php cURL 网页抓取

我想从网站url中抓取手机的价格:http://www.flipkart.com/apple-iphone-5s/p/itmdv6f75dyxhmt4?pid=MOBDPPZZDX8WSPAT如果查看代码，价格放在下面的SPANRs.37,500//FetchthispriceSellingPrice到目前为止，我获取它的代码是:loadHTML($curl);libxml_clear_errors();//removeerrorsforyuckyhtml$pokemon_xpath=newDOMXPath($pokemon_doc);//getalltheh2'swithanid$p

cURL Php 34 pokemon html xpath web-scraping domdocument

php - 通过网页抓取提取 JavaScript 变量值

对于一个公司项目，我需要使用PHP和JavaScript(包括jQuery)创建一个网络抓取应用程序，该应用程序将从我们客户网站的每个页面中提取特定数据。抓取应用程序需要为每个页面获取两种类型的数据:1)确定是否存在具有特定ID的某些HTML元素，以及2)提取特定JavaScript变量的值。每个页面的JS变量名称相同，但值通常不同。我相信我知道如何获得第一个数据要求:使用PHPfile_get_contents()函数获取每个页面的HTML，然后使用JavaScript/jQuery解析该HTML并搜索具有特定ID的元素。但是，我不确定如何获取第二条数据——JavaScript变量值

量值 JavaScript section php jquery ajax web-scraping

php - 是否有可能找到谷歌机器人何时抓取我网站上的任何网址并记录对服务器上文本文件的最后访问时间

这是下面的代码，每当任何页面被谷歌抓取并导致邮箱垃圾邮件时，它都会发送一封电子邮件。那么是否有可能只在服务器上的文本文件中记录最后一次爬网时间戳，我以后可以随时使用perlLWPmod读取它。文件应该只有这个数据:29，2012年1月GMT等如果bot多次访问我的站点，那么它应该覆盖txt文件并仅记录最后一次访问时间，如果可能请帮助实现一些我认为我们可以通过检查googlebot是否正在访问服务器以及它何时从服务器请求网站的任何页面来做到这一点？最佳答案 if(strpos($_SERVER['HTTP_USER_AGENT'],

上文站上 section 39 Googlebot php

php - 如何从 PHP 的 html 页面中抓取 H2 和 H3 标签？

我需要从下面的html代码中获取h2和h3标签作为php中的$var:iPhone4S16GBBlack我想要这样的结果:echo$model;//Shouldecho:'iPhone4S'echo$capacitycolour;//Shouldecho:'16GBBlack'我尝试过使用preg_match、preg_match_all和getElementsByTagName，但到目前为止还没有成功。这是我试过的代码:$pattern='/[^\n]h2*[^\n]*/';preg_match_all($pattern,$data,$matches,PREG_OFFSET_CAPT

html php code 34 gt

php - Perl 与 PHP 的网络抓取

按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭11年前。假设我们有一个项目需要网络抓取。(解析字符串(那么，你会选择哪个呢？(可能是Python？？)就速度而言，哪个更适合这项工作？请解释...提前致谢。

Perl php section notice 适合 python performance web-scraping

11 12 131415 16 17