抓取

php - 在 php 中抓取安全页面 https

我正在尝试抓取安全页面(https)，例如googlecurl但我似乎没有从我的爬虫中得到任何数据php函数functiongetDOM($url){$ch=curl_init($url);curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);curl_setopt($ch,CURLOPT_RANGE,'0-100');$content=curl_exec($ch);curl_close($ch);echo$url."";echo$content;$dom=newsimple_html_dom();$dom->load($content);if($do

php - 正则表达式抓取括号内的所有文本，而不是引号

我正在尝试匹配{brackets}之间的所有文本，但如果它在引号中则不会:例如:$str='我{想要}的值(value)，对比“我{不}想要”的值(value)'我的结果应该抢夺“want”，但省略“NOT”。我已经拼命搜索stackoverflow以寻找可以执行此操作但没有运气的正则表达式。我看到的答案允许我在引号之间获取文本，但不能在引号外和括号中获取文本。这可能吗？如果是的话，它是如何完成的？到目前为止，这是我所拥有的:preg_match_all('/{([^}]*)}/',$str,$matches);但不幸的是，它只会获取括号内的所有文本，包括{NOT}

引号 php code section strong regex

php - 用 PHP 抓取一个网站，然后用 jQuery 遍历它

我正在构建一个系统，我需要用PHP获取网页的内容，然后解析它以提取某些表格等。有没有一种简单的方法可以用jQuery来做到这一点，或者最好的方法是编写PHP函数来提取数据？最佳答案 jQuery与PHP无关，并且不能在没有浏览器的情况下运行，所以你运气不好。但是，有phpQuery允许使用jQuery的选择器解析DOM! 关于php-用PHP抓取一个网站，然后用jQuery遍历它，我们在StackOverflow上找到一个类似的问题： https://sta

jQuery php section 数来 javascript parsing

PHP 网页抓取

我使用php网络抓取，我想在周日从下面的html代码中获取价格(3.65):SundayInfotest€3.65*但是我没有找到最好的正则表达式来做到这一点......我使用这个php代码:SundayInfotest€(.*)*/i',$data,$matches);$result=$matches[1];?>但是没有结果……正则表达式有什么问题？(我认为这是因为新的行/空格？) 最佳答案不要使用正则表达式，HTML不是正则的。相反，使用像DOMDocument这样的DOM树解析器。这documentati

PHP 网页 section gt lt regex web-scraping

php - 如何使用 Goutte 在 laravel 5.2 中进行抓取？

我是Laravel5.2的新手，我想抓取一个网页。我开始知道可以使用Goutte来完成.并且不知道如何使用它。我已经安装了Laravel和Goutte，但是如何使用呢？如何设置Controller、路由和所有需要的东西？最佳答案我找到了答案。我只是将url添加到路由并创建了ControllerRoute::resource('scrape','WebScraperController@index');WebScraperController内部60,'verify'=>false,]);//CreateDOMfromURLorf

中进 laravel section 39 Goutte php web-scraping laravel-5.2

php - HTTP_ACCEPT_LANGUAGE 出现 Google 抓取错误

在我的Codeigniter应用程序中，我使用$_SERVER['HTTP_ACCEPT_LANGUAGE']来确定用户浏览器语言以基于此设置应用程序语言，如下所示:publicfunction__construct(){parent::__construct();/*setsessionlanguageifnotset."hu"ifbrowserlanguage"hu",else"en"*/if(!($this->session->userdata("lang"))){$browserlang=substr($_SERVER["HTTP_ACCEPT_LANGUAGE"],0,2);

HTTP_ACCEPT_LANGUAGE LANGUAGE 34 lang php web-crawler googlebot http-accept-language

php - Facebook 喜欢点播元内容抓取工具

你们见过FB抓取你在facebook上发布的链接(状态、消息等)，在你将它粘贴到链接字段后立即实时显示各种元数据、图像的缩略图、页面中的各种图像来自视频相关链接(如youtube)的链接或视频缩略图。有什么想法可以复制这个函数吗？我正在考虑几个齿轮worker，或者更好的只是做一个xhr请求并根据正则表达式或类似的东西解析内容的javascript...有什么想法吗？任何链接？有人已经尝试过做同样的事情并将其包装在一个不错的类(class)中吗？任何事物？:)谢谢! 最佳答案 FB从HTML中抓取元标记。即当您输入URL时，FB会显

点播 Facebook section description info php metadata scraper

php - 使用 PHP 进行反向图像抓取

我需要使用API不支持的谷歌反向图像搜索来获取一些图像，但值得庆幸的是，您可以使用图像的直接链接查询谷歌，它仍然显示结果，所以:$googleURL="https://www.google.com/searchbyimage?&image_url=".$imageURL;echo$googleURL;输出:https://www.google.com.au/search?tbs=sbi:AMhZZiu9rNRW4ETWGjN9XYQKsa21UHM7j_1TjMjXvYyNH1knVTyMGZGNmS2yme4CsQb0T7UViTyNrG4e8u_1xLY-dZCU16wkfdUak

反向 php code section amp web-scraping simple-html-dom

java - 是否可以抓取flash网站

我想抓取一个flash网站并定期截取每个页面。是否可以抓取完全在Flash中运行的网站？这可以用Java或PHP实现吗？如果可以，是否有任何有用的Material可以帮助我完成这个过程。如有任何帮助，将不胜感激，非常感谢编辑:还值得注意的是，网站上的链接和按钮每隔几个小时就会更改一次最佳答案您无法在客户端获取屏幕截图，使用PHP更是如此。PHP在您的服务器上运行，而不是在客户端上运行。关于java-是否可以抓取flash网站，我们在StackOverflow上找到一个类似的问题：

flash java section 中运 stackoverflow php web-crawler

php - 使用 file_get_contents() 进行抓取时强制使用桌面版网站

我正在使用FriendsOfPHP/Goutte包抓取网站。一切都很好。当用户将URL粘贴到输入中时，我正在为image、title等开放图形标签抓取网站。当用户从移动设备复制URL时会出现问题，该URL现在是移动URL，例如https://m.datpiff.com/tape/818948，并且该URL上没有开放图标签。当我访问相同的URL并将子域m替换为www时，例如https://www.datpiff.com/tape/818948从桌面，它将我重定向到:http://www.datpiff.com/Chance-The-Rapper-Jeremih-Merry-Christm

file_get_contents contents datpiff 818948 https php redirect file-get-contents facebook-opengraph

10 11 121314 15 16