草庐IT

php - 抓取一个需要 cookie 的站点

我正在尝试抓取远程网站。我正在使用PHPCurl,我的代码很好。我知道这一点,因为我使用了Fiddler、TamperData等来使我的代码恰到好处。但是,它仍然没有用。所以,我尝试了几个小时前就应该测试的东西:我在浏览器中关闭了cookie。果然,我现在搜索不到远程站点了。他们的代码需要一个cookie来搜索我想要抓取的产品。有没有办法伪造/欺骗/规避以便我可以抓取网站?我可以告诉CURL使用我下载的cookie吗?我什至不知道该问什么问题。 最佳答案 看看各种curl_setoptcookie的参数。您可以使用CURLOPT_C

php - 从需要登录的网站上抓取?

如果可以,可以这样做吗?我想从xbox.com抓取数据,但我需要抓取的页面仅在成功登录后出现。 最佳答案 大多数登录表单都会设置一个cookie。所以你应该使用像Zend_Http这样的HTTP类来存储它们以供进一步请求。它大概很简单:$client=newZend_Http_Client();$client->setCookieJar();//thisisthecrucialpartfor"loggingin"//makeloginrequest$client->setUri("http://xbox.com/login");$c

PHP 抓取 txt 文件中的最后 15 行

感谢您花时间阅读本文,无论内容质量如何,我都会感谢您的每一个回复。:)我试图使用PHP获取文本文档(.txt)的最后15行并将该数据存储到php变量中。我知道这是可能的,但是当我得到最后15行时,是否可以保留顺序?例如:文本文档:ABC当我从最后15个字符中获取文本文档时,我不希望回显像这样结束:CBA感谢所有帮助,我期待着您的回复;谢谢你。:)如果我没有清楚地解释任何内容和/或您希望我更详细地解释,请回复。:)谢谢。 最佳答案 尝试使用array_slice,它将返回数组的一部分。在本例中,您希望它返回数组的最后15行,因此:$f

php - 通过 CURL 发布 JSON 数据并抓取它

我正在尝试将json数据作为参数传递给cURLPOST。但是,我坚持捕获它并将其保存在数据库上。curl文件:$data=array("name"=>"Hagrid","age"=>"36");$data_string=json_encode($data);$url='http://localhost/project/test_curl';$ch=curl_init();curl_setopt($ch,CURLOPT_URL,$url);curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);curl_setopt($ch,CURLOPT_HTTPHEADE

php - 如何使用 Simple HTML Dom Parser 处理页面抓取错误

与Facebook类似,我正在构建一个允许用户发布链接的应用。用户在输入字段中填写链接,Controller返回TitleLinkMetadescriptionImages(asthumbnails)到View。Controller代码如下:$url=$this->input->post('posts_link');if(!empty($url)){$html=file_get_html($url);foreach($html->find('img')as$element){$src="";$src=$element->src;if(preg_match("/\.jp[e]?g$/i"

php - 使用 XPath 远程抓取页面并获取最相关的图像标题或描述

我正在做的事情与Tweet按钮或Facebook分享/点赞按钮所做的本质上是一样的,那就是抓取页面和最相关的数据片段标题。我能想到的最好的例子是当你在一个有很多文章的网站的首页上,你点击了一个FacebookLike按钮。然后它将获得与(最近的)“赞”按钮相关的帖子的正确信息。有些网站有OpenGraph标签,但有些没有,但它仍然有效。由于这是远程完成的,我只能控制我想要定位的数据。在这种情况下,数据是图像。而不是只检索在页面的顶部,我希望以某种方式从每个图像的起点反向遍历dom,并找到最近的“标题”。问题是并非所有标题都出现在图像之前。然而,在这种情况下,图像出现在标题之后的可能性似

php - 系统抓取邮件

目前我正在构建一个系统(自定义CMS),要求是捕获公众发送到注册电子邮件地址的所有电子邮件,并通过系统通过注册电子邮件通过电子邮件地址回复。例如:我将其设置为info@st​​ackoverflow.com,然后当slim@slim.com发送电子邮件至info@st​​ackoverflow.com时我的系统会捕获它并显示带有附件的邮件谁处理电子邮件将生成一个“randomHashTemp”@stackoverflow.com以确定谁处理该案例系统将通过“randomHashTemp”@stackoverflow.com(如谷歌群组)回复通过“randomHashTemp”@stac

java - 任何人都有一个很好的解决方案来抓取带有用 Javascript 生成的内容(在本例中为 HTML 表格)的页面的 HTML 源代码?

关闭。这个问题需要更多focused。它目前不接受答案。想要改进这个问题?更新问题,使其只关注editingthispost的一个问题。关闭7年前。Improvethisquestion谁有好的解决方案来抓取包含用Javascript生成的内容(在本例中为HTML表格)的页面的HTML源代码?使用Crowbar的一个非常简单但可行的解决方案:array('timeout'=>120)//HTTPtimeoutinseconds));$html=substr(file_get_contents('http://127.0.0.1:10000/?url='.$url.'&delay=300

php - PHP 中的简单网页抓取

从一开始就明确表示,在他们构建API之前,我完全同意网站管理员这样做。我想做的是获取在网站特定部分找到的数字或任何数据,尽管它的位置可能会发生变化。我想做的一个例子,如果我要通过file_get_contents将html存储在一个变量中,并且想在源代码中找到它说"Userstatus:Online."的某个地方;我需要将文本存储在"status:"之间和"."在一个变量中,只知道这两个字符串就可以找到它,但也知道只有一种可能的情况是这两个文本在同一行中编辑:我似乎忘记了其中最重要的部分。嗯,问题是如何做我刚才描述的,如果你有很多文本,我怎样才能找到一段文本和另一段文本之间的内容,并将

php - 如何使用 php 脚本抓取 rss 提要内容

我想从一个网站抓取RSS提要内容,并使用不同的过滤选项将其显示在我的网站上。谁能放一个可以从那里抓取内容并显示的php脚本 最佳答案 SO用于询问与编程相关的具体问题。即使您的问题与编程有关,您也没有提出具体问题。在谷歌上快速搜索“PHPreadRSSfeeds给你一个非常好的链接列表,可以让你开始。HowtoReadanRSSFeedWithPHP–screencast试试这个例子,看看它是否符合你的要求。如果您有任何具体问题,请返回SO,我相信每个人都会很乐意提供帮助。 关于php-