php - 努力用 PHP 抓取 asp.net

coder 2024-01-02 原文

我正在尝试使用 PHP (5.6) 和 libcurl 废弃网站。

该站点在 asp.net 中实现，并通过本地代理访问。站点使用 HTTPS，因此不太容易通过网络发送未加密的流量。

我在第一步失败 - 登录。

$curl_options = array(
     CURLOPT_RETURNTRANSFER => true,
     CURLOPT_HEADER         => false,
     CURLOPT_SSL_VERIFYPEER => false,
     CURLOPT_PROXY          => 'http://localproxy.example.com:8080',
     CURLOPT_PROXYUSERPWD   => "$proxyUser:$proxyPass",
     CURLOPT_PROXYAUTH      => CURLAUTH_NTLM,
     CURLOPT_FOLLOWLOCATION => true,
     CURLOPT_WRITEHEADER    => false,
     CURLOPT_COOKIEJAR      => $curl_cookie_jar,
     CURLOPT_COOKIEFILE     =>  $curl_cookie_jar
 );

 ...
 $ch=curl_init();
 curl_setopt($ch, CURLOPT_URL, $entryurl);
 curl_setopt_array($ch, $curl_options);
 $reply=curl_exec($ch);
 curl_close($ch);
 ...
 $postdata=array(
     'username'=>'someuser', 'password'=>'s3cr3t',
     '__VIEWSTATE'=>$vstate, '__VIEWSTATEGENERATOR'=>$vsgen
 );

 $ch=curl_init();
 curl_setopt_array($ch, $curl_options);
 curl_setopt($ch,  CURLOPT_POST, true);
 curl_setopt($ch, CURLOPT_POSTFIELDS, http_build_query($postdata));
 $reply=curl_exec($ch);

在浏览器中，事件的顺序如下:

GET/结果 302 重定向到/Login.aspx?ReturnUrl=%2fIndex.aspx
重定向位置返回的登录页面
用户输入用户名和密码并点击提交类型的输入
用户名、密码、提交和 2 个隐藏输入(__VIEWSTATE 和 __VIEWSTATEGENERATOR)被 POST 回相同的 URL (/Login.aspx?ReturnUrl=%2fIndex.aspx)
服务器响应 302 重定向到/Index.asp
浏览器检索 Index.asp(作为经过身份验证的用户)

但是，当我使用 PHP 脚本尝试此操作时，在第 4 步之后，响应是第 2 步。

我尝试将脚本指向本地非 SSL 网站，以检查 Curl 是否按照我的预期进行。是的。

分析

正在捕获和重放 Cookie
所有必需的变量(包括 __VIEWSTATE 和 __VIEWSTATEGENERATOR)正在填充并在 POST 中发回
内容未被缓存 - 在 GET 和 POST 之间插入人为延迟会导致响应的时间戳不同
虽然 session 似乎在工作，但服务器正在响应，就好像 POST 是一个没有参数的 GET - 如果在浏览器中提供了无效的用户名或密码，响应是不同的，但是 GET 和 POST 都来自抓取返回相同的 HTML。

我已经尝试添加在浏览器中生成的所有额外 header (User-Agent、Accept、Accept-Language)，但没有任何影响。

最佳答案

我的问题是我不明白 curl仅将 cookie 写入COOKIEJAR 并且仅从COOKIEFILE 中读取。事实上，如果 cookie 不在服务器的最后响应中，它似乎会从 COOKIEJAR 中删除它们(仍然没有完全分析这一点)。

关于php - 努力用 PHP 抓取 asp.net，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35460417/

有关php - 努力用 PHP 抓取 asp.net的更多相关文章

ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2
作为我的Rails应用程序的一部分，我编写了一个小导入程序，它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是，与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存，我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关，因为当我删除对LDAP内容的调用时，内存使用情况会很好地稳定下来。此外，不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray，它们都是LDAP库的一部分。当我运行导入时，内存使用量最终达到超过1GB的峰值。如果问题存在，我需要找到一些方法来更正我的代
ruby - 如何模拟 Net::HTTP::Post？ - 2
是的，我知道最好使用webmock，但我想知道如何在RSpec中模拟此方法:defmethod_to_testurl=URI.parseurireq=Net::HTTP::Post.newurl.pathres=Net::HTTP.start(url.host,url.port)do|http|http.requestreq,foo:1endresend这是RSpec:let(:uri){'http://example.com'}specify'HTTPcall'dohttp=mock:httpNet::HTTP.stub!(:start).and_yieldhttphttp.shou
ruby - Net::HTTP 获取源代码和状态 - 2
我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态，而无需发出第二个请求。有没有办法用另一种方法做到这一点？我一直在查看文档，但似乎找不到我要找的东西。最佳答案在我看来，除非您需要一些真正的低级访问或控制，否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur
Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting - 2
1.错误信息：Errorresponsefromdaemon:Gethttps://registry-1.docker.io/v2/:net/http:requestcanceledwhilewaitingforconnection(Client.Timeoutexceededwhileawaitingheaders)或者：Errorresponsefromdaemon:Gethttps://registry-1.docker.io/v2/:net/http:TLShandshaketimeout2.报错原因：docker使用的镜像网址默认为国外，下载容易超时，需要修改成国内镜像地址（首先阿里
.net - .NET 将如何影响 Python 和 Ruby 应用程序？ - 2
我很好奇.NET将如何影响Python和Ruby应用程序。用IronPython/IronRuby编写的应用程序是否会非常特定于.NET环境，以至于它们实际上将变得特定于平台？如果他们不使用任何.NET功能，那么IronPython/IronRuby相对于非.NET同类产品的优势是什么？最佳答案我不能说任何关于IronRuby的东西，但是大多数Python实现(如IronPython、Jython和PyPy)都试图尽可能忠实于CPython实现。不过，IronPython正在迅速成为这方面的佼佼者之一，并且在PlanetPyth
ruby - 在 ASP 页面上 Mechanize 中断 - 2
require'mechanize'agent=Mechanize.newlogin=agent.get('http://www.schoolnet.ch/DE/HomeDE.htm')agent.clicklogin.link_withtext:/Login/然后我得到Mechanize::UnsupportedSchemeError。最佳答案 Mechanize不支持javascript但您可以将搜索字段添加到表单并为其分配搜索词并使用mechanize提交表单form=page.forms.firstform.add_fie
ruby - 我需要从 facebook 游戏中抓取数据——使用 ruby - 2
修改(澄清问题)我已经花了几天时间试图弄清楚如何从Facebook游戏中抓取特定信息；但是，我遇到了一堵又一堵砖墙。据我所知，主要问题如下。我可以使用Chrome的检查元素工具手动查找我需要的html-它似乎位于iframe中。但是，当我尝试抓取该iframe时，它是空的(属性除外):如果我使用浏览器的“查看页面源代码”工具，这与我看到的输出相同。我不明白为什么我看不到iframe中的数据。答案不是它是由AJAX之后添加的。(我知道这既是因为“查看页面源代码”可以读取Ajax添加的数据，也是因为我有b/c我一直等到我可以看到数据页面之后才抓取它，但它仍然不存在)。发生这种情况是因为
RUBY - 网页抓取 - (OpenURI::HTTPError) - 2
我正在尝试用ruby编写一个简单的网络抓取代码。它一直工作到第29个url，然后我收到此错误消息:C:/Ruby193/lib/ruby/1.9.1/open-uri.rb:346:in`open_http':500InternalServerError(OpenURI::HTTPError)fromC:/Ruby193/lib/ruby/1.9.1/open-uri.rb:775:in`buffer_open'fromC:/Ruby193/lib/ruby/1.9.1/open-uri.rb:203:in`blockinopen_loop'fromC:/Ruby193/lib/r
ruby - 如何使用 Ruby HTTP::Net 处理 404 错误？ - 2
我正在尝试解析网页，但有时会收到404错误。这是我用来获取网页的代码:result=Net::HTTP::getURI.parse(URI.escape(url))如何测试result是否为404错误代码？最佳答案像这样重写你的代码:uri=URI.parse(url)result=Net::HTTP.start(uri.host,uri.port){|http|http.get(uri.path)}putsresult.codeputsresult.body这将打印状态码和正文。
.net - 是否有 Ruby .NET 编译器？ - 2
是否有适用于Ruby语言的.NETFramework编译器？我听说过DLR(动态语言运行时)，这是否将使Ruby能够用于.NET开发？最佳答案 IronRuby是Microsoft支持的项目，建立在动态语言运行时之上。关于.net-是否有Ruby.NET编译器？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/199638/

php - 努力用 PHP 抓取 asp.net

有关php - 努力用 PHP 抓取 asp.net的更多相关文章

随机推荐