草庐IT

网页采集

全部标签

c# - 如何使用带有 WebMatrix 的 C#.net 网页访问单个 XML 元素的值?

我查看了很多资源,做了很多研究,并尝试了很多“最佳猜测”以使用带有C#的WebMatrix、网页一次访问单个元素,但是我没有尝试通过。考虑一个如下所示的简单xml文档:Iamelement1Iamelement2我知道我可以像这样使用foreach循环:@usingSystem.Xml.LinqXDocumentdoc=XDocument.Load(Server.MapPath("~/User_Saves/cradebaugh/testFile.xml"));foreach(XElementelementindoc.Descendants("requisitionData")){@el

xml - 使用并行化通过 R 抓取网页

我正在尝试抓取大量网页以便稍后对其进行分析。由于URL的数量巨大,我决定将parallel包与XML一起使用。具体来说,我正在使用XML中的htmlParse()函数,它在与sapply一起使用时工作正常,但会生成空对象与parSapply一起使用时的HTMLInternalDocument类。url1Classes'HTMLInternalDocument','HTMLInternalDocument','XMLInternalDocument','XMLAbstractDocument','oldClass'output1[[1]]#Doesn'tworkmyFunctionCla

c# - WPF 网页浏览器 : changing IE print dialog properties programmatically

我正在使用WPFWebBrowser控件编写应用程序。它的来源是来自数据库的xml/xslt来源的结果。在包含WebBrowser的窗口中,有一个用于使用处理程序打印的按钮:mshtml.IHTMLDocument2doc=WBrowser.Documentasmshtml.IHTMLDocument2;doc.execCommand("Print",true,0);但在这种情况下,打印文档中没有背景。我已经研究过这个问题,InternetExplorer页面设置对话框中的属性有问题-允许打印背景颜色和图像。我试图通过这段代码来改变它:RegistryKeyregKey=Registr

xml - 如何从 R 中抓取的网页中分离出单个元素

我想使用R来抓取此页面:(http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html)和其他页面,以获得进球得分手和时间。到目前为止,这是我得到的:require(RCurl)require(XML)theURL并且pagetree对象现在包含指向我解析的html的指针(我认为)。我想要的部分是:GoalsscoredPhilippLAHM(GER)6',PauloWANCHOPE(CRC)12',MiroslavKLOSE(GER)17',MiroslavKLO

xml - 是什么阻止了 XSLT 在网页上的广泛使用?

为什么没有更多的网页使用带有XSLT样式表的XML编写?对于将内容与表示分离,这与CSS结合会更加强大。现在,对于像输出导航菜单这样的事情,人们经常从一个页面到另一个页面手工复制navmenu代码或者做类似的事情在每个页面上,这不仅对服务器提出了更高的要求,而且导致重复传输数据。当我被介绍到它时,我被告知所有回到IE6的主流浏览器都支持XSLT1.0...实现之间是否存在无法解决的错误?是否还有其他阻碍XML+XSLT传播的阻碍因素或严重缺乏的特性?我最近看到的唯一一个使用XML+XSLT的网站是starcraft2.com。 最佳答案

c++ - 如何显示网页

我想在我的程序中显示网页。我使用Dev-C++,我是新手。我该怎么做?最好的问候 最佳答案 您可以使用wxWebConnect组件,它是wxWidgets的Web浏览器控件库使开发人员能够快速将高级Web浏览器功能集成到他们自己的应用程序中。 关于c++-如何显示网页,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/3745174/

windows - 如何判断网页是否已在 WebBrowser 控件中加载

我正在尝试编写一个程序来告诉我的祖母互联网是否在线。我知道,我知道,她就是不明白。所以我想创建一个程序来加载google.com或其他东西,我想让这个程序做的就是告诉她是否找到了该网站。有没有办法用WebBrowser控件做到这一点?如果有任何帮助,我将不胜感激!谢谢,塞西尔 最佳答案 你应该使用Pingclass.调用Ping.Send("google.com")并检查Status是否为Success。 关于windows-如何判断网页是否已在WebBrowser控件中加载,我们在St

windows - 自动网页截图

我们有一台用于CSS编码器的PC,有17种不同的浏览器版本。不知是否可以编写一个自动截图脚本。算法:脚本获取要检查的URL。脚本打开浏览器,截取屏幕截图并保存,如果需要,向下滚动以制作其他屏幕截图,直到覆盖整个页面。AutoIt的API很简单并且面向Windows。使用AutoIt,我如何:打开网络浏览器?传递一个URL给它?制作屏幕截图并将其保存到文件系统?定义是否需要滚动?按显示器大小滚动页面(以便覆盖整个页面)? 最佳答案 在相当复杂的场景的早期阶段(例如登录->转到页面->单击一个项目),您可能需要查看Selenium!文档

windows - 如何将不断变化的网页存储在变量中?

我的脚本在我的学校为小组项目自动执行房间预订流程。我创建了一个工作正常的自动登录脚本。现在我想从加载的页面访问不同的元素(复选框、单选按钮...)。如何从我登录的页面保存各种元素并对它们执行某些操作?FuncSignIn()Global$window=_IECreate("https://roombooking.au.dk/classes/Login.aspx?ReturnUrl=%2fclasses%2fbook.aspx")_IELoadWait($window)If@errorThenReturnWinSetState("[ACTIVE]","",@SW_MAXIMIZE)Loc

windows - 从网页自动下载文件

我正在寻找一种从网站自动下载文件的方法。目前,该过程确实是手动且繁重的。我进入一个网页,输入我的通行证并登录。它会打开一个弹出窗口,我必须在其中单击下载按钮以保存.zip文件。关于如何自动执行此任务,您有什么建议吗?我在windows7上,主要会用MSdosbatch,或者python。但我对其他想法持开放态度。 最佳答案 您可以使用selenium网络驱动程序来自动下载。您可以在java中使用以下代码片段获取浏览器下载首选项。FirefoxProfileprofile=newFirefoxProfile();profile.set