抓取_草庐IT

html - Facebook 抓取工具不加载动态元标记

我正在使用下面的函数(GWT)动态创建HTML元标记。在DOM上显示它需要1秒。除了Facebook，它工作正常。当我从我的网站上分享一个链接时，抓取工具会获取HTML中的元标记:无。我该如何解决这个问题？/***IncludetheHTMLattributes:title,descriptionandkeywords(metatags)*/privatevoidcreateHTMLheader(MyClassthing){Stringtitle=thing.getTitle();Stringdescription=thing.getDescription();Document.get

html - Facebook 抓取工具不加载动态元标记

我正在使用下面的函数(GWT)动态创建HTML元标记。在DOM上显示它需要1秒。除了Facebook，它工作正常。当我从我的网站上分享一个链接时，抓取工具会获取HTML中的元标记:无。我该如何解决这个问题？/***IncludetheHTMLattributes:title,descriptionandkeywords(metatags)*/privatevoidcreateHTMLheader(MyClassthing){Stringtitle=thing.getTitle();Stringdescription=thing.getDescription();Document.get

Facebook html code description section web-scraping meta-tags scraper

html - 使用vba从网站抓取数据

我正在尝试从网站抓取数据:http://uk.investing.com/rates-bonds/financial-futures通过vba，比如实时价格，即德国5年Bobl、美国30年国债，我试过excel网络查询，但它只抓取了整个网站，但我只想抓取利率，有没有办法做这个？最佳答案有几种方法可以做到这一点。这是我写的一个答案，希望在浏览关键字“从网站上抓取数据”时能找到InternetExplorer自动化的所有基础知识，但请记住，没有什么值得你自己研究(如果你不想坚持您无法自定义的预写代码)。请注意，这是一种方式，在性能方

html vba code section pre excel web-scraping

html - 使用vba从网站抓取数据

我正在尝试从网站抓取数据:http://uk.investing.com/rates-bonds/financial-futures通过vba，比如实时价格，即德国5年Bobl、美国30年国债，我试过excel网络查询，但它只抓取了整个网站，但我只想抓取利率，有没有办法做这个？最佳答案有几种方法可以做到这一点。这是我写的一个答案，希望在浏览关键字“从网站上抓取数据”时能找到InternetExplorer自动化的所有基础知识，但请记住，没有什么值得你自己研究(如果你不想坚持您无法自定义的预写代码)。请注意，这是一种方式，在性能方

html vba code section pre excel web-scraping

python - 通过仅下载网页的相关部分来抓取标题

我只想使用Python抓取网页的标题。我需要为数以千计的站点执行此操作，因此速度必须很快。我看过以前的问题，例如retrievingjustthetitleofawebpageinpython，但我发现的所有这些都在检索标题之前下载了整个页面，这似乎非常低效，因为标题通常包含在HTML的前几行中。是否可以在找到标题之前只下载网页的部分内容？我尝试了以下方法，但page.readline()下载了整个页面。importurllib2print("Lookingup{}".format(link))hdr={'User-Agent':'Mozilla/5.0','Accept':'text

下载网 python strong code 39 html performance web-scraping

python - 通过仅下载网页的相关部分来抓取标题

我只想使用Python抓取网页的标题。我需要为数以千计的站点执行此操作，因此速度必须很快。我看过以前的问题，例如retrievingjustthetitleofawebpageinpython，但我发现的所有这些都在检索标题之前下载了整个页面，这似乎非常低效，因为标题通常包含在HTML的前几行中。是否可以在找到标题之前只下载网页的部分内容？我尝试了以下方法，但page.readline()下载了整个页面。importurllib2print("Lookingup{}".format(link))hdr={'User-Agent':'Mozilla/5.0','Accept':'text

下载网 python strong code 39 html performance web-scraping

c# - 使用 C# 抓取由 JavaScript 生成的网页

我有一个Web浏览器和VisualStudio中的一个标签，基本上我想做的是从另一个网页中抓取一个部分。我尝试使用WebClient.DownloadString和WebClient.DownloadFile，它们都在JavaScript加载内容之前为我提供了网页的源代码。我的下一个想法是使用网络浏览器工具，并在页面加载后调用webBrowser.DocumentText，但这没有用，它仍然为我提供了页面的原始来源。有没有办法在JavaScript加载后抓取页面？最佳答案问题是浏览器通常会执行javascript并导致更新的DO

c#code phantomjs driver javascript html visual-studio web-scraping

c# - 使用 C# 抓取由 JavaScript 生成的网页

我有一个Web浏览器和VisualStudio中的一个标签，基本上我想做的是从另一个网页中抓取一个部分。我尝试使用WebClient.DownloadString和WebClient.DownloadFile，它们都在JavaScript加载内容之前为我提供了网页的源代码。我的下一个想法是使用网络浏览器工具，并在页面加载后调用webBrowser.DocumentText，但这没有用，它仍然为我提供了页面的原始来源。有没有办法在JavaScript加载后抓取页面？最佳答案问题是浏览器通常会执行javascript并导致更新的DO

c#code phantomjs driver javascript html visual-studio web-scraping

php - PHP 网页抓取

我正在寻找一种方法来根据用户在PHP中给出的URL对另一个页面进行小的预览。.我只想检索页面的标题、图像(如网站Logo)和一些文本或描述(如果可用)。没有任何外部库/类，有没有简单的方法可以做到这一点？谢谢到目前为止，我已经尝试使用DOCDocument类，加载HTML并将其显示在屏幕上，但我认为这不是正确的方法最佳答案我建议您考虑simple_html_dom为了这。这将使它变得非常容易。这是一个如何提取标题和第一张图片的工作示例。find('title',0);$image=$html->find('img',0);ech

php section 39 title html curl html-parsing web-scraping

php - PHP 网页抓取

我正在寻找一种方法来根据用户在PHP中给出的URL对另一个页面进行小的预览。.我只想检索页面的标题、图像(如网站Logo)和一些文本或描述(如果可用)。没有任何外部库/类，有没有简单的方法可以做到这一点？谢谢到目前为止，我已经尝试使用DOCDocument类，加载HTML并将其显示在屏幕上，但我认为这不是正确的方法最佳答案我建议您考虑simple_html_dom为了这。这将使它变得非常容易。这是一个如何提取标题和第一张图片的工作示例。find('title',0);$image=$html->find('img',0);ech

php section 39 title html curl html-parsing web-scraping