抓取_草庐IT

performance - 抓取站点并为每个 URL 编译有效负载统计信息的工具？

我的目标是抓取给定站点，并记录站点上每个页面的总有效负载的统计信息。我所说的有效负载是指下载原始文档、css、js、图像等后的字节数。我正在尝试制作一张图表，显示我网站上“最重”的页面，以便首先处理这些页面。有谁知道执行此操作的任何工具或技术？我的偏好是能够与使用PHP或Python的网络应用程序很好地集成。最佳答案我看过plentyofquestionsonSO关于Mechanize,他们通常看起来只用了很少的代码就完成了很多工作。关于performance-抓取站点并为每个UR

javascript - Google 会抓取嵌入的 Feedburner 供稿吗？

Google是否会使用BuzzBoostjavascript抓取嵌入在HTML页面中的Feedburner供稿？非常感谢您的帮助! 最佳答案我建议您使用spyder模拟器来查看爬虫可以从您的javascript中实际获得什么。一般来说，speckingspyder在爬取js中嵌入的文本时会遇到一些困难，但他们比前一年要好得多。此外，如果您重新发布已被Feedburner在您的网站上采用的Feed，您可能不会真正提升该内容的搜索引擎...Feedburner是Google集团的一家公司。

供稿 javascript section Feedburner seo feed

seo - 在 robots.txt 中只允许抓取共享主机上的子域而不是子目录？

我刚刚更改了DNS设置，因此文件夹/forum现在是一个子域而不是子目录。如果我做一个robots.txt文件并说:User-agent:*Disallow:/forum这会禁止抓取子目录和子域吗？我想禁止抓取子目录，但允许抓取子域。注意:这是在共享主机上，因此可以访问子目录和子域。这就是我遇到这个问题的原因。那么，我怎样才能只允许抓取子域？最佳答案如果你想停止抓取，这是正确的方法。但请注意:如果URL已被编入索引，则不会被删除。我更喜欢的方式是通过元标记将所有页面设置为“noindex/follow”，或者更好的是“canon

子目子目录 section seo robots.txt web-crawler xml-sitemap

apache - 如何防止 Google 抓取 UserDir URL(但不是真实域)？

我们有一些客户在他们的真实域上线之前在UserDirURL上构建他们的站点。UserDirURL始终采用以下格式:http://1.2.3.4/~johndoe有时，Google会抓取这些UserDirURL，即使该网站在http://johndoe.com上线后，临时网站也会显示在结果中。因此，一旦客户在http://johndoe.com上直播,如何阻止Google抓取UserDir地址？(当然，我需要谷歌来抓取真正的域名，因为SEO对我们的客户很重要) 最佳答案为此，我使用规范标签。如果像这样将规范标签放在index.htm

UserDir apache johndoe section http .htaccess seo

seo - 使用 robots.txt 仅抓取我的站点地图

我想阻止谷歌抓取我的整个网站-除了站点地图，我可以用它来告诉谷歌优先级和最后更改等。这是一个坏主意吗？我如何在robots.txt中执行此操作？最佳答案如果您在Google抓取工具中关闭了全部内容，那么Google也不会抓取Sitemap.xml。谢谢关于seo-使用robots.txt仅抓取我的站点地图，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/12902568/

robots seo section stackoverflow questions robots.txt

ajax - Google AJAX 抓取问题，返回快照 URL 而不是 hashbang URL

我刚刚实现了ajax爬虫，我的URL是:http://acs-germany.de/#!en/homepage该网站刚刚被编入索引，我在这里查看搜索结果:https://www.google.at/#hl=en&q=+site:acs-germany.de+acs-germany.de您会注意到被编入索引的URL包含“片段”。这是一个存在于我的系统上的文件夹，其中包含“ajax”(或更好的dhtml)内容的HTML快照。当跟随该URL时，将提供快照，这反过来会破坏应用程序，因为应用程序是在半生不熟的标记之上实例化的，使网站FUBAR。我用的是apache，我的URL重写规则如下:Opt

URL hashbang acs-germany germany section ajax apache seo

jquery - Google 如何使用 jQuery 的加载功能抓取内容？

当您在jQuery中使用.load功能时，我有一个关于SEO的问题。您可以通过引用您单击的链接的href值来加载文档。在第一种情况下，存储html文档的文件夹名称(../ajax/)在标记中提及，而不是在jQuery中:代码:testvarthelink=$(this).attr('href');$('#content').load(thelink);或者您可以通过在jQuery而不是标签中添加html文档的文件夹名称来加载文档。代码:test$('#content').load('ajax/test.html');我想知道哪种方法对搜索引擎优化最友好。我现在使用第一个示例，但我注意到

jquery Google section code href seo web-crawler

seo - 选项卡中的内容不可抓取。博士

我在我的网页上创建了多个标签，但谷歌爬虫只抓取默认标签中的内容。当我在缓存副本的纯文本版本中检查时，其他选项卡中的内容不会被谷歌爬虫抓取。谁能看看代码并指导我应该怎么做才能使其可抓取？网页是:http://www.itdevicesonline.com/SDX1-25C-BULK.php 最佳答案如果禁用了javascript，只需让您的网站显示所有选项卡。使用text-onlywebbrowserlikelynx测试您的网站更好地感受谷歌看到的内容:Follow@itdevicesonline*Home*|*AboutUs*|*

seo 选项卡 Servers Tapes and web-crawler google-crawlers

asp.net-mvc - 具有 HttpPost 属性的操作的可抓取性

使用的技术是ASP.NETMVC4。搜索引擎是否能够抓取具有HttpPost属性的操作？谢谢。最佳答案是的，Googlebot能够执行POST请求。(参见:http://googlewebmastercentral.blogspot.de/2011/11/get-post-and-safely-surfacing-more-of.html)但您不应该指望它。对我来说，无法预测哪些表单已提交，哪些未提交。我的建议:确保每个具有排名潜力的URL都可以通过GET请求访问。这也可能帮助您通过robots.txt控制索引

HttpPost net-mvc section get-post-and-safely-surfacing-mor googlewebmastercentral asp.net-mvc search seo web-crawler

web-crawler - 如何在我的网站上抓取每个产品在谷歌上的类别

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎与helpcenter中定义的范围内的编程无关。.关闭8年前。Improvethisquestion我是SEO方面的新手!我想为我基于PHP的网站的每个产品创建更好的Google搜索结果。我的网站上有大约8,00,000到10,00,000种lac产品和90-100个类别。现在我想为所有产品创建SEO，以便Google可以轻松抓取我的产品。那么请帮我看看如何为这么多产品创建站点地图，以及如何通知谷歌抓取我的站点地图？

站上何在 section class notice web-crawler seo xml-sitemap