草庐IT

performance - 抓取站点并为每个 URL 编译有效负载统计信息的工具?

我的目标是抓取给定站点,并记录站点上每个页面的总有效负载的统计信息。我所说的有效负载是指下载原始文档、css、js、图像等后的字节数。我正在尝试制作一张图表,显示我网站上“最重”的页面,以便首先处理这些页面。有谁知道执行此操作的任何工具或技术?我的偏好是能够与使用PHP或Python的网络应用程序很好地集成。 最佳答案 我看过plentyofquestionsonSO关于Mechanize,他们通常看起来只用了很少的代码就完成了很多工作。 关于performance-抓取站点并为每个UR

javascript - Google 会抓取嵌入的 Feedburner 供稿吗?

Google是否会使用BuzzBoostjavascript抓取嵌入在HTML页面中的Feedburner供稿?非常感谢您的帮助! 最佳答案 我建议您使用spyder模拟器来查看爬虫可以从您的javascript中实际获得什么。一般来说,speckingspyder在爬取js中嵌入的文本时会遇到一些困难,但他们比前一年要好得多。此外,如果您重新发布已被Feedburner在您的网站上采用的Feed,您可能不会真正提升该内容的搜索引擎...Feedburner是Google集团的一家公司。

seo - 在 robots.txt 中只允许抓取共享主机上的子域而不是子目录?

我刚刚更改了DNS设置,因此文件夹/forum现在是一个子域而不是子目录。如果我做一个robots.txt文件并说:User-agent:*Disallow:/forum这会禁止抓取子目录和子域吗?我想禁止抓取子目录,但允许抓取子域。注意:这是在共享主机上,因此可以访问子目录和子域。这就是我遇到这个问题的原因。那么,我怎样才能只允许抓取子域? 最佳答案 如果你想停止抓取,这是正确的方法。但请注意:如果URL已被编入索引,则不会被删除。我更喜欢的方式是通过元标记将所有页面设置为“noindex/follow”,或者更好的是“canon

apache - 如何防止 Google 抓取 UserDir URL(但不是真实域)?

我们有一些客户在他们的真实域上线之前在UserDirURL上构建他们的站点。UserDirURL始终采用以下格式:http://1.2.3.4/~johndoe有时,Google会抓取这些UserDirURL,即使该网站在http://johndoe.com上线后,临时网站也会显示在结果中。因此,一旦客户在http://johndoe.com上直播,如何阻止Google抓取UserDir地址?(当然,我需要谷歌来抓取真正的域名,因为SEO对我们的客户很重要) 最佳答案 为此,我使用规范标签。如果像这样将规范标签放在index.htm

seo - 使用 robots.txt 仅抓取我的站点地图

我想阻止谷歌抓取我的整个网站-除了站点地图,我可以用它来告诉谷歌优先级和最后更改等。这是一个坏主意吗?我如何在robots.txt中执行此操作? 最佳答案 如果您在Google抓取工具中关闭了全部内容,那么Google也不会抓取Sitemap.xml。谢谢 关于seo-使用robots.txt仅抓取我的站点地图,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/12902568/

ajax - Google AJAX 抓取问题,返回快照 URL 而不是 hashbang URL

我刚刚实现了ajax爬虫,我的URL是:http://acs-germany.de/#!en/homepage该网站刚刚被编入索引,我在这里查看搜索结果:https://www.google.at/#hl=en&q=+site:acs-germany.de+acs-germany.de您会注意到被编入索引的URL包含“片段”。这是一个存在于我的系统上的文件夹,其中包含“ajax”(或更好的dhtml)内容的HTML快照。当跟随该URL时,将提供快照,这反过来会破坏应用程序,因为应用程序是在半生不熟的标记之上实例化的,使网站FUBAR。我用的是apache,我的URL重写规则如下:Opt

jquery - Google 如何使用 jQuery 的加载功能抓取内容?

当您在jQuery中使用.load功能时,我有一个关于SEO的问题。您可以通过引用您单击的链接的href值来加载文档。在第一种情况下,存储html文档的文件夹名称(../ajax/)在标记中提及,而不是在jQuery中:代码:testvarthelink=$(this).attr('href');$('#content').load(thelink);或者您可以通过在jQuery而不是标签中添加html文档的文件夹名称来加载文档。代码:test$('#content').load('ajax/test.html');我想知道哪种方法对搜索引擎优化最友好。我现在使用第一个示例,但我注意到

seo - 选项卡中的内容不可抓取。博士

我在我的网页上创建了多个标签,但谷歌爬虫只抓取默认标签中的内容。当我在缓存副本的纯文本版本中检查时,其他选项卡中的内容不会被谷歌爬虫抓取。谁能看看代码并指导我应该怎么做才能使其可抓取?网页是:http://www.itdevicesonline.com/SDX1-25C-BULK.php 最佳答案 如果禁用了javascript,只需让您的网站显示所有选项卡。使用text-onlywebbrowserlikelynx测试您的网站更好地感受谷歌看到的内容:Follow@itdevicesonline*Home*|*AboutUs*|*

asp.net-mvc - 具有 HttpPost 属性的操作的可抓取性

使用的技术是ASP.NETMVC4。搜索引擎是否能够抓取具有HttpPost属性的操作?谢谢。 最佳答案 是的,Googlebot能够执行POST请求。(参见:http://googlewebmastercentral.blogspot.de/2011/11/get-post-and-safely-surfacing-more-of.html)但您不应该指望它。对我来说,无法预测哪些表单已提交,哪些未提交。我的建议:确保每个具有排名潜力的URL都可以通过GET请求访问。这也可能帮助您通过robots.txt控制索引

web-crawler - 如何在我的网站上抓取每个产品在谷歌上的类别

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎与helpcenter中定义的范围内的编程无关。.关闭8年前。Improvethisquestion我是SEO方面的新手!我想为我基于PHP的网站的每个产品创建更好的Google搜索结果。我的网站上有大约8,00,000到10,00,000种lac产品和90-100个类别。现在我想为所有产品创建SEO,以便Google可以轻松抓取我的产品。那么请帮我看看如何为这么多产品创建站点地图,以及如何通知谷歌抓取我的站点地图?