草庐IT

反爬虫

全部标签

ajax - 与服务器端创建网站 SEO 相比,ajax 爬虫有多有效?

我正在寻找关于ajax爬虫的真实世界经验:http://code.google.com/web/ajaxcrawling/index.html我特别担心最近臭名昭著的Gizmodo失败,我知道我现在可以通过Google找到它们,但我不清楚这种ajax爬虫方法与服务器端生成的站点相比有多有效。我想制作一个主要位于客户端的wiki,并由ajaxjson填充。它只是感觉更流畅,我认为这将比我的竞争对手加分。(维基百科,维基媒体)显然,对于wiki而言,有效的SEO非常重要。如果您有处理客户端开发的任何经验,我将非常高兴。我的研究表明,目前网络上的普遍共识是,您绝对应该避免使用ajax网站,除

seo - 如果我使用的是 Apache 2,我应该如何处理使用 HTTP/0.9 的蜘蛛/网络爬虫?

我使用Apache2提供内容,BingBot使用HTTP/0.9从我的服务器请求页面,该服务器不提供直接IP主机。如果我不知道他们想要哪个主机,但仍然需要他们为我的网站编制索引,我应该如何处理蜘蛛?我目前返回400BadRequest,但我的网站不会被Bing或Yahoo编入索引,这让我很紧张。谢谢 最佳答案 [SOLVED]:Ihavebeenreturning400BadRequestandBing/Yahoohavetakenthehint. 关于seo-如果我使用的是Apache

html - 爬虫能否找到使用 body 的 onLoad() 和 ajax 加载的内容?

我创建了一个HTML页面,我在其中使用body的onLoad回调,通过Ajax调用从Servlet获取内容并将其发送到div(内容包含有关书籍的信息-每本书作为包含标题,标签的表格、作者等)。现在我想知道当我将此页面提交给搜索引擎时,机器人是否能够抓取此ajax内容?感谢任何帮助/建议! 最佳答案 没有。搜索引擎一般不会抓取Ajax内容。唯一的异常(exception)是Google'scrawlableajaxproposal你显然没有实现。Butitsuseisdiscouragedanyway.所以你的网站绝对不是搜索引擎友好

jquery - 将 Solr 暴露给搜索引擎爬虫 (SEO) 的策略

我有一个Solr搜索服务器,它为我的Web前端提供JSON,它使用jQuery根据用户提供的搜索词和选定的方面获取数据。一旦显示初始搜索结果(带分页)并且用户单击结果,Web前端查询我的数据库以获取产品详细信息并将其显示给用户。现在我想弄清楚在这种情况下将此内部搜索公开给SEO的最佳策略是什么,以便Google用户(例如)可以找到我的Solr搜索服务器返回的产品并能够看到产品详细信息?我不确定实际上允许爬虫遍历我们的内部搜索页面是否是个好主意,因为它可能会影响Solr缓存和驱逐(负面?)。但在那种情况下,我该如何将只能通过搜索结果访问的产品详细信息公开给爬虫?(我知道AJAX的hash

javascript - 有没有告诉爬虫/机器人 : "don' t use javascript"? 的选项

我正在搜索这个主题但没有结果,所以我考虑提出一个问题。我知道有一个选项可以让AJAX加载的页面“可抓取”,使用www.example.com/#!somecontent。但是是否有一个选项(即元标记或robots.txt变量)说:“嘿,机器人,禁用javascipt!”?它可以用在例子中:1)在线javascript游戏,其中有大量的javascript,对SEO和机器人爬行没有什么特别的(机器人内存和时间节省)2)使用PHP、HTML、CSS(更改元标记等)为机器人构建站点。然后使用AJAX添加一些额外的功能(例如仅重新加载内容,但不更改元标记),爬虫和机器人不需要分析。在那种情况下

seo - 谷歌爬虫错误如何解决

我完全重写了我的网站,现在谷歌显示旧网站有17000个链接错误。最好的解决方案是什么,因为我无法手动删除一个url或一个一个禁止robots.txt新的站点地图可以帮助解决这个问题吗? 最佳答案 你看过这个吗:http://moz.com/blog/how-to-fix-crawl-errors-in-google-webmaster-tools这是我唯一能真正告诉你的事情。新的站点地图应该可以解决这个问题。 关于seo-谷歌爬虫错误如何解决,我们在StackOverflow上找到一个类

python - Appengine Apps 与 Google bot 网络爬虫

我构建了一个应用引擎网络应用cricket.hover.in。该网络应用程序包含大约15k个网址链接在其中,但即使在我发布很长时间后,也没有任何页面被谷歌索引。我的根站点hover.in上的任何基本链接位置都在几分钟内被编入索引。但我把根站点的相同链接主页放在一个很长的后面。但它没有用。如果cricket.hover.in或有任何问题,任何人都可以分析吗?如果机器人对Google应用引擎有任何问题实际使用谷歌网站管理员工具的实验室应用程序测试了url,返回正常,html清晰。但是当在以下url中测试相同的(cricket.hover.in)时,它显示不同的失败结果www.dnsquer

ajax - AngularJS/AJAX 应用程序和搜索引擎爬虫

我有一个大量使用AngularJS/AJAX的网络应用程序,我希望它可以被Google和其他搜索引擎抓取。我的理解是我需要做一些特别的事情才能让它工作,如下所述:https://developers.google.com/webmasters/ajax-crawling不幸的是,这看起来很讨厌,我不想引入散列标签。我想做的是直接或通过向其发送302重定向向Googlebot(基于用户代理)提供静态页面。这样,Web应用程序就可以相同,并且整个Googlebot变通办法都很好地隔离,直到不再需要它为止。我担心的是Google可能会错误地认为我在试图欺骗Googlebot,而我的目标是帮助

indexing - <noscript> 会向 Google 爬虫隐藏其余的静态内容吗?

这对某些人来说应该很简单:请问元素导致HTML页面仅提供中的内容将自己标记为谷歌爬虫并隐藏我所有其余的静态内容导致它不被编入索引?谢谢! 最佳答案 没有。爬虫将看到您的所有内容,都在中。元素和其他任何地方。爬虫的行为很像关闭了JavaScript的浏览器-它们会看到所有静态内容以及内容,但不依赖于JavaScript。 关于indexing-会向Google爬虫隐藏其余的静态内容吗?,我们在StackOverflow上找到一个类似的问题: https://st

web-applications - 网络爬虫应用

谁能推荐一个可以显示我网站中所有链接的网站抓取工具? 最佳答案 W3C有我发现的最好的http://validator.w3.org/checklink 关于web-applications-网络爬虫应用,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/1592213/