Robots

asp.net - 为 ASP.NET MVC 站点创建 robots.txt

我正在为我的网站创建一个robots.txt文件，但查看我的项目结构后，我不确定要禁止什么。我是否需要禁止标准.NETMVC目录和文件，例如/App_Data、/web.config、/Controllers、/Models、/Global.asax？或者那些还没有被编入索引？像/bin和/obj这样的目录呢？如果我想禁止某个页面，我是禁止/Views/MyPage/Index.cshtml还是/MyPage？此外，在robots.txt文件中指定站点地图时，我可以使用我的Web.sitemap吗，还是需要使用不同的xml文件？最佳答案

robots asp section 爬虫 code asp.net .net seo robots.txt

seo - robots.txt 错误 : Content Type should be text/plain

我正在使用名为SearchEngineOptimization(SEO)Toolkit1.0的软件测试我的网站，它显示此错误:Thecontenttypefortheresponsefrom"htpp://mysite.com/robots.txt"is"text/html".TheWebservershouldreturn"text/plain"asthecontenttypeforaRobots.txtfile.我的robots.txt文件就是这样的:User-agent:*Allow:/使用不带BOM编码的UTF-8保存。这是错的吗？默认的、无害的robots.txt文件应该是什

Content robots section code seo content-type robots.txt plaintext robot

seo - 如何在 robots.txt 中禁止服务 api 和多语言 url

我需要禁止下一个URL:serviceapi/_s/user,/_s/place,...都以/_s/开头保存表格:/{language}/save。例如/{en}/save,/{ru}/save,...注意:大多数URL开头都有语言参数:/en/event，……我不想屏蔽它们。应该是这样的:(但是robots.txt格式不允许这样做)Disallow:/_s/*Disallow:/:lang/save 最佳答案在robots.txt中，匹配是从左边开始的，因此它匹配任何以/pattern开头的内容。像/*pattern这样的通配符

多语何在 code section save seo robots.txt

meteor - 部署特定的 robots.txt 与 meteor ？

我想在我的Meteor应用程序(位于*.meteor.com)的暂存部署中包含一个public/robots.txt文件，基本上是为了完全避免抓取该版本的网站。我怎样才能做到这一点？我正在使用meteordeploy命令部署到暂存区。最佳答案我想出了一个(希望是临时的？)解决方案，在调用meteordeploy之前使用创建public/robots.txt的部署脚本，最后删除public/robots.txt。脚本:#!/usr/bin/envpythonimportsubprocessimportos.pathdpath=os

meteor robots section seo

html - 你如何创建一个 robots.txt 文件来阻止除根之外的所有内容

如何创建一个有效的robots.txt文件来阻止除根以外的所有爬虫请求，也就是登陆http://www.mysite.com 最佳答案假设根目录的默认页面名为index.htm，我相信这会实现您的要求。User-agent:*Allow:/index.htmDisallow:/Google的网站管理员工具有一些greathelp用于制定robots.txt，如果您使用网站站长工具，您还会获得一个robots.txt生成器/测试器。关于html-你如何创建一个robots.txt文件来

除根 robots section code html ruby-on-rails seo robots.txt

seo - 子域与子目录以阻止爬虫

我在谷歌上搜索了很多文章，也阅读了很多文章，但react不一。如果我想阻止网站的某个部分被搜索引擎编入索引，我对哪个更好的选择感到有点困惑。基本上我对我的网站做了很多更新，也为客户设计，我不希望我为预览上传的所有“测试数据”都被编入索引以避免重复内容问题。我应该使用子域并阻止整个子域吗或创建一个子目录并使用robots.txt阻止它。我是网页设计的新手，对使用子域有点不安全(在某处读到这是一个有点高级的过程，即使是一个小错误也可能导致严重后果，而且MattCutts也提到了类似的东西(source):"I’drecommendusingsubdirectoriesuntilyousta

子目爬虫 section robots seo indexing search-engine web-crawler

php - 谷歌上的重复内容。 htaccess 或 robots.txt？

关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗？Updatethequestion所以它是on-topic用于堆栈溢出。关闭10年前。Improvethisquestion在我的网站中，我有以下类别的url结构:/category.php?id=6(id=6为internet类别)我的SEO友好url是这样的:/category/6/internet/问题是它可以通过任何这些形式访问，因此，我在谷歌上得到了重复的内容。所以，我想知道我该如何解决这个问题。我是否应该在robots.txt上禁止任何带有的url？？如果是这样，我该如何正确设置它？我应该在.htacc

htaccess robots section code stackoverflow php .htaccess seo robots.txt canonical-link

seo - robots.txt 如何忽略其中包含 action=history 的任何内容？

我有一个MediaWiki，我不希望Google索引任何页面的历史记录。robots.txt如何禁止查询字符串中包含action=history的URL？最佳答案历史View(以及其他几个View，例如日志等)的HTML包含一个“noindex,nofollow”元声明。合规的用户代理(例如Googlebot)将尊重此建议，而不会费心为页面编制索引。关于seo-robots.txt如何忽略其中包含action=history的任何内容？，我们在StackOverflow上找到一个类

history robots section 中包 code seo wiki mediawiki robots.txt

indexing - 如何检查 googlebot 是否会索引给定的 url？

我们正在做一个白标签网站，它不能被谷歌索引。有谁知道一种工具可以检查googlebot是否会为给定的url编制索引？我输入了在所有页面上，因此不应将其编入索引-但是我宁愿通过测试来110%确定。我知道我可以使用robots.txt，但是robots.txt的问题如下:我们的主站点应该被索引，它是IIS(ASP.Net)上与白标签站点相同的应用程序-唯一的区别是url。我无法根据传入的url修改robots.txt，但我可以从我的代码隐藏中向所有页面添加元标记。最佳答案您应该添加一个Robots.txt到您的网站。但是，防止搜索引

给定 googlebot section Robots txt indexing seo

perl - 如何使用 Perl Dancer 服务 robots.txt

我正在尝试使用PerlDancer网络框架提供robots.txt。我认为有一个只返回文本的路由会起作用，但它似乎将它包装在html和body标签中。我假设这不会被抓取工具正确解释为robots.txt文件。知道如何正确地做到这一点吗？这是我写的路线:获取'/robots.txt'=>sub{返回“用户代理:*\nDisallow:/”；};提前致谢! 最佳答案是什么让您认为它被包裹在HTML和BODY元素中？useDancer;get'/robots.txt'=>sub{return"User-agent:*\nDisallow

Dancer robots code section perl web seo web-crawler

10 11 121314 15 16