robot_hunt_maze

seo - Robots Meta 插件的最佳配置是什么？

关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗？Updatethequestion所以它是on-topic用于堆栈溢出。关闭11年前。Improvethisquestion我需要了解RobotsMeta的最佳配置。那是一个wordpressplugin搜索引擎优化。

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎与helpcenter中定义的范围内的编程无关。.关闭9年前。Improvethisquestion我想阻止所有机器人抓取子目录http://www.mysite.com/admin以及该目录中的任何文件和文件夹。例如，/admin中可能还有更多目录，例如http://www.mysite.com/admin/assets/img我不确定在robots.txt中包含什么是正确的声明来执行此操作。应该是:User-agent:*Disallow:/admin/或者:User-agent:*D

子目子目录 section code admin seo search-engine robots.txt robot

seo - 如何设置允许除主页之外的所有页面的 robots.txt？

如果我有一个名为http://example.com的网站，在它下面我有文章，例如:http://example.com/articles/norwegian-statoil-ceo-resigns基本上，我不希望首页中的文本显示在Google搜索结果中，因此当您搜索“statoilceo”时，您只会得到文章本身，而不是包含此文本但不包含该文本的首页文章本身。最佳答案如果您这样做了，那么Google仍然可以显示您的主页，并在链接下方显示一条注释，说明他们无法抓取该页面。这是因为robots.txt不会阻止页面被索引。您不能为主页

robots seo section example noreferrer robots.txt

seo - 我们无法访问您网站的 robots.txt 文件

我使用谷歌网站管理员验证了我的网站。我在Wordpress中制作了我的网站，并且还添加了robots.txt。现在谷歌在DNS和服务器连接上显示绿色勾号标记，但在robots.txt提取上显示黄色警告标记..我的robots.txt文件是这样的:robotsfile此外，当我在网站管理员中运行robots.txt测试时，它会给出允许的结果。我的网站甚至没有被谷歌搜索到。当我在网站管理员中提交我的网站时，它没有显示错误，但现在显示了。请帮助解决这个问题。最佳答案如果您使用wordpress制作您的网站它会自动为你生成一个robot

robots seo section txt google-search-console google-crawlers

seo - 使用 robots.txt 阻止来自搜索引擎的 100 多个 url

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎与helpcenter中定义的范围内的编程无关。.关闭5年前。Improvethisquestion我的网站上有大约100个页面，我不想在google中编入索引...有什么方法可以使用robots.txt来阻止它...编辑每个页面会非常烦人并添加noindex元标记....我想阻止的所有url都像...www.example.com/index-01.htmlwww.example.com/index-02.htmlwww.example.com/index-03.htmlwww.exam

robots seo section example class search-engine robots.txt googlebot

seo - robots.txt 网址拦截

这个问题在这里已经有了答案:HowdoIdisallowspecificpagefromrobots.txt(4个答案)关闭5年前。我正在尝试为网页设置robot.txt，但在测试时禁止不起作用想要屏蔽感谢页面http://designs.webelevate.net/wordpress/index.php/contact-thank-page/使用代码不允许:/index.php/contact-thank-page/有什么建议吗？

robots seo section contact-thank-page notice

web-crawler - 提交的 URL 被 robots.txt 阻止

在过去的几周里，Google一直在报告SearchConsole中的一个错误。越来越多的我的页面不允许抓取-覆盖率报告说:提交的URL被robots.txt阻止。如您所见，我的robots.txt非常简单，为什么大约20%的页面会出现此错误，我迷失了......User-agent:*Disallow:/cgi-bin/Allow:/Sitemap:https://www.theartstory.org/sitemapindex.xmlHost:https://www.theartstory.org显示错误的示例页面:https://www.theartstory.org/moveme

web-crawler crawler theartstory section https seo robots.txt

search - 如何禁止 robots.txt 中的特定页面，但允许其他所有页面？

是这样吗？User-agent:*Allow:/Disallow:/a/*我有这样的页面:mydomaink.com/a/123/group/4mydomaink.com/a/xyz/network/google/group/1我不想让它们出现在Google上。最佳答案您的robots.txt看起来是正确的。你可以testininyourGoogle'sWebmasterToolsaccount如果您想100%确定。仅供引用，在robots.txt中屏蔽页面不保证它们不会出现在搜索结果中。它只会阻止搜索引擎抓取这些页面。如果他们

search robots section code seo robots.txt

seo - Robots.txt 被正则表达式禁止

在我的网站上，我有一个购物车页面，即:http://www.example.com/cart和另一个卡通页面:http://www.example.com/cartoons。我应该如何在我的robots.txt文件中写入以仅忽略购物车页面？购物车页面不接受URL上的结尾斜杠，所以如果我这样做:Disallow:/cart，它也会忽略/cartoon。我不知道这是否可能，它会被蜘蛛机器人正确解析，比如/cart$。我不想强制Allow:/cartoon因为可能是另一个具有相同前缀的页面。最佳答案在originalrobots.tx

Robots seo code section cart robots.txt

heroku - robots.txt 和禁止绝对路径 URL

我正在使用Heroku管道。所以当我推送我的应用程序时，它被推送到暂存应用程序https://appname.herokuapp.com/如果一切正确，我会将该应用程序推广到产品中。没有新的构建过程。这是第一次为暂存构建的应用程序。https://appname.com/问题在于，这会导致重复内容问题。网站是彼此的克隆。完全相同的。我想从Google索引和搜索引擎中排除登台应用。我想到的一种方法是使用robots.txt文件。为了让它工作，我应该这样写User-agent:*Disallow:https://appname.herokuapp.com/使用绝对路径，因为该文件将位于暂存

绝对 heroku code https appname seo robots.txt noindex

1 2 345 6 7