草庐IT

robot_hunt_maze

全部标签

seo - Robots Meta 插件的最佳配置是什么?

关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗?Updatethequestion所以它是on-topic用于堆栈溢出。关闭11年前。Improvethisquestion我需要了解RobotsMeta的最佳配置。那是一个wordpressplugin搜索引擎优化。

seo - robots.txt 阻止机器人爬行子目录

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎与helpcenter中定义的范围内的编程无关。.关闭9年前。Improvethisquestion我想阻止所有机器人抓取子目录http://www.mysite.com/admin以及该目录中的任何文件和文件夹。例如,/admin中可能还有更多目录,例如http://www.mysite.com/admin/assets/img我不确定在robots.txt中包含什么是正确的声明来执行此操作。应该是:User-agent:*Disallow:/admin/或者:User-agent:*D

seo - 如何设置允许除主页之外的所有页面的 robots.txt?

如果我有一个名为http://example.com的网站,在它下面我有文章,例如:http://example.com/articles/norwegian-statoil-ceo-resigns基本上,我不希望首页中的文本显示在Google搜索结果中,因此当您搜索“statoilceo”时,您只会得到文章本身,而不是包含此文本但不包含该文本的首页文章本身。 最佳答案 如果您这样做了,那么Google仍然可以显示您的主页,并在链接下方显示一条注释,说明他们无法抓取该页面。这是因为robots.txt不会阻止页面被索引。您不能为主页

seo - 我们无法访问您网站的 robots.txt 文件

我使用谷歌网站管理员验证了我的网站。我在Wordpress中制作了我的网站,并且还添加了robots.txt。现在谷歌在DNS和服务器连接上显示绿色勾号标记,但在robots.txt提取上显示黄色警告标记..我的robots.txt文件是这样的:robotsfile此外,当我在网站管理员中运行robots.txt测试时,它会给出允许的结果。我的网站甚至没有被谷歌搜索到。当我在网站管理员中提交我的网站时,它没有显示错误,但现在显示了。请帮助解决这个问题。 最佳答案 如果您使用wordpress制作您的网站它会自动为你生成一个robot

seo - 使用 robots.txt 阻止来自搜索引擎的 100 多个 url

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎与helpcenter中定义的范围内的编程无关。.关闭5年前。Improvethisquestion我的网站上有大约100个页面,我不想在google中编入索引...有什么方法可以使用robots.txt来阻止它...编辑每个页面会非常烦人并添加noindex元标记....我想阻止的所有url都像...www.example.com/index-01.htmlwww.example.com/index-02.htmlwww.example.com/index-03.htmlwww.exam

seo - robots.txt 网址拦截

这个问题在这里已经有了答案:HowdoIdisallowspecificpagefromrobots.txt(4个答案)关闭5年前。我正在尝试为网页设置robot.txt,但在测试时禁止不起作用想要屏蔽感谢页面http://designs.webelevate.net/wordpress/index.php/contact-thank-page/使用代码不允许:/index.php/contact-thank-page/有什么建议吗?

web-crawler - 提交的 URL 被 robots.txt 阻止

在过去的几周里,Google一直在报告SearchConsole中的一个错误。越来越多的我的页面不允许抓取-覆盖率报告说:提交的URL被robots.txt阻止。如您所见,我的robots.txt非常简单,为什么大约20%的页面会出现此错误,我迷失了......User-agent:*Disallow:/cgi-bin/Allow:/Sitemap:https://www.theartstory.org/sitemapindex.xmlHost:https://www.theartstory.org显示错误的示例页面:https://www.theartstory.org/moveme

search - 如何禁止 robots.txt 中的特定页面,但允许其他所有页面?

是这样吗?User-agent:*Allow:/Disallow:/a/*我有这样的页面:mydomaink.com/a/123/group/4mydomaink.com/a/xyz/network/google/group/1我不想让它们出现在Google上。 最佳答案 您的robots.txt看起来是正确的。你可以testininyourGoogle'sWebmasterToolsaccount如果您想100%确定。仅供引用,在robots.txt中屏蔽页面不保证它们不会出现在搜索结果中。它只会阻止搜索引擎抓取这些页面。如果他们

seo - Robots.txt 被正则表达式禁止

在我的网站上,我有一个购物车页面,即:http://www.example.com/cart和另一个卡通页面:http://www.example.com/cartoons。我应该如何在我的robots.txt文件中写入以仅忽略购物车页面?购物车页面不接受URL上的结尾斜杠,所以如果我这样做:Disallow:/cart,它也会忽略/cartoon。我不知道这是否可能,它会被蜘蛛机器人正确解析,比如/cart$。我不想强制Allow:/cartoon因为可能是另一个具有相同前缀的页面。 最佳答案 在originalrobots.tx

heroku - robots.txt 和禁止绝对路径 URL

我正在使用Heroku管道。所以当我推送我的应用程序时,它被推送到暂存应用程序https://appname.herokuapp.com/如果一切正确,我会将该应用程序推广到产品中。没有新的构建过程。这是第一次为暂存构建的应用程序。https://appname.com/问题在于,这会导致重复内容问题。网站是彼此的克隆。完全相同的。我想从Google索引和搜索引擎中排除登台应用。我想到的一种方法是使用robots.txt文件。为了让它工作,我应该这样写User-agent:*Disallow:https://appname.herokuapp.com/使用绝对路径,因为该文件将位于暂存