txt2img

web-crawler - 提交的 URL 被 robots.txt 阻止

在过去的几周里，Google一直在报告SearchConsole中的一个错误。越来越多的我的页面不允许抓取-覆盖率报告说:提交的URL被robots.txt阻止。如您所见，我的robots.txt非常简单，为什么大约20%的页面会出现此错误，我迷失了......User-agent:*Disallow:/cgi-bin/Allow:/Sitemap:https://www.theartstory.org/sitemapindex.xmlHost:https://www.theartstory.org显示错误的示例页面:https://www.theartstory.org/moveme

search - 如何禁止 robots.txt 中的特定页面，但允许其他所有页面？

是这样吗？User-agent:*Allow:/Disallow:/a/*我有这样的页面:mydomaink.com/a/123/group/4mydomaink.com/a/xyz/network/google/group/1我不想让它们出现在Google上。最佳答案您的robots.txt看起来是正确的。你可以testininyourGoogle'sWebmasterToolsaccount如果您想100%确定。仅供引用，在robots.txt中屏蔽页面不保证它们不会出现在搜索结果中。它只会阻止搜索引擎抓取这些页面。如果他们

search robots section code seo robots.txt

seo - Robots.txt 被正则表达式禁止

在我的网站上，我有一个购物车页面，即:http://www.example.com/cart和另一个卡通页面:http://www.example.com/cartoons。我应该如何在我的robots.txt文件中写入以仅忽略购物车页面？购物车页面不接受URL上的结尾斜杠，所以如果我这样做:Disallow:/cart，它也会忽略/cartoon。我不知道这是否可能，它会被蜘蛛机器人正确解析，比如/cart$。我不想强制Allow:/cartoon因为可能是另一个具有相同前缀的页面。最佳答案在originalrobots.tx

Robots seo code section cart robots.txt

heroku - robots.txt 和禁止绝对路径 URL

我正在使用Heroku管道。所以当我推送我的应用程序时，它被推送到暂存应用程序https://appname.herokuapp.com/如果一切正确，我会将该应用程序推广到产品中。没有新的构建过程。这是第一次为暂存构建的应用程序。https://appname.com/问题在于，这会导致重复内容问题。网站是彼此的克隆。完全相同的。我想从Google索引和搜索引擎中排除登台应用。我想到的一种方法是使用robots.txt文件。为了让它工作，我应该这样写User-agent:*Disallow:https://appname.herokuapp.com/使用绝对路径，因为该文件将位于暂存

绝对 heroku code https appname seo robots.txt noindex

seo - robots.txt 中的错误即使已修复，错误仍会不断堆积

有人在我们的整个allow:/products/之后不小心添加了\n，弄乱了我们的robots.txt，总共大约有30.000页。错误出现在多语言网站上。这是我们的搜索控制台之一。我很快注意到错误并删除了它。我已经要求谷歌验证我的解决方案，但大约3个月后错误仍在增加。见下图:我能做些什么来加快这个过程吗？我已经开始验证了。最佳答案您的robots.txt无法访问。它被301重定向到https://www.unisgroup.nl/robots.txt/，这是目录，而不是文件-你看到尾部的斜杠了吗？Google正在寻找一个文件，找

已修即使 section robots code seo robots.txt google-search-console

seo - 制作robots.txt

我正在为我的网站制作一个robot.txt。任何人都可以告诉我我做得对吗？如果我错了，请告诉我如何以正确的形式书写。admincp、adminpp等是我的托管服务器中的文件夹:User-agent:*Disallow:/admincp/Disallow:/adminpp/Disallow:/Advertisewithus/Disallow:/ajax/Disallow:/banner/Disallow:/cont_img/Disallow:/corcel/Disallow:/css/Disallow:/fbold/Disallow:/images/Disallow:/img/Disal

robots seo Disallow section robotstxt-what-it-is-why-its-used robots.txt

html - 标题 Logo 或背景图像使用 IMG 元素更好，为什么？

这个问题在这里已经有了答案:WhentouseIMGvs.CSSbackground-image?(31个答案)关闭4年前。此帖在21天前编辑提交审核，未能重开帖子:原始关闭原因未解决我经常看到像stackoverflow这样的网站将他们的Logo嵌入为背景图像，并为屏幕阅读器的文本添加了span标签。StackOverflow为什么要这样做而不是使用带有替代文本的img元素？有一些语义原因吗？一些可访问性原因？SEO原因？它不适用于在图像未加载的情况下设置回退文本的样式。您可以设置替代文字的样式...这不是为了性能-因为对于img，您可以使用srcset和sizes来提供替代的较小图

html Logo section class span seo accessibility graphical-logo

html - Robots.txt/如何从搜索引擎中隐藏单个 HTML 标签？

很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visitthehelpcenter.关闭9年前。我正在制作一个单页作品集，底部有一个联系表格/部分。在我的表格旁边，我列出了我可以提供的大部分服务。然而，这会产生许多相同类型的关键词，因此我开始想知道如何从搜索引擎中隐藏该部分。我的第一个想法是使用robots.txt，但如果您有更好的主意，请告诉我。谢谢

Robots html section notice class seo hide robots.txt

php - 谷歌的 Robots.txt 错误

我在添加sitemap.xml时在我的Google网站站长工具中遇到了这个错误URLrestrictedbyrobots.txt在我的robots.txt中我有:User-agent:*Allow:/$Disallow:/它只是为了索引我的主页而不是所有网站。最佳答案为什么那里有$。为什么Disallow:/:User-agent:*Allow:/$Disallow:/只需将其更改为:User-agent:*Allow:/但是如果你只想让它索引实际的索引页，那么就把它改成这样:User-agent:*Allow:/index.p

Robots php code section User-agent html apache web seo

seo - Robots.txt 不允许文件夹但允许子文件夹

我正在尝试将其设置为不允许www.url.com/folder，但允许www.url.com/folder/1。我的设置如下:User-agent:*Disallow:/folderAllow:/folder/*这在使用Googlerobots.txt测试器进行测试时有效，但如果我查看日志，我可以看到Googlebot访问了除/folder之外的所有url。我错过了什么吗？应该允许先行吗？最佳答案我认为这个应该可行:User-agent:*Disallow:/folder/$Allow:/folder/*

Robots seo section folder code google-search robots.txt

26 27 282930 31 32