收到来自谷歌网站管理员工具的通知,由于“无法访问的robots.txt”,谷歌爬虫机器人已停止抓取一个特定网站。不幸的是,除此之外,谷歌没有提供有关爬虫错误的任何其他详细信息。我有作为我的元标记之一包含在base.html模板中,我为每个Django应用程序都这样做,而且我的任何其他网站都没有这个问题。如果我错了请纠正我,但我也认为robots.txt不是谷歌索引你所必需的。我试图通过安装和配置django-robots(https://github.com/jezdez/django-robots)并将其添加到我的urlconf来解决:(r'^robots\.txt$',includ
我需要设置noindex,跟随到3个子域。我发现您可以在.htaccess中重写,但是您如何处理多个子域?我在服务器上没有看到子域的目录。这是我发现的。RewriteEngineonRewriteCond%{HTTP_HOST}^dev\.qrcodecity\.com$RewriteRule^robots\.txt$robots-dev.txt这会将robots.txt重定向到dev.qrcodecity.com的robots-dev.txt谢谢 最佳答案 您可以为所有选定的子域设置这样的规则:RewriteEngineonRew
例如,如果我想在我的页面上禁止以下路径:http://www.examplepage.com/en/testing但不仅是/en/版本,还有/da/、/de/等(你明白我的意思)。我将如何以最聪明的方式做到这一点?无需为每种语言的相同页面编写禁止。我试过:不允许:/*/testing和不允许:/*测试但我发现它也不允许其他页面,例如:http://www.examplepage.com/en/news-page/testing等等它应该只禁止我在帖子开头指定的路径。 最佳答案 在robots.txt中使用占位符/正则表达式非常有限且
真的很郁闷。是因为技术错误还是谷歌的缓存效应?我还要再等几天吗?自昨晚以来,我已经多次将我的机器人文件和站点地图更新到Google网站管理员工具。但是每次我重新提交站点地图时,它总是说:Sitemapcontainsurlswhichareblockedbyrobots.txt.似乎站点地图中的所有URL都被阻止了。示例:http://janwawa.com/enhttp://janwawa.com/en/http://janwawa.com/en/album这是我的机器人文件User-agent:*Disallow:/admin/Disallow:/cgi-bin/Disallow:
我在DNN网站上为博客、新闻文章等使用EasyDNN新闻模块。核心DNN站点地图不包含此模块生成的文章,但模块会创建自己的站点地图。例如:domain.com/blog/mid/1005/ctl/sitemap当我尝试将此站点地图提交给Google时,它说我的Robots.txt文件阻止了它。查看DNN附带的Robots.txt文件,我注意到Slurp和Googlebot用户代理下的以下几行:Disallow:/*/ctl/#Slurppermits*Disallow:/*/ctl/#Googlebotpermits*我想提交模块的站点地图,但我想知道为什么这些用户代理不允许/ct
我希望禁止我的根文件夹中的子目录,但允许其中的文件夹。我有什么:User-Agent:*Disallow:/admin我想允许/admin/images这可能吗? 最佳答案 试试这个。在robots.txt测试器中试一试,以避免任何负面影响。Allow:/admin/images/Disallow:/admin/ 关于seo-Robots.txt不允许子目录但允许其中的文件夹,我们在StackOverflow上找到一个类似的问题: https://stacko
我正在这个网站上工作:www.pjarchitects.com。这是一个Wordpress版本。当网站最初上线时,我选中了“阻止搜索引擎索引该网站”框。它现在未选中,我希望我的网站被谷歌抓取并编入索引,但在搜索谷歌时我仍然收到此消息“由于该网站的robots.txt,此结果的描述不可用-了解更多。”我的网站通过了网站站长工具中的robots.txt测试程序。是否有一定的时间我需要等待(已经一天了)还是有其他原因导致了这个问题? 最佳答案 他们重新抓取robots.txt大约需要24小时,但实际SERP(搜索引擎结果页面)中的文本更新
我有一个系统可以在一个文件结构下处理多个域,每个域都需要不同的站点地图和robots.txt。对于站点地图,我设置了一个重定向,我知道它运行良好。我想确认robots.txt也可以吗?我在.htaccess中添加了一个重写规则,将用户重定向到一个php页面。在这个php页面上,我找到了域用户拥有的内容,并使用文本标题打印出正确的信息。这是允许的吗?额外信息:我有一个由domainA和domainB使用的codeigniter应用程序。domainA应该看到domainA的机器人,domainB应该看到domainB的机器人。如果我要在网站的根目录中创建robots.txt,domain
我安装了Magento,我想从Google抓取中排除privacy-policy-cookie-restriction-mode页面。在我的robots.txt中,我设置了以下代码:Disallow:/enable-cookies/Disallow:/customer-service/Disallow:/privacy-policy-cookie-restriction-mode/当我使用SemRush分析我的网站时,我得到了此页面的重复内容,并且禁止指令似乎不起作用。有什么建议吗? 最佳答案 看看这个Google帮助页面:http
目前我的robots.txt如下#SitemapsSitemap:http://www.baopals.com.com/sitemap.xml#DisallowselectURLsUser-agent:*Disallow:/admin/Disallow:/products/我的产品有很多重复的内容,因为我从taobao.com提取数据并自动翻译它,导致大量重复和低质量的名称,这就是为什么我只是禁止整个事情。但是我手动更改某些产品的标题并将它们重新保存到数据库并在主页上展示它们并进行适当的翻译它们仍然会保存回/products/并在我删除时永远丢失他们来自主页。我想知道是否可以让我保存到