草庐IT

php - 谷歌上的重复内容。 htaccess 或 robots.txt?

关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗?Updatethequestion所以它是on-topic用于堆栈溢出。关闭10年前。Improvethisquestion在我的网站中,我有以下类别的url结构:/category.php?id=6(id=6为internet类别)我的SEO友好url是这样的:/category/6/internet/问题是它可以通过任何这些形式访问,因此,我在谷歌上得到了重复的内容。所以,我想知道我该如何解决这个问题。我是否应该在robots.txt上禁止任何带有的url??如果是这样,我该如何正确设置它?我应该在.htacc

seo - robots.txt 如何忽略其中包含 action=history 的任何内容?

我有一个MediaWiki,我不希望Google索引任何页面的历史记录。robots.txt如何禁止查询字符串中包含action=history的URL? 最佳答案 历史View(以及其他几个View,例如日志等)的HTML包含一个“noindex,nofollow”元声明。合规的用户代理(例如Googlebot)将尊重此建议,而不会费心为页面编制索引。 关于seo-robots.txt如何忽略其中包含action=history的任何内容?,我们在StackOverflow上找到一个类

indexing - 如何检查 googlebot 是否会索引给定的 url?

我们正在做一个白标签网站,它不能被谷歌索引。有谁知道一种工具可以检查googlebot是否会为给定的url编制索引?我输入了在所有页面上,因此不应将其编入索引-但是我宁愿通过测试来110%确定。我知道我可以使用robots.txt,但是robots.txt的问题如下:我们的主站点应该被索引,它是IIS(ASP.Net)上与白标签站点相同的应用程序-唯一的区别是url。我无法根据传入的url修改robots.txt,但我可以从我的代码隐藏中向所有页面添加元标记。 最佳答案 您应该添加一个Robots.txt到您的网站。但是,防止搜索引

perl - 如何使用 Perl Dancer 服务 robots.txt

我正在尝试使用PerlDancer网络框架提供robots.txt。我认为有一个只返回文本的路由会起作用,但它似乎将它包装在html和body标签中。我假设这不会被抓取工具正确解释为robots.txt文件。知道如何正确地做到这一点吗?这是我写的路线:获取'/robots.txt'=>sub{返回“用户代理:*\nDisallow:/”;};提前致谢! 最佳答案 是什么让您认为它被包裹在HTML和BODY元素中?useDancer;get'/robots.txt'=>sub{return"User-agent:*\nDisallow

seo - robots.txt 中用户代理的顺序

我的robots.txt看起来像这样:User-agent:*Disallow:/adminDisallow:/testUser-Agent:GooglebotDisallow:/maps现在Google忽略用户代理*部分,只遵守特定的Googlebot指令(/maps)。这是正常行为吗?不应该也遵守useragent*指令(/admin、/test)吗?必须为每个用户代理添加每一行似乎很奇怪? 最佳答案 没关系,谷歌是这样说的:Eachsectionintherobots.txtfileisseparateanddoesnotbu

seo - robots.txt:如何禁止所有子目录但允许父文件夹

我想禁止我的文件夹/search中的所有子目录,但允许索引搜索文件夹本身(我在/search上有内容)。测试这不起作用:User-Agent:*Allow:/search/Disallow:/search/* 最佳答案 您的代码看起来是正确的。尝试稍微调整一下Allow:User-Agent:*Disallow:/search/*Allow:/search/$ 关于seo-robots.txt:如何禁止所有子目录但允许父文件夹,我们在StackOverflow上找到一个类似的问题:

seo - robots.txt 禁止使用哪些文件夹 - SEO?

我目前正在编写我的robots.txt文件,但在决定是否允许或禁止某些文件夹用于SEO时遇到了一些问题。这是我的文件夹:/css/(CSS)/js/(javascript)/img/(我在网站上使用的图片)/php/(PHP将返回一个空白页面,例如检查电子邮件地址的checkemail.php或将数据放入SQL数据库并发送电子邮件的register.php)/error/(我的错误401,403,404,406,500html页面)/include/(我包含的header.html和footer.html)我正在考虑只禁止PHP页面,让其余的。你怎么看?非常感谢劳伦特

html - 如何让 robots.txt 在 "?"字符之后阻止访问网站上的 URL,但索引页面本身?

我有一个小型magento网站,其中包含页面URL,例如:http://www.example.com/contact-us.htmlhttp://www.example.com/customer/account/login/但是我也有包含过滤器(例如价格和颜色)的页面,两个这样的例子是:http://www.example.com/products.html?price=1%2C1000http://www.example.com/products/chairs.html?price=1%2C1000问题是,当Google机器人和其他搜索引擎机器人搜索该站点时,它基本上会停止运行,因

seo - robots.txt - 排除任何包含 "/node/"的 URL

我如何告诉爬虫/机器人不要索引任何具有/node/模式的URL?以下是从第一天开始的,但我注意到谷歌仍然索引了很多网址/node/在其中,例如www.mywebsite.com/node/123/32不允许:/node/是否有任何声明不索引任何具有/node/的URL我应该写如下内容吗:不允许:/node/*更新:真正的问题是尽管:不允许:/节点/在robots.txt中,Google已将此URL下的页面编入索引,例如www.mywebsite.com/node/123/32/node/不是物理目录,这是drupal6显示其内容的方式,我想这是我的问题,节点不是目录,只是drupal为

seo - 我应该摆脱访问我网站的机器人吗?

我一直在我的追踪器上注意到机器人经常访问我的网站。我应该更改或编辑我的robots.txt还是更改某些内容?不确定那是否好,因为它们正在编制索引还是什么? 最佳答案 Shouldichangeoreditmyrobots.txtorchangesomething?取决于机器人。有些机器人会尽职尽责地忽略robots.txt。18个月前,我们的谷歌广告机器人遇到了类似的问题,因为我们的客户购买了太多广告。GoogleAD机器人将(如文档所述)忽略通配符(*)排除项,但听取明确的忽略。请记住,支持robots.txt的机器人不会抓取您的