我有一个用户无法登录的公共(public)页面。所以我有一个没有链接的网址,您必须手动输入然后登录。但是,该url是多语言的,因此它可以是“/SV/Account/Logon”或“/EN/Account/Logon”等。我可以禁用此url以针对所有语言编制索引吗? 最佳答案 此网址可能对您有帮助http://www.robotstxt.org/robotstxt.html.在您的情况下不会排除通配符,您必须在robot.txt中添加所有特定于语言的登录url更新您可以将Disallow:/folder/subfolder/或Disa
我自己的CMS会自动将新参数添加到页面中的链接以指定给定语言。它工作得很好,但它并不总是将var放在相同的位置,给我一个指向相同页面/语言的链接:www.xxx.yy/index.php?mod=blog&page=3&lang=zh或www.xxx.yy/index.php?mod=blog&lang=zh&page=3搜索引擎是否足够聪明,可以将两个url检测为相同?或者将检测为两个不同的url,因此将它们标记为重复内容?无论如何我都会解决这个问题,但我很久以前就对此感到好奇。 最佳答案 Google绝对支持这一点,因为他们ex
我有一个问题我有域名例如www.testing.com和new.testing.com所以我不想在任何搜索引擎中显示new.testing.com.我在new.testing.com中添加了一个robots.txt。并且两个站点都有相同的父目录--httpdoc----testing.com----new.testing.com所以我想知道我可以使用testing.com的一个robots.txt来处理这两个站点吗???如果可能,请给我建议解决方案。 最佳答案 最好的办法是添加单独的robots.txt文件。每个目录放一个。你应该有
关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗?Updatethequestion所以它是on-topic用于堆栈溢出。关闭10年前。Improvethisquestion我一直在考虑是否禁止除Ask、Google、Microsoft和Yahoo!之外的所有抓取工具!来self的网站。这背后的原因是我从未见过任何其他网络爬虫产生的流量。我的问题是:有什么理由不这样做吗?有人做过吗?您是否注意到任何负面影响?更新:到目前为止,我使用的是黑名单方法:如果我不喜欢爬虫,我将它们添加到禁止列表中。然而,我不喜欢列入黑名单,因为这是一个永无止境的故事:那里总是有更多的爬虫
关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗?Updatethequestion所以它是on-topic用于堆栈溢出。关闭10年前。Improvethisquestion想知道以下是否适用于robots.txt中的google不允许:/*.action我需要排除所有以.action结尾的网址。这是正确的吗?
除了少数子目录外,我希望我的站点在搜索引擎中被编入索引。以下是我的robots.txt设置:根目录下的robots.txtUser-agent:*Allow:/在子目录中分离robots.txt(待排除)User-agent:*Disallow:/这是正确的方式还是根目录规则会覆盖子目录规则? 最佳答案 不,这是错误的。子目录中不能有robots.txt。你的robots.txtmustbeplacedinthedocumentroot你的主人。如果您想禁止抓取路径以/foo开头的URL,请在您的robots.txt中使用此记录(h
在robots.txt文件中,我有以下部分User-Agent:Bot1Disallow:/AUser-Agent:Bot2Disallow:/BUser-Agent:*Disallow:/C语句Disallow:c对Bot1和Bot2可见吗? 最佳答案 tl;dr:不,Bot1和Bot2会愉快地抓取以C开头的路径。每个机器人最多只能遵守asinglerecord(block).原始规范在originalspecification它说:Ifthevalueis'*',therecorddescribesthedefaultacces
简单的问题。我要补充:Disallow*/*details-print/基本上,/foo/bar/dynamic-details-print形式的阻塞规则——本例中的foo和bar也可以是完全动态的。我认为这很简单,但随后在www.robotstxt.org上出现了这条消息:NotealsothatglobbingandregularexpressionarenotsupportedineithertheUser-agentorDisallowlines.The'*'intheUser-agentfieldisaspecialvaluemeaning"anyrobot".Specifi
关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗?Updatethequestion所以它是on-topic用于堆栈溢出。关闭10年前。Improvethisquestionrobots.txt应该放在哪里?domainname.com/robots.txt或domainname/public_html/robots.txt我将文件放在domainname.com/robots.txt中,但是当我在浏览器中输入时它没有打开。alttexthttp://shup.com/Shup/358900/11056202047-My-Desktop.png
我不希望任何搜索引擎将我网站的大部分内容编入索引。不过,我确实希望搜索引擎为2个文件夹(及其子文件夹)编制索引。这是我设置的,但我认为它不起作用,我在Google中看到我想隐藏的页面:这是我的robots.txtUser-agent:*Allow:/archive/Allow:/lsic/User-agent:*Disallow:/禁止除2以外的所有文件夹的正确方法是什么? 最佳答案 我在这个论坛上给出了关于这个的教程here.而在维基百科here基本上第一个匹配的robots.txt模式总是获胜:User-agent:*Allow