http://www.site.com/shop/maxi-dress?colourId=94&optId=694
http://www.site.com/shop/maxi-dress?colourId=94&optId=694&product_type=sale
我有成千上万个像上面这样的 URL。不同的组合和名称。
我还有这些 URL 的副本,它们具有查询字符串 product_type=sale
我想禁止 Google 使用 product_type=sale 将任何内容编入索引
这在 robots.txt 中是否可行
最佳答案
Google 支持 robots.txt 中的通配符。 robots.txt 中的以下指令将阻止 Googlebot 抓取具有任何参数的任何页面:
Disallow: /*?
这不会阻止许多其他蜘蛛抓取这些 URL,因为通配符不是标准 robots.txt 的一部分。
Google 可能会花时间从搜索索引中删除您阻止的 URL。额外的 URL 可能仍会被索引数月。在网站管理员工具被阻止后,您可以使用网站管理员工具中的“删除 URL”功能来加快该过程。但这是一个手动过程,您必须在其中粘贴要删除的每个单独的 URL。
在 Googlbot 找不到不带参数的 URL 版本的情况下,使用此 robots.txt 规则也可能会损害您网站的 Google 排名。如果您通常使用参数链接到版本,您可能不想在 robots.txt 中阻止它们。最好使用下面的其他选项之一。
更好的选择是使用 rel canonical meta tag在您的每个页面上。
因此,您的两个示例 URL 的头部部分都将包含以下内容:
<link rel="canonical" href="http://www.site.com/shop/maxi-dress">
这会告诉 Googlebot 不要为页面的太多变体编制索引,而只会为您选择的 URL 的“规范”版本编制索引。与使用 robots.txt 不同,Googlebot 仍然能够抓取您的所有网页并为其分配值(value),即使它们使用各种 URL 参数也是如此。
另一种选择是登录 Google Webmaster Tools并使用“抓取”部分中的“URL 参数”功能。
在那里,单击“添加参数”。您可以将“product_type”设置为“不影响页面内容”,这样 Google 就不会使用该参数抓取和索引页面。
对您使用的每个不会更改页面的参数执行相同的操作。
关于seo - 谷歌 : Disable certain querystring in robots. 文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19113788/
我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
我有这个代码:context"Visitingtheusers#indexpage."dobefore(:each){visitusers_path}subject{page}pending('iii'){shouldhave_no_css('table#users')}pending{shouldhavecontent('Youhavereachedthispageduetoapermissionic错误')}它会导致几个待处理,例如ManagingUsersGivenapractitionerloggedin.Visitingtheusers#indexpage.#Noreason
我一直在玩一个脚本,它在Chrome中获取选定的文本并在Google中查找它,提供四个最佳选择,然后粘贴相关链接。它以不同的格式粘贴,具体取决于当前在Chrome中打开的页面-DokuWiki打开的DokuWiki格式,普通网站的HTML,我想要我的WordPress所见即所得编辑器的富文本。我尝试使用pbpaste-Preferrtf来查看没有其他样式的富文本链接在粘贴板上的样子,但它仍然输出纯文本。在文本编辑中保存文件并进行试验后,我想出了以下内容text=%q|{\rtf1{\field{\*\fldinst{HYPERLINK"URL"}}{\fldrsltTEXT}}}|te
如何只加载map边界内的标记gmaps4rails?当然,在平移和/或缩放后加载新的。与此直接相关的是,如何获取map的当前边界和缩放级别? 最佳答案 我是这样做的,我只在用户完成平移或缩放后替换标记,如果您需要不同的行为,请使用不同的事件监听器:在你看来(index.html.erb):{"zoom"=>15,"auto_adjust"=>false,"detect_location"=>true,"center_on_user"=>true}},false,true)%>在View的底部添加:functiongmaps4rail
我使用“newapp_name”创建了一个新的Rails应用程序,我正在尝试编辑.gitignore文件,但在我的应用程序文件夹中找不到它。我在哪里可以找到它?我安装了Git。 最佳答案 .gitignore位于项目的root中,而不是app子目录中。首先打开终端并进入您的目录。您需要使用ls-a来显示stash文件。然后使用打开.gitignore 关于ruby-on-rails-尝试打开.gitignore以在文本编辑器中对其进行编辑,但在OSXMountainLion上找不到文件位
我想获取任意的ASCII文本字符串,例如“Helloworld”,并将其压缩为字符数较少(尽可能少)的版本,但要采用可以解压缩的方式。压缩版本应仅由ascii字符组成。有没有一种方法可以做到这一点,尤其是在Ruby中? 最佳答案 如果知道只会使用ASCII字符,那就是每个字节的低7位。通过位操作,您可以将每8个字节混合成7个字节(节省12.5%)。如果您可以将其放入更小的范围(仅限64个有效字符),则可以删除另一个字节。但是,因为您希望压缩形式也只包含ASCII字符,所以会丢失一个字节-除非您的输入可以限制为64个字符(例如,有损压
多年来,我在各种网站上遇到过各种问题,用户在字符串和文本字段的开头/结尾放置空格。有时这些会导致格式/布局问题,有时会导致搜索问题(即搜索顺序看起来不对,但实际上并非如此),有时它们实际上会使应用程序崩溃。我认为这会很有用,而不是像我过去所做的那样放入一堆before_save回调,向ActiveRecord添加一些功能以在保存之前自动调用任何字符串/文本字段上的.strip,除非我告诉它不是,例如do_not_strip:field_x,:field_y或类定义顶部的类似内容。在我去弄清楚如何做到这一点之前,有没有人看到更好的解决方案?明确一点,我已经知道我可以做到这一点:befor
我正在尝试使用nokogirigem提取页面上的所有url及其链接文本,并将链接文本和url存储在散列中。FooBar我想回去{"Foo"=>"#foo","Bar"=>"#bar"} 最佳答案 这是一个单行:Hash[doc.xpath('//a[@href]').map{|link|[link.text.strip,link["href"]]}]#=>{"Foo"=>"#foo","Bar"=>"#bar"}拆分一点可以说更具可读性:h={}doc.xpath('//a[@href]').eachdo|link|h[link.t
有人可以花我一些代码,在图像底部添加文本吗?我想使用Rmagick,但我也愿意使用其他工具。 最佳答案 我也发现了这个,它非常适合我。require'RMagick'includeMagick#Dimisionsbasedonanimage3072x2048unlessARGV[0]andFile.exists?(ARGV[0])puts"\n\n\nYouneedtospecifyafilename:watermark.rb\n\n\n"exitendimg=Image.read(ARGV[0]).firstnew_img="wm
下面的代码是xml文件中的一行:455360226如何使用ruby将2个标签之间的数字替换为另一个数字? 最佳答案 不可能一步修改文件内容(至少我不知道,当文件大小改变时)。您必须读取文件并将修改后的文本存储在另一个文件中。replace="100"infile="xmlfile_in"outfile="xmlfile_out"File.open(outfile,'w')do|out|out\d+/,"#{replace}")end或者您将文件内容读入内存,然后用修改后的内容覆盖文件:replace="100"filename=