我有一个Meteor项目,其中添加了spiderable包。如果我正常加载页面然后执行viewpagesource我在中什么也没有得到标签。如果我输入url然后添加丑陋的?_escaped_fragment_=最后再次查看页面源代码-一切都按预期显示。我认为这意味着spiderable包正在工作并且使用phantomJS正确地呈现HTML.所以现在的问题是,如何使没有丑陋部分的常规URL变得可抓取?我想将该网站提交给谷歌Adsense,但不接受丑陋的网址,试图看看谷歌用http://www.feedthebot.com/tools/spider/看到了什么工具导致空结果。有什么建议/帮
我想我已经知道了这个问题的答案,但是一个客户问我他们是否在一个页面上创建了一个block,该block的权限设置为不允许访客查看,这是否意味着搜索引擎机器人无法对其进行索引?我在他们的文档中没有看到任何内容。 最佳答案 是的-你是对的。搜索引擎将无法看到。但是您可以轻松地进行100%测试-使用Google网站站长工具中的FetchasGooglebot工具。https://support.google.com/webmasters/answer/158587?hl=en 关于seo-Co
问题是我们正在使用bitlybrandedshortdomains作为urlshortener。我们的品牌短域名是d.so.city现在,每当我在google上搜索site:so.city时,所有d.so.city链接甚至会出现在真正的网站url之前。我不希望bitlyurl被抓取。我知道这可以通过子域的robots.txt轻松完成,但我们无法访问子域的robots.txt文件,因为它与bitly完全链接。我也尝试过谷歌网站管理员的参数阻止,但也没有运气。我也浏览了Bitly文档,但在那里也找不到任何相关内容。下面是我的站点搜索的快照:我不希望这些d.so.city链接出现在谷歌搜索中
有一个新域,比如说va.in。正在为子域a.va.in准备内容想法是va.in/index可以包含指向future某个时间段的指针(例如b.va.in、c.va.in等)。截至目前,拥有这样一个页面没有意义,因为只有一个部分,即a.va.in如果我决定暂时将va.in重定向到a.va.in,搜索引擎会遵循重定向并为网站编制索引吗?DNS是进行重定向的最佳位置吗? 最佳答案 使用“301永久移动”搜索引擎只会索引子域a.va.in。如果没问题,您可以使用Web服务器的配置来执行此操作。例如在Apache中:Redirectperman
差不多就是这个问题。有没有比标准sitemap.xml更有效的方法来[添加/强制重新抓取/删除],即管理您网站在谷歌中的索引条目?记得几年前看到一个不知名博主的文章,说他在自己的网站上写新闻的时候,这个新闻的url入口会立刻出现在google的搜索结果中。我认为他提到了一些特别的事情。我不记得具体是什么......谷歌自己提供的一些自动重新抓取系统?但是,我不确定。所以我问,你认为我是在自欺欺人吗,除了sitemap.xml之外没有其他方法来管理索引内容?我只需要确定这一点。谢谢。 最佳答案 我认为您不会找到您正在寻找的神奇“Eli
我有一个关于Google抓取的页面数量的“双重”问题,它可能与可能的重复内容(或不重复)以及对SEO的影响有关。关于我的页面数量和被Google抓取的页面的事实我在两个月前推出了一个新网站。今天,它有近150页(每天都在增加)。无论如何,这是我的站点地图中的页面数。如果我查看Google网站管理员的“抓取统计信息”,我可以看到Google每天抓取的页面数量要大得多(见下图)。我不确定它是否真的好,因为它不仅让我的服务器更忙(一天下载903页5.6MB),而且我担心它也会产生一些重复的内容。我在Google(site:mysite.com)上查看过,它给了我1290页(但只有191页显示
我正在创建一个站点,并希望为数据库表中的每一行创建单独的页面。每个页面上的信息都相当有用和全面,如果Google可以将它们编入索引,那就太好了。我最初的想法是只创建一个PHP模板页面并为用户正在查看的内容提取正确的信息,但我担心搜索引擎无法索引所有页面。我的第二个想法是批量创建/自动化将各个页面创建为html文件的过程(对于表中的2000多行),因为这样我就可以保证它们会被抓取。但是,如果我需要对设计进行更改,我将不得不重新处理它们。有点痛……我最后的考虑是只在我的站点中选择一个页面并在隐藏的div中列出所有可能的php页面,但我不确定搜索引擎是否可以从中索引。我假设他们只是从HTML
我已经实现了如下的分页http://myhost.com/product-2/213-1这意味着共有213个产品,这是第一页。当我检查Google在我的网站上抓取了哪些页面时,我看到的结果类似于http://myhost.com/product-2/213-1-2/144-0/144-1/144-14/125-1/125-12/125-1/151-15/108-10/131-1/134-13/140-14/140-1/118-11/126-1/126-12/110-1/270-27/270-1/270-27这意味着谷歌以某种方式在URL末尾附加所有页码并抓取该URL。有人能给我一个解决
我从事一个项目已经一个多月了,并且花了很长时间试图真正理解爬行ajax的来龙去脉。我建立了一个使用.load()和'#!'的网站(我现在知道这对我来说是愚蠢的,但是哦,好吧!)并且已经设置了在请求?escaped...时生成的HTML快照。我已将站点地图提交给Google并通读了他们的文档一千遍。站点地址是http://renewmywindows.com/如果我用google抓取网站,它会为请求的页面返回正确的html,但我在让google抓取它时遇到了很多问题。我有一种感觉,我只是忘了做一件小事,这件小事会把其他事情都抛到脑后,但我终究无法弄清楚那是什么......如有任何帮助,我
关闭。这个问题是notreproducibleorwascausedbytypos.它目前不接受答案。这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topic在这里,这个问题的解决方式不太可能帮助future的读者。关闭8年前。Improvethisquestion我正在尝试使angularjs网站可抓取。为此,我正在使用Google建议的?_escaped_fragment=解决方案。例如:当google看到带有像"http://xample.com/#!/Home"这样的哈希片段的请求时,它会将url转换为"http://xample.com/?_esca