我提交了很多次索引所有页面,但谷歌在13000页中只索引了近1000页。你能解释一下这背后的问题是什么吗?我的网站链接是here 最佳答案 Googleisn'tguaranteedtoindexallofyourpages.但是您可以通过几个步骤鼓励它编制更多索引。你试过了吗submittingyoursitemap? 关于seo-Google不会抓取或索引我的所有网页,我们在StackOverflow上找到一个类似的问题: https://stackove
我的网站在googleconsole中遇到问题我在我的网站的谷歌控制台中遇到以下错误资源:https://api.html5media.info/1.1.5/html5media.min.jsType:ScriptStatus:Googlebotblockedbyrobots.txt我的站点在xcart中,我的robots.txt包含User-agent:GooglebotDisallow:/*printable=Y*Disallow:/*js=*Disallow:/*print_cat=*Disallow:/*mode=add_vote*User-agent:*Allow:*.jsA
关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎与helpcenter中定义的范围内的编程无关。.关闭3年前。Improvethisquestion请原谅我知识匮乏,我对使用GatsbyJS还是个新手。在本地构建时,如果我点击404页面,我会得到一个可用页面列表。(见附件)只是想知道谷歌是否索引了所有这些页面?
我正在构建一个包含大量产品数据库的电子商务网站。当然,当Goggle索引网站的所有产品时,这很好。但是,如果某个竞争对手想要WebScrape怎么办?网站并获取所有图片和产品说明?我观察了一些具有类似产品列表的网站,它们放置了验证码,因此“只有人类”才能阅读产品列表。缺点是……它对Google、Yahoo或其他“行为良好”的机器人是不可见的。 最佳答案 您可以通过使用whois(在命令行或网站上)检查访问者IP来发现Google和其他人正在使用的IP地址。然后,一旦您积累了一些合法的搜索引擎,就允许它们在没有验证码的情况下进入您的产
它基于MVC3+Razor,现在没有为站点创建DNS,只有公共(public)IP。由于不了解google是否以及如何处理IP站点的蜘蛛,我们很头疼,发现我们无法在google中获得任何公共(public)IP的搜索结果。有人坚持认为这是因为MVC3,它不能被主流搜索引擎索引。坦率地说,这对我来说听起来是个天大的笑话,谷歌怎么能处理AJAX网站却不能抓取MVC网站?我简直不敢相信。现在我想解决并说服他们MVC3与我们遇到的问题无关,并通过适当的方式解决这个问题。我还发现,如果我们注册了公共(public)IP站点,将来如果它指向DNS,Google将认为在DNS中抓取的相同内容的排名低
我有一个页面包含带有onclick=""代码的标记调用ajax请求以获取json数据,然后遍历结果以形成链接()以附加到页面。这些链接在我网站的任何其他地方都不存在。如何使这些动态生成的链接可抓取?我最初的想法是打开标记为带有href="#"的标签,但由于我对典型爬虫的工作方式了解有限,我认为这不会解决我的问题,因为“#”将被爬虫识别,而不一定是动态生成的输出.除此之外,我根本不想改变滚动定位,这也排除了给出的可能性。标记一个id并让它引用自己。除了制作一个包含我需要抓取的所有链接的新页面之外,我还有其他选择吗?谢谢。 最佳答案 一
我是自由网络开发人员!我喜欢制作单页解决方案网站。为了消除页面之间的加载时间,并允许花哨的动画过渡,我将所有页面内容保留在中的,最初由display:none;隐藏CSS。然后我使用JavaScript向用户动态显示相关内容。我正在为我的网站重建我的JavaScript状态引擎,并且想知道在SEO、用户体验和开发简单/优雅之间进行调解的最佳方式。我一直在计划使用dom.com/#/state,或关注谷歌的"MakingAJAXApplicationsCrawlable"指南,带dom.com/#!/state和?_escaped_fragment=state业务-但似乎不清楚这是否适用
我正在寻找建议和方法;我在我的域中有一个文件夹,我正在其中测试某个登录页面;如果一切顺利,我可能会用这个登陆页面建立一个新的网站和域名,这就是我不希望它被抓取的主要原因,这样我就不会因为重复的内容而受到Google的惩罚。我也不希望不需要的机器人抓取此登录页面,因为它不会产生任何好处。这对你有意义吗?如果是这样,我该怎么做?我不认为robots.txt是最好的方法,因为我知道并不是所有的爬虫都尊重它,甚至谷歌也可能不完全尊重它。我不能输入密码,因为登录页面应该对所有人开放(因此解决方案不能对人类访问者造成任何问题)。它会留下.htaccess文件吗?如果是这样,我应该在那里添加什么代码
我想禁用对我的子域的抓取。例如:我的主域是maindomain.comsubdomain_one.com(附加域)subdomain_two.com(附加域)所以我想禁用对subdomain_one.maildomain.com的抓取。我在robot.txt中使用了这个:User-agent:*Disallow:/subdomain_one/Disallow:/subdomain_two/ 最佳答案 该文件必须名为robots.txt,而不是robot.txt。如果您想禁止所有机器人抓取您的子域,您必须将robots.txt文件放在
搜索引擎机器人会抓取我动态生成的URL吗?我的意思是php基于url中的GET变量生成的html页面。链接看起来像这样:http://www.mywebsite.com/view.php?name=somethinghttp://www.mywebsite.com/view.php?name=somethingelsehttp://www.mywebsite.com/view.php?name=something我尝试使用此处的测试爬虫来爬取我的网站:http://robhammond.co/tools/seo-crawler但它只访问我的View页面一次,标题中只有一个变量。我网站上