抓取

seo - Google 不会抓取或索引我的所有网页

我提交了很多次索引所有页面，但谷歌在13000页中只索引了近1000页。你能解释一下这背后的问题是什么吗？我的网站链接是here 最佳答案 Googleisn'tguaranteedtoindexallofyourpages.但是您可以通过几个步骤鼓励它编制更多索引。你试过了吗submittingyoursitemap? 关于seo-Google不会抓取或索引我的所有网页，我们在StackOverflow上找到一个类似的问题： https://stackove

seo - 允许抓取外部 Javascript 文件

我的网站在googleconsole中遇到问题我在我的网站的谷歌控制台中遇到以下错误资源:https://api.html5media.info/1.1.5/html5media.min.jsType:ScriptStatus:Googlebotblockedbyrobots.txt我的站点在xcart中，我的robots.txt包含User-agent:GooglebotDisallow:/*printable=Y*Disallow:/*js=*Disallow:/*print_cat=*Disallow:/*mode=add_vote*User-agent:*Allow:*.jsA

Javascript seo Disallow section robots robots.txt googlebot x-cart google-console-developer

reactjs - 使用 GatsbyJS 时，google 如何知道要抓取哪些页面

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎与helpcenter中定义的范围内的编程无关。.关闭3年前。Improvethisquestion请原谅我知识匮乏，我对使用GatsbyJS还是个新手。在本地构建时，如果我点击404页面，我会得到一个可用页面列表。(见附件)只是想知道谷歌是否索引了所有这些页面？

GatsbyJS reactjs section class noreferrer seo gatsby google-crawlers

security - 如何在不阻止行为良好的机器人的情况下阻止网络抓取？

我正在构建一个包含大量产品数据库的电子商务网站。当然，当Goggle索引网站的所有产品时，这很好。但是，如果某个竞争对手想要WebScrape怎么办？网站并获取所有图片和产品说明？我观察了一些具有类似产品列表的网站，它们放置了验证码，因此“只有人类”才能阅读产品列表。缺点是……它对Google、Yahoo或其他“行为良好”的机器人是不可见的。最佳答案您可以通过使用whois(在命令行或网站上)检查访问者IP来发现Google和其他人正在使用的IP地址。然后，一旦您积累了一些合法的搜索引擎，就允许它们在没有验证码的情况下进入您的产

何在 security section 产品列表 stackoverflow seo screen-scraping bots

asp.net-mvc - 主流搜索引擎无法抓取 MVC 站点？

它基于MVC3+Razor，现在没有为站点创建DNS，只有公共(public)IP。由于不了解google是否以及如何处理IP站点的蜘蛛，我们很头疼，发现我们无法在google中获得任何公共(public)IP的搜索结果。有人坚持认为这是因为MVC3，它不能被主流搜索引擎索引。坦率地说，这对我来说听起来是个天大的笑话，谷歌怎么能处理AJAX网站却不能抓取MVC网站？我简直不敢相信。现在我想解决并说服他们MVC3与我们遇到的问题无关，并通过适当的方式解决这个问题。我还发现，如果我们注册了公共(public)IP站点，将来如果它指向DNS，Google将认为在DNS中抓取的相同内容的排名低

主流 net-mvc section MVC public asp.net-mvc asp.net-mvc-3 seo web-crawler

SEO:可以抓取动态生成的链接吗？

我有一个页面包含带有onclick=""代码的标记调用ajax请求以获取json数据，然后遍历结果以形成链接()以附加到页面。这些链接在我网站的任何其他地方都不存在。如何使这些动态生成的链接可抓取？我最初的想法是打开标记为带有href="#"的标签，但由于我对典型爬虫的工作方式了解有限，我认为这不会解决我的问题，因为“#”将被爬虫识别，而不一定是动态生成的输出.除此之外，我根本不想改变滚动定位，这也排除了给出的可能性。标记一个id并让它引用自己。除了制作一个包含我需要抓取的所有链接的新页面之外，我还有其他选择吗？谢谢。最佳答案一

SEO 可以 section code noreferrer web-crawler dynamic-linking google-crawlers

javascript - 我如何确保 Google 会抓取我的基于 JavaScript 状态的网站？

我是自由网络开发人员!我喜欢制作单页解决方案网站。为了消除页面之间的加载时间，并允许花哨的动画过渡，我将所有页面内容保留在中的，最初由display:none;隐藏CSS。然后我使用JavaScript向用户动态显示相关内容。我正在为我的网站重建我的JavaScript状态引擎，并且想知道在SEO、用户体验和开发简单/优雅之间进行调解的最佳方式。我一直在计划使用dom.com/#/state，或关注谷歌的"MakingAJAXApplicationsCrawlable"指南，带dom.com/#!/state和?_escaped_fragment=state业务-但似乎不清楚这是否适用

javascript code strong section html css seo

.htaccess - 防止抓取工具(尤其是 Google)抓取我域中的某个文件夹？

我正在寻找建议和方法；我在我的域中有一个文件夹，我正在其中测试某个登录页面；如果一切顺利，我可能会用这个登陆页面建立一个新的网站和域名，这就是我不希望它被抓取的主要原因，这样我就不会因为重复的内容而受到Google的惩罚。我也不希望不需要的机器人抓取此登录页面，因为它不会产生任何好处。这对你有意义吗？如果是这样，我该怎么做？我不认为robots.txt是最好的方法，因为我知道并不是所有的爬虫都尊重它，甚至谷歌也可能不完全尊重它。我不能输入密码，因为登录页面应该对所有人开放(因此解决方案不能对人类访问者造成任何问题)。它会留下.htaccess文件吗？如果是这样，我应该在那里添加什么代码

htaccess 尤其 section strong code .htaccess seo robots.txt googlebot

seo - 禁用对子域的抓取

我想禁用对我的子域的抓取。例如:我的主域是maindomain.comsubdomain_one.com(附加域)subdomain_two.com(附加域)所以我想禁用对subdomain_one.maildomain.com的抓取。我在robot.txt中使用了这个:User-agent:*Disallow:/subdomain_one/Disallow:/subdomain_two/ 最佳答案该文件必须名为robots.txt，而不是robot.txt。如果您想禁止所有机器人抓取您的子域，您必须将robots.txt文件放在

对子 seo code section com subdomain robots.txt

php - 抓取网站和动态网址

搜索引擎机器人会抓取我动态生成的URL吗？我的意思是php基于url中的GET变量生成的html页面。链接看起来像这样:http://www.mywebsite.com/view.php?name=somethinghttp://www.mywebsite.com/view.php?name=somethingelsehttp://www.mywebsite.com/view.php?name=something我尝试使用此处的测试爬虫来爬取我的网站:http://robhammond.co/tools/seo-crawler但它只访问我的View页面一次，标题中只有一个变量。我网站上

php 抓取 section com strong web seo web-crawler

25 26 272829 30 31