当我在以下链接的网站爬虫和XML站点地图生成器工具上测试我的站点时,我发现了外部错误408:http://tools.seochat.com/tools/online-crawl-google-sitemap-generator/我的网站名称如:www.MyWebsite.com在此错误状态下,它向我显示了导致错误的创建链接,例如www.MyWebsite.comhttp/。我不明白这个链接是如何创建的。它是一个Asp.net网站,也有一个wordpress博客。谁能帮我找出解决方案?非常感谢。 最佳答案 外部408错误通常是由您的
我创建了我的第一个AngularJS网站。我设置了pushstate(html5模式),添加了片段元标记,在google中创建了站点地图并测试了“googlefetch”功能。几天后,我的网站仍未完全被谷歌索引。Google仅索引了1个url而不是4个(我的站点地图包含4个url)。我的网站是TomIT.这个主页是索引,但是thissubpage这也在站点地图中(您可以在我的域tom-it.be的根目录中的sitemap.xml中找到我的站点地图),但不会出现在搜索结果中。我还添加了robots.txt。 最佳答案 Google抓取
我刚刚使用MeteorUp部署了一个网站,我正在尝试确定我的网站是否可以被Google抓取。当我执行curlwww.compmaker.com?_escaped_fragment_=它返回包含所有文本的页面。此外,当我搜索“compmaker.com”作为搜索查询时,它似乎在描述中列出了我的网站和一些内容。但是,在Google网站管理员中,当我转到FetchAsGoogle并按FetchandRender时,HTML中的内容丢失了。此外,Adsense拒绝了我的网站,因为它看不到上面的任何文字。所以我想知道,spiderable真的有效吗?如果不是,为什么当我使用curl时我实际上可以
关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗?Updatethequestion所以它是on-topic用于堆栈溢出。关闭10年前。ImprovethisquestionGoogle是否会抓取通过Javascript加载/创建的内容?传统上我知道答案是否定的,但我很难找到这方面的最新资源。
编辑:问题与Facebook无法抓取网站有关。这是网站:https://www.mydomain.fr.我已经构建了一个header,其中包含尽可能多的SEO友好元素,但Facebook给我错误消息,我无法修复。标题如下:{"@context":"http://schema.org","@type":"Organization","url":"https://www.mydomain.fr","logo":"https://www.mydomain.fr/img/mydomain-logo.png"}我不明白为什么Facebook会说我没有og:title的有效字符串而且我不明白SSL
如果我有一个带有noindex标签的页面,我知道该页面不会显示在搜索结果中。但是页面上的链接还会被抓取吗?如果我想让它们被抓取,我可以设置类似的东西吗?.会成功吗? 最佳答案 noindex标签用于防止大多数搜索引擎网络抓取工具将您网站上的页面编入索引。爬虫不会使用content="noindex,follow"为页面编制索引标记,但会抓取其余页面。您可以在此处找到更多详细信息:http://www.robotstxt.org/meta.html 关于seo-noindex标签是否可以防
我的引导导航栏是通过$(document).ready中的函数调用加载的。此函数加载导航栏(在header.html中),如下所示:functionloadHeader(callback){$.ajax({url:"/resources/"+language+"/header.html",async:true,success:function(data){$('body').append(data);if(callback){callback();}},dataType:'html'});}我已尝试设置async=false,但爬虫仍无法获取导航栏中的链接(我已尝试通过Google搜索
您知道是否可以强制机器人在www.domaine.com而不是domaine.com上爬行吗?就我而言,我有一个网络应用程序,它启用了带有prerender.io的缓存url(以查看HTML代码),但仅限于www。因此,当机器人在domaine.com上爬行时,它没有任何数据。在Nginx上重定向是自动的(domaine.com>http://www.domaine.com),但没有结果。我在我的站点地图上说,url都是www。我的Nginx重定向:server{listen*:80;server_namestephane-richin.fr;location/{if($http_ho
我正在开发一个网站,后端为django,前端为jquery。当调用列表/详细信息页面url时,我将在页面加载时调用ajax方法并从后端呈现数据。支持的结果由django序列化为json数据并呈现回ajax。例如:functionlistFunction(){$.ajax({url:'',type:'GET',dataType:'json',}).done(function(response){//responseasjson$.each(response,function(index,value){$(container).append(value)});});}$(document)
我试图为SEO修改我的.htaccess文件,但似乎不明白如何防止网络爬虫从我的网站抓取双重内容。因为Google似乎以两种方式为我的网站编制索引:https://www.example.com/和https://www.example.com/index.php这是.htaccess代码RewriteEngineOnDirectoryIndexindex.phpRewriteBase/#remove.php;useTHE_REQUESTtopreventinfiniteloopsRewriteCond%{HTTP_HOST}^www\.get-to-med\.comRewriteCo