草庐IT

反爬虫

全部标签

html - 爬虫会解码 html 实体吗?

我想知道爬虫和机器人是否可以解码html实体,例如在我的html中我有类似的东西:salariés他们是这样读的吗?或类似的东西:salariés哪个选项更适合SEO? 最佳答案 我想说您可以安全地假设HTML实体已正确解码。它们是有效的HTML,不解码它们的爬虫最终会得到大量损坏的内容。 关于html-爬虫会解码html实体吗?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/ques

drupal - 我可以告诉站点爬虫访问某个页面吗?

我有一个围绕文档数据库的drupal网站。按照设计,您只能通过搜索站点找到这些文档。但是我希望所有结果都被Googlebot和其他爬虫索引,所以我在想,如果我制作一个列出所有文档的页面,然后告诉机器人访问该页面以索引我的所有文档会怎样?这可能吗,或者有更好的方法吗? 最佳答案 也许是SitemapGoogleintroducedGoogleSitemapssowebdeveloperscanpublishlistsoflinksfromacrosstheirsites.Thebasicpremiseisthatsomesitesha

angularjs - Yahoo 和 Bing 爬虫是否像 Google 那样解释 JavaScript?

这个问题在这里已经有了答案:howdowebcrawlershandlejavascript(6个答案)关闭7年前。我有一个Angular单页应用程序。Google在2014年年中开始在抓取页面时渲染JavaScript,但是Yahoo和Bing在抓取页面时是否也解释JavaScript?我需要将它们包含在我的Prerender.io配置中吗?

html - 规范链接作为对抗爬虫的一种方式?

假设有几个外部网站正在抓取/收集您的内容并将其作为自己的内容发布。我们还假设您为每个内容维护一个唯一/永久URL,因此内容别名(在您的网站上)永远不是问题。从SEO的角度来看,包含canonicallink是否有任何值(value)?无论如何在你的标题中,这样当你的网站被“抓取”时,规范指示被注入(inject)到任何正在窃取你的内容的网站(假设他们收集原始HTML而不是通过RSS等进入)?关于跨站点规范链接的行为,我听说过不同的说法,从“它们被忽略”到“行为未定义”到“它不会造成伤害”再到“确保这正是规范的目的”.我的印象是规范是处理站点内但不一定是站点间别名的好方法。

用 Python技术,写爬虫、网上兼职接私活,三天赚一千多,在公司可以横着走了

不知道是Python太火爆,各行各业的零基础人员都想学会,并利用它开创副业赚钱。但是很多小伙伴都不清楚Python到底能干什么就盲目去学习Python。你了解Python吗?了解它所应用的领域吗?首先Python是跨平台语言,语法很简洁,很短的代码干更多的事。另外它是脚本语言,随时随地写一段脚本就可以处理数据,十分方便。同时它也是面向对象语言,对初学者十分友好。但是这就是Python被“吹”起来的原因吗?当然不是!如果一门语言没有实际用武之地,即使它再优秀也没有意义,也不可能优秀。比如现在互联网的信息非常海量,想要快速获取有用的公开信息,Python爬虫就派上了用场。而Python语言非常善于

css - 谷歌和/或必应爬虫是否惩罚隐藏的推特 Bootstrap 标签内的内容

我有一些网页将被google和bing爬虫抓取。其中一个页面使用twitterbootstrap2.3.2Tabbablenav:Section1Section2I'minSection1Howdy,I'minSection2andnotcurrentlyvisible.Willsearchenginesignoreme?由于非事件选项卡上的内容是隐藏的,我可以看到搜索引擎在抓取网站时应用重大惩罚或完全打折该内容——这对选项卡来说不是好消息,因为它们将需要被删除。Inthislink谷歌警告隐藏文本。MattCutts说"Idon’trecommendthatpeopleuseCSSt

angularjs - LinkedIn 爬虫可以读取 SPA 页面吗?

我正在使用PhantomJS和Angular-seopackage.我设法将其配置为与Facebookopen-graph一起使用,但LinkedIn似乎不支持_escaped_fragment_格式,只是忽略了hasbang请求index之后的路由.html应用程序页面,而不是myapp.com/?_escaped_fragment_=client_side_path。我该怎么做才能解决它? 最佳答案 不幸的是,解决这个问题的唯一方法是检查机器人的用户代理并向他们发送静态版本。根据this,LinkedIn机器人的用户代理是这样的

angularjs - 使用 Amazon S3 时如何将爬虫请求重定向到预渲染页面?

问题我有一个使用Angular构建并托管在AmazonS3上的静态SPA站点。我正在尝试让爬虫访问我的预呈现页面,但我无法重定向爬虫请求,因为AmazonS3不提供URL重写选项并且重定向规则有限。我有什么我已将以下元标记添加到我的index.html页面:此外,我的SPA使用漂亮的URL(没有散列#符号)和HTML5推送状态。使用此设置,当爬虫找到我的http://mywebsite.com/about时链接,它将生成一个GET请求http://mywebsite.com/about?_escaped_fragment_=.这是patterndefinedbyGoogle然后是其他爬

seo - 模态 javascript 弹出窗口(如 fancybox)是否会影响 seo 爬虫

我们正在我们的一个内容页面上测试模态z-layer样式弹出窗口(fancyboxjavascript实现),它会阻止用户在没有注册的情况下与页面的其余部分进行交互。我很好奇这对爬虫(googlebot)有什么影响。我们知道模态弹出窗口对排名有其他行为影响(例如跳出率等)。我很好奇模态javascript/html代码的存在是否会对搜索排名产生不利影响。 最佳答案 说爬虫机器人不执行Javascript的其他答案是错误的或过时的。实验证明,Google机器人(2017)确实会跟踪使用javascript呈现的链接,因此它们会以某种方式

seo - Google 和 Bing 爬虫是否将 URL 中的主题标签视为 GET 参数?

一般考虑爬虫http://server/page和http://server/page?parameter=1两个不同的URL。Google和Bing爬虫如何考虑哈希标记URL,例如http://server/page#hash?根据http://www.tynt.com/support/faq#technical哈希标签后的所有内容都将被忽略。是否有其他消息来源证实了这一点? 最佳答案 您的来源是正确的。散列标签(也称为URL片段)之后的所有内容通常都会被忽略。原因是,URL片段通常仅由浏览器使用,不会导致从服务器提取其他信息。所