草庐IT

Facebook 没有从 url 中抓取元数据

我正在尝试在我的网页上实现一个赞按钮。header部分包含相关的元标记:Whathaveyoufortheworldtoday-BlogsbyAntezen在body标签内,我指定了javascriptsdk:window.fbAsyncInit=function(){if(typeofFB!='undefined'){FB.init({appId:'FB_APP_ID',status:true,cookie:true,xfbml:true,oauth:true});}}//LoadtheSDKAsynchronously(function(d){varjs,id='facebook-

python - 无法使用 BeautifulSoup4 (Python 3) 抓取特定表

我想从Ligue1足球网站上抓取一张表格。特别是包含卡片和裁判信息的表格。http://www.ligue1.com/LFPStats/stats_arbitre?competition=D1我正在使用以下代码:importrequestsfrombs4importBeautifulSoupimportcsvr=requests.get("http://www.ligue1.com/LFPStats/stats_arbitre?competition=D1")soup=BeautifulSoup(r.content,"html.parser")table=soup.find_all('

c# - 通过 C# Web 浏览器抓取网站以获取元素名称和 ID

我正在尝试抓取awebsite得到Textarea信息。我正在使用:HtmlDocumentdoc=this.webBrowser1.Document;当我查看View源时,它显示但是当我尝试访问这个文本区域时:HtmlDocumentdoc=this.webBrowser1.Document;doc.GetElementsByTagName("textarea").GetElementsByName("message")[0].SetAttribute("value","Hello");显示错误:Valueof'0'isnotvalidfor'index'.'index'should

javascript - 网页上的谷歌广告可以从当前页面抓取内容吗?

网页上的谷歌广告能否访问网页的html?它可以将脚本注入(inject)页面吗?页面是否使用https提供重要吗? 最佳答案 网页上的google广告可以访问页面的html吗?谷歌代码可以。就像您页面上的任何JavaScript代码一样。我们可能会假设Google不允许他们的广告商做类似的事情。是否可以向页面注入(inject)脚本?同样,JavaScript代码可以做到这一点。就像您可以编写document.write和script标签一样……但我们假设Google会禁止他们的广告商这样做。是不是https有关系吗?没有。那是在协

html - 每天从另一个网站抓取内容

这是我的问题。我正在创建一个具有“新闻”选项卡的网站。我在新闻标签上想要的是来自另一个新闻网站的更新内容。有什么方法可以抓取其他网站上发布的纯文本,将其发布到我网站的新闻标签上,并在网站发布新内容时自动更新?任何人都可以将我推向正确的方向,以便我可以学习如何做到这一点吗?我非常了解HTML,但缺乏PHP和Javascript技能。我需要学习什么才能实现这一目标? 最佳答案 查找Curl...它在php中。http://php.net/manual/en/book.curl.php这里有一个不错的视频,可能与您想要实现的目标有关。ht

c# - 如何在 C# 的 HTML 源代码中按类或 id 抓取元素?

我正在尝试使用C#Windows窗体应用程序,根据类或ID名称从HTML源中获取元素。我使用WebClient将源代码放入字符串中,并使用HtmlDocument将其插入HTMLAgilityPack。但是,我在HTMLAgilityPack包中找到的所有示例都会解析并根据标签查找项目。我需要找到一个特定的id,比如html中的链接,并检索标签内的值。这可能吗?最有效的方法是什么?我试图解析出id的所有内容都给我异常(exception)。谢谢! 最佳答案 您应该能够使用XPath执行此操作:HtmlDocumentdoc=newH

html - 使用 for 循环或 lapply 将 Web 抓取到具有相似 URL 的 R 多个链接

这段代码从这里抓取http://www.bls.gov/schedule/news_release/2015_sched.htm发布列下包含就业情况的每个日期。pgelementsunderthebodytextdivbodyelements,thengettheirsiblingses_nodes我想对包含其他年份的其他URL重复这一点,以相同的方式命名,只是年份数字发生变化。特别是对于以下URL:#From2008to2015http://www.bls.gov/schedule/news_release/2015_sched.htmhttp://www.bls.gov/sched

html - Powershell Web 抓取 SSL/TLS 问题

我想在服务器上运行网络抓取脚本。当前脚本采集指定页面的html。$url="http://websms"[net.httpWebRequest]$request=[net.webRequest]::create($url)[net.httpWebResponse]$response=$request.getResponse()$responseStream=$response.getResponseStream()$sr=new-objectIO.StreamReader($responseStream)$result=$sr.ReadToEnd()$result这在典型的网页上运行良

javascript - Google 没有正确缓存我的 AJAX 可抓取应用程序?

我使用durandal2.0编写了一个SPA,我使用HTML5pushstate进行导航更改。我已经根据谷歌规范设置了所有内容。我不包括hashabangs/#!在我的网址中,我使用的是元片段标记。我正在使用headless浏览器phantomJS来为googlebot提供我的AJAX应用程序的完全呈现的HTML。在MVC中,我正在检测?_escaped_fragment_=并执行302重定向到为完全呈现的HTML提供服务的URL。该部分工作正常,要对其进行测试,请导航至此处:https://insureflo.com/?_escaped_fragment_=你会看到我网站的重定向和完

javascript - 搜索引擎会抓取 javascript 生成的关键字和描述元标记吗?

关闭。这个问题是off-topic.它目前不接受答案。想改进这个问题吗?Updatethequestion所以它是on-topic用于堆栈溢出。关闭10年前。Improvethisquestion我有一个通过ajax加载其模板的网站。description和keywords元标记存在于此template.html文件中,而不存在于当前index.html中正在加载的页面。加载模板后,它会将模板中的元标记嵌入到index.html文件中。Google或任何其他搜索引擎是否能够读取动态插入的此页面的描述和关键字元标记?我问这个是因为我听说很多搜索引擎不支持javascript,但是,当从谷