草庐IT

html - 使用 Html Agility Pack 剥离所有 html 标签

我有一个这样的html字符串:foobarbaz我想去掉所有的html标签,这样得到的字符串就变成了:foobarbaz从SO的另一篇文章中我想出了这个函数(它使用HtmlAgilityPack):PublicSharedFunctionstripTags(ByValhtmlAsString)AsStringDimplainAsString=String.EmptyDimhtmldocAsNewHtmlAgilityPack.HtmlDocumenthtmldoc.LoadHtml(html)DiminvalidNodesAsHtmlAgilityPack.HtmlNodeCollec

c# - HTML Agility Pack 获取页面上所有 anchor 的 href 属性

我正在尝试将从HTML文件中提取的链接添加到CheckBoxList(cbl_items)。它目前有效,但不是链接,而是项目的名称显示为HtmlAgilityPack.HtmlNode。我尝试使用DocumentElement而不是Node但它说它不存在或类似。如何获取要显示的URL而不是HtmlAgilityPack.HtmlNode?这是我到目前为止尝试过的:HtmlWebhw=newHtmlWeb();HtmlAgilityPack.HtmlDocumentdoc=newHtmlAgilityPack.HtmlDocument();doc=hw.Load(tb_url.Text)

c# - HTML Agility Pack 获取页面上所有 anchor 的 href 属性

我正在尝试将从HTML文件中提取的链接添加到CheckBoxList(cbl_items)。它目前有效,但不是链接,而是项目的名称显示为HtmlAgilityPack.HtmlNode。我尝试使用DocumentElement而不是Node但它说它不存在或类似。如何获取要显示的URL而不是HtmlAgilityPack.HtmlNode?这是我到目前为止尝试过的:HtmlWebhw=newHtmlWeb();HtmlAgilityPack.HtmlDocumentdoc=newHtmlAgilityPack.HtmlDocument();doc=hw.Load(tb_url.Text)

c# - Html Agility Pack - 选择子节点时出现问题

我想将我的Asics运行计划导出到iCal,但由于Asics不提供此服务,我决定构建一个小的scraper供我个人使用。我想要做的是从我的计划中获取所有计划的运行并基于它生成一个iCal提要。我正在使用C#和HtmlAgilityPack。我想做的是遍历我所有的计划运行(它们是div节点)。然后接下来我想用我的运行节点选择几个不同的节点。我的代码如下所示:foreach(varrunindoc.DocumentNode.SelectSingleNode("//div[@id='scheduleTable']").SelectNodes("//div[@class='pTdBox']")

c# - Html Agility Pack - 选择子节点时出现问题

我想将我的Asics运行计划导出到iCal,但由于Asics不提供此服务,我决定构建一个小的scraper供我个人使用。我想要做的是从我的计划中获取所有计划的运行并基于它生成一个iCal提要。我正在使用C#和HtmlAgilityPack。我想做的是遍历我所有的计划运行(它们是div节点)。然后接下来我想用我的运行节点选择几个不同的节点。我的代码如下所示:foreach(varrunindoc.DocumentNode.SelectSingleNode("//div[@id='scheduleTable']").SelectNodes("//div[@class='pTdBox']")

c# - Html Agility Pack - 删除元素,但不删除 innerHtml

我可以通过note.Remove()轻松删除元素,如下所示:HtmlDocumenthtml=newHtmlDocument();html.Load(Server.MapPath(@"~\Site\themes\default\index.cshtml"));foreach(variteminhtml.DocumentNode.SelectNodes("//removeMe")){item.Remove();}但这也删除了innerHtml。如果我只想删除标签并保留innerHtml怎么办?例子:Keepme任何帮助将不胜感激:) 最佳答案

html - 使用 XPATH 使用 HTML Agility Pack 获取元标记属性

METAHTTP-EQUIV="Content-Type"CONTENT="text/html;charset=iso-8859-1"/>TITLE>MicrosoftCorporationMETAhttp-equiv="PICS-Label"content="(PICS-1.1"http://www.rsac.org/ratingsv01.html"lgentruer(n0s0v0l0))"/>METANAME="KEYWORDS"CONTENT="products;headlines;downloads;news;Website;what'snew;solutions;servic

c# - HTML Agility Pack 选择具有多个属性的节点

这可能是一个简单而愚蠢的问题,但我似乎找不到关于选择具有多个属性的节点的任何信息。在我的例子中,它是一个特定的类和一个特定的样式。这是我正在使用的HTML中的一个片段。BlahBlahBlahBlahBlahSoldBy.“buying”类有许多不同的实例,但只有一个div实例同时包含buying类和style="padding-bottom:0.75em属性。我正在尝试获取标签内的文本.这是我尝试过但一无所获的方法:SelectSingleNode("//div[@class='buying'][@style='padding-bottom:0.75em;']/b").InnerTe

c# - Html Agility Pack可以用来解析HTML片段吗?

我需要从ASP.NET页面、用户控件和母版页获取LINK和META元素,获取它们的内容,然后将更新后的值写回这些文件我正在开发的实用程序。我可以尝试使用正则表达式来获取这些元素,但这种方法存在几个问题:我希望许多输入文件包含损坏的HTML(丢失/乱序元素等)SCRIPT元素,其中包含注释和/或看起来像有效元素的VBScript/JavaScript等。我需要能够对IE条件注释以及IE条件注释中的META和LINK元素进行特殊处理更不用说HTML不是一种常规语言我对.NET中的HTML解析器进行了一些研究,许多SO帖子和博客推荐HTMLAgilityPack.我以前从未使用过它,我不知道

C# html agility pack 按类名获取元素

我正在尝试获取他们的类包含某个单词的所有div:content1content2content3我需要获取其类中包含单词“hello”的所有div。像这样:resultContent.DocumentNode.SelectNodes("//div[@class='hello']"))我如何使用agilitypack做到这一点? 最佳答案 我明白了:resultContent.DocumentNode.SelectNodes("//div[contains(@class,'hello')]")