草庐IT

c++ - htmlcxx c++ 爬取html

我从不同的人那里读到了许多关于库抓取HTML的不同问题。我决定使用htmlcxx,因为它看起来很简单,而且它在Ubuntu存储库中。无论如何,在玩htmlcxx时,我试图完成一个简单的任务并在标题标签之间抓取文本。使用迭代器,it->text()返回标签本身,it->textClosing()返回标签的结束。我的问题是,如何获取标签之间的数据?我的意思是,一定有办法,为什么要创建一个库来抓取html而没有这个功能呢?如果有人能指出正确的方向,我将不胜感激。你可以查看到目前为止我用svn做了什么:svncosvn://yunices.dyndns.org/repository/nich/

c++ - htmlcxx API 用法

我正在使用htmlcxxlibrary读取HTML文件并生成具有附加内容的相同HTML文件。我可以毫无问题地读取文件,但简单地发出原始HTML文件并不能正确包含结束标记。也就是说,当我简单地迭代并输出整个DOM时,不会发出结束标记。我知道节点有一个closingText()接口(interface)(参见Node.h),但我似乎找不到使用它的方法这让我可以做我需要做的事。下面是我如何转储DOM:it=dom.begin();end=dom.end();for(;it!=end;++it){couttext();}上面给了我:(blank)(blank)(blank)(blank)对于以

c++ - htmlcxx API 用法

我正在使用htmlcxxlibrary读取HTML文件并生成具有附加内容的相同HTML文件。我可以毫无问题地读取文件,但简单地发出原始HTML文件并不能正确包含结束标记。也就是说,当我简单地迭代并输出整个DOM时,不会发出结束标记。我知道节点有一个closingText()接口(interface)(参见Node.h),但我似乎找不到使用它的方法这让我可以做我需要做的事。下面是我如何转储DOM:it=dom.begin();end=dom.end();for(;it!=end;++it){couttext();}上面给了我:(blank)(blank)(blank)(blank)对于以