theplantlist_草庐IT

我想使用R的XML包来抓取html表，其方式与在此线程中讨论的方式类似:ScrapinghtmltablesintoRdataframesusingtheXMLpackage与我要提取的数据的主要区别在于，我还需要与html表中的图像相关的文本。例如http://www.theplantlist.org/tpl/record/kew-422570处的表包含“置信度”列，其中包含显示一到三颗星的图像。如果我使用:readHTMLTable("http://www.theplantlist.org/tpl/record/kew-422570")那么“Confidence”的输出列除了标题之