草庐IT

python - 如何通过 python 从 mediawiki 标记的文章中解析/提取数据

SourceMediawikimarkup现在我正在使用各种正则表达式将mediawiki标记中的数据“解析”到列表/字典中,以便可以使用文章中的元素。这不是最好的方法,因为必须处理的案例数量很多。如何将一篇文章的mediawiki标记解析为各种python对象,以便可以使用其中的数据?例如:将所有标题提取到字典,用它散列部分。获取所有维基间链接,并且将它们放入列表中(我知道这可以通过API完成,但我会而只有一个API调用减少带宽使用)。提取所有图像名称并将它们散列为他们的部分各种正则表达式都可以实现上述目标,但我发现我必须制作的数字相当大。这是mediawikiunofficials