Python--Parsingfiles(docx,pdfandodt)andconvertingthecontentintomydatamodel我正在编写一个导入/导出工具,用于导入docx、pdf和odt文件;其中写了一本书。我们已经有了一个用于.epub格式的工具,并且我们希望在此基础上扩展功能,以便该网站的用户可以拥有更大的灵活性。到目前为止,我查看了PDFMiner,还发现docx只是基于openxml格式,所以word/document.xml本质上是包含整个内容的文件,我可以用lxml解析它。我的问题是:我希望解析这些文件的内容,并从该内容中提取章节名称、图像(如果有)和章节文