草庐IT

PDFTextStripper

全部标签

java - PDFBox - 获取单词位置(而不仅仅是字符')

是否可以使用PDFBox获取单词的位置,类似于“processTextPosition”?似乎processTextPosition仅在单个字符上调用,将它们合并为单词的代码是PDFTextStripper(在“规范化”中)方法的一部分,它确实返回文本的位置。是否也有提取位置的方法/实用程序?(对于那些想知道动机是什么的人——信息实际上是一个表格,我们想检测空单元格)谢谢 最佳答案 要获取从pdf文件中提取的文本中的单词及其x和y位置,您必须扩展PdfTextStripper类并使用自定义类从pdf文件中提取文本,例如publicc