草庐IT

PDFMiner3K

全部标签

python - 在python中使用PDFMiner从PDF文件中提取文本?

我正在寻找有关如何使用PDFMiner和Python从PDF文件中提取文本的文档或示例。看起来PDFMiner更新了他们的API,我发现的所有相关示例都包含过时的代码(类和方法已更改)。我发现使从PDF文件中提取文本的任务更容易的库正在使用旧的PDFMiner语法,所以我不知道该怎么做。事实上,我只是在查看源代码,看看我是否能弄清楚。 最佳答案 这是一个使用当前版本的PDFMiner(2016年9月)从PDF文件中提取文本的工作示例frompdfminer.pdfinterpimportPDFResourceManager,PDFP

程序人生:新媒体运营毅然转行测试涨薪3k,我的入行秘籍是什么...

不尝试永远都不会成功,勇敢的尝试是成功的一半。大学毕业做运营,业务难精进,薪资难提升“你大学专业是商务英语,为什么毕业后会选择做新媒体运营呢?”其实我当时没有想那么多的,商务英语的就业方向一个是培训机构英语老师,另一个就是外贸业务员。我们专业的毕业生是不在大部分公立学校的选择范围内的,他们招收英语老师都必须是英语师范或者英语专业。我对于去培训机构当老师和做销售性质很强的外贸业务员都不太感兴趣,因为自己平时喜欢写写东西,也喜欢摄影,上网追热点看新闻,所以稀里糊涂地做了新媒体运营。新媒体运营这个岗位吧,门槛比较低好上手,啥都需要会点,但是很少能针对其中某一点去精进。由于我缺乏经验专业也不对口,做新

python 3.3.4 : python-daemon-3K ; How to use runner

努力尝试让python守护进程使用Python3.3.4工作。我正在使用来自PyPi的最新版本的python-daemon-3K,即1.5.8起点是找到以下代码HowdoyoucreateadaemoninPython?我认为是2.xPython的代码。importtimefromdaemonimportrunnerclassApp():def__init__(self):self.stdin_path='/dev/null'self.stdout_path='/dev/tty'self.stderr_path='/dev/tty'self.pidfile_path='/tmp/foo

python - PDFminer:提取带有字体信息的文本

这个问题在这里已经有了答案:HowtoextracttextandtextcoordinatesfromaPDFfile?(4个答案)关闭上个月。我找到了thisquestion,但它使用命令行,我不想使用子进程在命令行中调用Python脚本并解析HTML文件以获取字体信息。我想使用PDFminer作为一个库,我找到了thisquestion,但它们只是提取纯文本,没有其他信息,如字体名称、字体大小等。

python - 使用 Python pdfMiner 每页提取文本?

我已经尝试使用pyPdf和pdfMiner从pdf文件中提取文本。我有一些不友好的pdf,只有pdfMiner能够成功提取。我正在使用代码here提取整个文件的文本。但是,我真的很想在每页的基础上提取文本,例如pyPdf中的getPage(i).extractText()功能。有谁知道如何使用pdfMiner提取每页的文本? 最佳答案 forpageNumber,pageinenumerate(PDFDocument.get_pages()):ifpageNumber==42:#dosomethingwiththepage有篇不错的

python - 有没有 Py3k-only 库的索引?

我很好奇是否有仅支持Python3的重要库,因为似乎许多支持它的库也恰好支持Python2。 最佳答案 不,没有这样的索引,但您可以从PyPI上的分类器数据创建一个。您可以列出所有具有“ProgrammingLanguage::Python::3”或ProgrammingLanguage::Python::3.0或“ProgrammingLanguage::Python3.1”但没有Python2分类器的包.http://pypi.python.org/pypi?:action=browse&c=214XML接口(interface

python - sys.argv 作为 Python 3k 中的字节

由于Python3k在字符串和字节之间引入了严格的区别,数组sys.argv中的命令行参数以字符串形式呈现。有时有必要将参数视为字节,例如在传递不需要采用Unix中任何特定字符编码的路径时。让我们看一个例子。一个简短的Python3k程序argv.py如下:importsysprint(sys.argv[1])print(b'bytes')当它作为python3.1argv.pyfrançais执行时,它会产生预期的输出:françaisb'bytes'请注意,参数français在我的语言环境编码中。然而,当我们以不同的编码传递参数时,我们会得到一个错误:python3.1argv.

python - Py3k : What's more pythonic - one import with commas or many imports?

什么是更pythonic的?importosimportsysimportgetopt...或importos,sys,getopt,...? 最佳答案 来自PEP8:导入通常应该在单独的行中,例如:是的:importosimportsys否:importsys,os虽然这样说没关系:fromsubprocessimportPopen,PIPE 关于python-Py3k:What'smorepythonic-oneimportwithcommasormanyimports?,我们在St

python - 使用 PDFMiner 解析没有/Root 对象的 PDF

我正在尝试使用PDFMinerpython绑定(bind)从大量PDF中提取文本。我编写的模块适用于许多PDF,但对于一部分PDF,我遇到了这个有点神秘的错误:ipython堆栈跟踪:/usr/lib/python2.7/dist-packages/pdfminer/pdfparser.pycinset_parser(self,parser)331break332else:-->333raisePDFSyntaxError('No/Rootobject!-IsthisreallyaPDF?')334ifself.catalog.get('Type')isnotLITERAL_CATAL

Python:特殊字符给我带来问题(来自 PDFminer)

我使用PDFminer的pdf2text将PDF缩减为文本。不幸的是它包含特殊字符。让我显示控制台的输出>>>a=pdf_to_text("ap.pdf")这里是它的一个样本,有点截断>>>a[5000:5500]'fonearchitect.Decades......buttore\xef\xac\x82ect\nonesetofdesignideas,thantohaveonethatcontainsmany\ngoodbutindependentanduncoordinatedideas.\n1JoshuaBloch,\xe2\x80\x9cHowtoDesignaGoodAPI