草庐IT

pdf和图片的处理一记

夏目贵志 2023-03-28 原文
python是非常好用的一门语言,因为它有很多别人封装好底层逻辑的库,我们只需要用简单的函数调用或者经过并不复杂的初始化过程即可。最近要投递简历,所以在处理简历的时候遇到一个问题,就是生成了一份pdf简历,但有一页是多余的,一开始是用wps进行删除的,不过只进行删除然后保存一项操作,就要充钱了!!!吃相真难看!我是程序员,我还用你的逻辑吗?呸

截图转换成pdf

初始想法,是用截图的办法,来生成一张图片,然后使用pillow来进行处理(也就调用save函数,规定一下保存参数而已)。如下:

就一张截图,然后简单处理就可以了,需要说明的是下面用到的第三方库是pillow库:

from PIL import Image


def main():
    path = "resume.png"
    img = Image.open(path)
    img.load()
    background = Image.new('RGB', img.size, (255, 255, 255))
    background.paste(img, mask=img.split()[3]) # 3 is the alpha channel
    background.save('res.pdf', save_all=True)
    img.close()


if __name__ == '__main__':
    main()

其实个人处理,直接用python的交互界面就行了的,简单快捷。不过最后得到的效果不好,因为照片转过来后,默认的转换得到的pdf很模糊。

第二弹

上面失败后,就想着从之前已经下载好的pdf入手,因为有两页,所以想切换成图片对象,然后把图片对象保存为pdf。
用到的库是pymupdf和上面的pillow。

import fitz #pymupdf库
from PIL import Image


def main():
    # 保存第二页pdf为图片
    doc = fitz.open('balala.pdf')
    trans = fitz.Matrix(1.0, 1.0).prerotate(0)  #Matrix的参数是表示分辨率
    pix = doc[1].get_pixmap(matrix=trans, alpha=False)
    dpi = (pix.xres, pix.yres)
    img = Image.frombytes('RGB', (pix.width, pix.height), pix.samples)
    img.save('res.jpg', dpi=dpi)
    img.close()
    # 转换得到的图片为pdf
    img_pdf = Image.open('res.jpg')
    img_pdf.save('res.pdf', save_all=True)
    img_pdf.close()


if __name__ == "__main__":
    main()

嗯,满心欢喜打开一看。。。。。。妈哎,这都啥?比上面的还要模糊,生成的图片和pdf都是目标内容,但清晰度不够,没法子了,不搞转换那一套了,直接处理pdf!!!

pdf处理PyPDF2

如题所示,这里要用到的是PyPDF2这么一个库,不浪费时间,直接上代码:

# encoding=utf-8
# 主要用到的就库里面的读取对象和写入对象
from PyPDF2 import PdfFileReader, PdfFileWriter


def main():
    pdf = PdfFileReader(open('test.pdf', 'rb'))
    pdf_res = PdfFileWriter()
    pdf_res.addPage(pdf.getPage(1))    #第二页,所以index是1
    pdf_res.write(open('res.pdf', 'wb'))


if __name__ == "__main__":
    main()

嗯,这次总算是ok了。如果是交互界面进行的话,记得最后关掉cmd的python进程再查看结果pdf,不然会显示文件损坏。

有关pdf和图片的处理一记的更多相关文章

  1. ruby - 如何指定 Rack 处理程序 - 2

    Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack

  2. ruby-on-rails - Ruby on Rails - 为文本区域和图片生成列 - 2

    我是Rails的新手,所以请原谅简单的问题。我正在为一家公司创建一个网站。那家公司想在网站上展示它的客户。我想让客户自己管理这个。我正在为“客户”生成一个表格,我想要的三列是:公司名称、公司描述和Logo。对于名称,我使用的是name:string但不确定如何在脚本/生成脚手架终端命令中最好地创建描述列(因为我打算将其设置为文本区域)和图片。我怀疑描述(我想成为一个文本区域)应该仍然是描述:字符串,然后以实际形式进行调整。不确定如何处理图片字段。那么……说来话长:我在脚手架命令中输入什么来生成描述和图片列? 最佳答案 对于“文本”数

  3. ruby-on-rails - Prawn PDF : I need to generate nested tables - 2

    我需要一个表,其中行实际上是2行表,一个嵌套表是..我怎样才能在Prawn中做到这一点?也许我需要延期..但哪一个? 最佳答案 现在支持子表:Prawn::Document.generate("subtable.pdf")do|pdf|subtable=pdf.make_table([["sub"],["table"]])pdf.table([[subtable,"original"]])end 关于ruby-on-rails-PrawnPDF:Ineedtogeneratenested

  4. Ruby-vips 图像处理库。有什么好的使用示例吗? - 2

    我对图像处理完全陌生。我对JPEG内部是什么以及它是如何工作一无所知。我想知道,是否可以在某处找到执行以下简单操作的ruby​​代码:打开jpeg文件。遍历每个像素并将其颜色设置为fx绿色。将结果写入另一个文件。我对如何使用ruby​​-vips库实现这一点特别感兴趣https://github.com/ender672/ruby-vips我的目标-学习如何使用ruby​​-vips执行基本的图像处理操作(Gamma校正、亮度、色调……)任何指向比“helloworld”更复杂的工作示例的链接——比如ruby​​-vips的github页面上的链接,我们将不胜感激!如果有ruby​​-

  5. ruby-on-rails - CarrierWave - PDF - 只选择第一页 - 2

    我的Rails应用程序中安装了carrierwave。但是,当用户上传多页pdf时,我只希望应用程序获取文档中的第一页并将其转换为jpeg。这可能吗?用什么命令?这是我的uploader。#encoding:utf-8classImageUploader[200,300]##defscale(width,height)##dosomething#end#Createdifferentversionsofyouruploadedfiles:version:thumbdoprocess:resize_to_fill=>[150,210]process:convert=>:jpgdefful

  6. ruby - Faye WebSocket,关闭处理程序被触发后重新连接到套接字 - 2

    我有一个super简单的脚本,它几乎包含了FayeWebSocketGitHub页面上用于处理关闭连接的内容:ws=Faye::WebSocket::Client.new(url,nil,:headers=>headers)ws.on:opendo|event|p[:open]#sendpingcommand#sendtestcommand#ws.send({command:'test'}.to_json)endws.on:messagedo|event|#hereistheentrypointfordatacomingfromtheserver.pJSON.parse(event.d

  7. ruby - 如何使用 Ruby HTTP::Net 处理 404 错误? - 2

    我正在尝试解析网页,但有时会收到404错误。这是我用来获取网页的代码:result=Net::HTTP::getURI.parse(URI.escape(url))如何测试result是否为404错误代码? 最佳答案 像这样重写你的代码:uri=URI.parse(url)result=Net::HTTP.start(uri.host,uri.port){|http|http.get(uri.path)}putsresult.codeputsresult.body这将打印状态码和正文。

  8. ruby-on-rails - Rails 3,在RAILS_ROOT上方显示来自本地文件系统的jpg图片 - 2

    我正在尝试找出一种方法来显示来自不在RAILS_ROOT下(在RedHat或Ubuntu环境中)的已安装文件系统的图像。我不想使用符号链接(symboliclink),因为这个应用程序实际上是通过Tomcat部署的,而当我关闭Tomcat时,Tomcat会尝试跟随符号链接(symboliclink)并删除挂载中的所有图像。由于这些文件的数量和大小,将图像放在public/images下也不是一种选择。我查看了send_file,但它只会显示一张图片。我需要在一个格式良好的页面中显示6个请求的图像。由于膨胀,我宁愿不使用Base64编码,但我不知道如何将图像数据与呈现的页面一起传递下去。

  9. ruby-on-rails - 使用 Ruby 正确处理 Stripe 错误和异常以实现一次性收费 - 2

    我查看了Stripedocumentationonerrors,但我仍然无法正确处理/重定向这些错误。基本上无论发生什么,我都希望他们返回到edit操作(通过edit_profile_path)并向他们显示一条消息(无论成功与否)。我在edit操作上有一个表单,它可以POST到update操作。使用有效的信用卡可以正常工作(费用在Stripe仪表板中)。我正在使用Stripe.js。classExtrasController5000,#amountincents:currency=>"usd",:card=>token,:description=>current_user.email)

  10. ruby-on-rails - Rails 处理 .Erb 与 Nils - 2

    当profile为nil时,总是让我感到悲伤...我该怎么办? 最佳答案 在View中使用变量之前,始终检查变量是否为nil。我确信这个问题有更优雅的解决方案,但这应该能让您入门。 关于ruby-on-rails-Rails处理.Erb与Nils,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/2709605/

随机推荐