草庐IT

基于 ChatGPT 实现一个 PDF 阅读器

最近随着OpenAI开放了相关API,市面上出现了越来越多的AI应用,chatpdf这个项目吸引了我的注意,它是如何突破API最大token的限制来读取这种长文本的呢?基于对chatpdf原理的好奇,我开始研究起市面上相关的应用,于是简单了解后写了个简单的demo用于学习,顺便熟悉了下OpenAIAPI的使用。Demo在这个Demo中,你可以向ChatGPT提问PDF中的相关问题:Demo地址Github地址Demo是我提前跑好数据的“GitHub隐私协议”。目前Prompt还没调试到最佳状态,所以有些问题回答的不算很好。你可以尝试提问一些简单的问题,例如“GitHub隐私协议中有哪些个人信息

java - 如何使用 Apache PDFBox 从 PDF 文件中提取文本

我想使用ApachePDFBox从给定的PDF文件中提取文本。我写了这段代码:PDFTextStripperpdfStripper=null;PDDocumentpdDoc=null;COSDocumentcosDoc=null;Filefile=newFile(filepath);PDFParserparser=newPDFParser(newFileInputStream(file));parser.parse();cosDoc=parser.getDocument();pdfStripper=newPDFTextStripper();pdDoc=newPDDocument(cos

java - 如何使用 Apache PDFBox 从 PDF 文件中提取文本

我想使用ApachePDFBox从给定的PDF文件中提取文本。我写了这段代码:PDFTextStripperpdfStripper=null;PDDocumentpdDoc=null;COSDocumentcosDoc=null;Filefile=newFile(filepath);PDFParserparser=newPDFParser(newFileInputStream(file));parser.parse();cosDoc=parser.getDocument();pdfStripper=newPDFTextStripper();pdDoc=newPDDocument(cos

java - 将 SVG 转换为 PDF

如何以编程方式将SVG文件转换为PDF?(在生成PDF之前,我需要在某些方面更改SVG,因此仅使用工具对其进行预转换是不够的。)最好使用Java,但Perl或PHP也可以。显然,我基本上是在考虑使用Java的ApacheFOP和Batik。但是,无论我搜索多长时间,我都找不到有关如何操作的简单介绍。诸如SVGConverter之类的东西有类似“为能够转换部分或全部GraphicContext的类定义接口(interface)”这样的描述,但我真的不知道这是什么意思。我有这种感觉,必须有一个API可以很简单地做到这一点,由FOP或Batik提供,但我现在无法找到它(或者它可能真的不存在。

java - 将 SVG 转换为 PDF

如何以编程方式将SVG文件转换为PDF?(在生成PDF之前,我需要在某些方面更改SVG,因此仅使用工具对其进行预转换是不够的。)最好使用Java,但Perl或PHP也可以。显然,我基本上是在考虑使用Java的ApacheFOP和Batik。但是,无论我搜索多长时间,我都找不到有关如何操作的简单介绍。诸如SVGConverter之类的东西有类似“为能够转换部分或全部GraphicContext的类定义接口(interface)”这样的描述,但我真的不知道这是什么意思。我有这种感觉,必须有一个API可以很简单地做到这一点,由FOP或Batik提供,但我现在无法找到它(或者它可能真的不存在。

java - 无法使用 PDFBox 将图像添加到 pdf

我正在编写一个使用pdfbox库从头开始创建pdf的Java应用程序。我需要在其中一个页面中放置一个jpg图像。我正在使用此代码:PDDocumentdocument=newPDDocument();PDPagepage=newPDPage(PDPage.PAGE_SIZE_A4);document.addPage(page);PDPageContentStreamcontentStream=newPDPageContentStream(document,page);/*...*//*codetoaddsometexttothepage*//*...*/InputStreamin=ne

java - 无法使用 PDFBox 将图像添加到 pdf

我正在编写一个使用pdfbox库从头开始创建pdf的Java应用程序。我需要在其中一个页面中放置一个jpg图像。我正在使用此代码:PDDocumentdocument=newPDDocument();PDPagepage=newPDPage(PDPage.PAGE_SIZE_A4);document.addPage(page);PDPageContentStreamcontentStream=newPDPageContentStream(document,page);/*...*//*codetoaddsometexttothepage*//*...*/InputStreamin=ne

java - 如何在angularjs中读取pdf流

我从服务器获得了以下PDF流:如何在AngularJS中读取这个流?我尝试使用以下代码在新窗口中将其作为PDF文件打开:.success(function(data){window.open("data:application/pdf,"+escape(data));});但我无法在打开的窗口中看到内容。 最佳答案 我通过更改Controller代码实现了这一点$http.get('/retrievePDFFiles',{responseType:'arraybuffer'}).success(function(data){varf

java - 如何在angularjs中读取pdf流

我从服务器获得了以下PDF流:如何在AngularJS中读取这个流?我尝试使用以下代码在新窗口中将其作为PDF文件打开:.success(function(data){window.open("data:application/pdf,"+escape(data));});但我无法在打开的窗口中看到内容。 最佳答案 我通过更改Controller代码实现了这一点$http.get('/retrievePDFFiles',{responseType:'arraybuffer'}).success(function(data){varf

java - iText 是否有任何 Java PDF 创建替代方案?

已结束。此问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是无关紧要的,因为它们往往会吸引固执己见的答案和垃圾邮件。相反,describetheproblem以及到目前为止为解决这个问题所做的工作。关闭9年前。Improvethisquestion我正在尝试通过FOP呈现大约100,000-80列记录,并且每次都会出现大量问题(OutOfMemoryException)。我知道iText可以处理这种负载,但由于LGPL许可证,我无法使用它。是否有任何替代iText的Java库