草庐IT

Java Apache POI 小记(读取Word通过模板创建PPT)

moonfish 2023-04-19 原文

@

目录

起因

近期身边的一位朋友来寻求帮助,她在日常工作时,总是需要做一些重复的事情,所以想着是否能通过程序实现自动化的操作。
具体需求为,每天会收到一份固定格式的Word文件,然后根据其中的内容,填充到固定的PPT模板中,最终生成图片输出。

过程

确定工具

有了需求后,第一件事自然是在网络上查找是否有符合需要的工具使用,笔者之前用过Apache POI来操作过Excel文件的经历,因此有印象Apache POI是支持Office文件的操作,不局限于Excel文件,于是决定就用它了。(制作后期有看到一些其他的工具框架,比如Spire,但一是因为已经用POI实现了大部分功能,二是因为比如Spire的高级功能是收费的,最终还是用POI一条路走到底了)
Apache POI是用Java编写的免费开源的跨平台的 Java API,Apache POI提供API给Java程式对Microsoft Office(Excel、WORD、PowerPoint、Visio等)格式档案读和写的功能(基于OLE2 Compound documents of MS-Office文件格式 )。POI本身为“Poor Obfuscation Implementation”的首字母缩写。
其中POI主要有以下功能模块:

  • HSSF - 提供读写Microsoft Excel XLS格式档案的功能。
  • XSSF - 提供读写Microsoft Excel OOXML XLSX格式档案的功能。
  • HWPF - 提供读写Microsoft Word DOC97格式档案的功能。
  • XWPF - 提供读写Microsoft Word DOC2003格式档案的功能。
  • HSLF - 提供读写Microsoft PowerPoint格式档案的功能。
  • HDGF - 提供读Microsoft Visio格式档案的功能。
  • HPBF - 提供读Microsoft Publisher格式档案的功能。
  • HSMF - 提供读Microsoft Outlook格式档案的功能。

功能拆分

确定使用的工具之后,便是将需求进行功能性拆分,方便功能的独立实现。

  1. 读取Word文件,包括文字的颜色属性。
  2. 读取PPT模板,通过模板创建新的PPT,并将Word文件中读取的内容填充到新建的PPT文件中。
  3. 将PPT文件转换为图片。

读取Word文件

Apache POI支持对Word文件进行读写操作。笔者使用的3.17的版本,主要是因为开始查找相关范例的时候,网上的demo多数基于这个版本,虽然版本不是最新的,但足够实现所需要的功能。(笔者在功能完成后,有尝试使用最新版的POI,新版的实现与旧版略有不同,会导致已实现的功能报错,因为时间问题就没有深究,因此又退回了3.17的版本)。POI的Maven依赖如下所示:

<dependencies>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi</artifactId>
            <version>3.17</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.poi/poi-ooxml -->
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>3.17</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.poi/poi-ooxml-schemas -->
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml-schemas</artifactId>
            <version>3.17</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.poi/poi-scratchpad -->
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-scratchpad</artifactId>
            <version>3.17</version>
        </dependency>

    </dependencies>

引入POI库后,便可以着手进行功能的实现了,下面的示例为读取本地磁盘的Word文件。

 // 读取制定路径下的doc文件,测试时使用的是docx文件
    public static ArrayList<WordStrList> readDoc1(String path) throws IOException {

        InputStream is = new FileInputStream(path);
        XWPFDocument doc = new XWPFDocument(is);


        ArrayList<WordStrList> wordLists = new ArrayList<WordStrList>();

        List<XWPFParagraph> paras = doc.getParagraphs();

        StringBuffer sb = new StringBuffer();
        for (int i = 0; i < paras.size(); i++) {
            XWPFParagraph para = paras.get(i);
            List<XWPFRun> runsLists = para.getRuns();
            WordStrList wordList = new WordStrList();
            for (XWPFRun run : runsLists) {
                // 获取文本内容及文本颜色
                WordStr wordStr = new WordStr(run.toString(), run.getColor());
                wordList.add(wordStr);
                sb.append(run.toString());
            }
            wordLists.add(wordList);

            sb.setLength(0);
        }

        System.out.println("Word文件【"+path+"】加载完毕...");
        return wordLists;
    }

通过XWPFDocument可以很轻松地读取到指定的Word文件,除了Word的文本内容外,还能获取一些格式属性,笔者只需要获取对应文字的颜色即可。

通过PPT模板创建PPT并填充内容

在上一步中,我们可以读取Word文件中的内容,加以一定的解析筛选,便可以得到想要往PPT中填充的内容了。
笔者这次的PPT模板非常简单,分为封面、内容页、封底,每页都是一张底图加一个文本框,因此相对操作比较简单,参考代码如下:

public static void createPPTByTemplate(String templatePath, String destPPTPath, ArrayList<WordStrList> contentList) {

        InputStream is;
        OutputStream os;
        XMLSlideShow oPPT;
        
        try {
            is = new FileInputStream(templatePath);
            os = new FileOutputStream(destPPTPath);
            oPPT = new XMLSlideShow(is);
        } catch (IOException e) {
            throw new RuntimeException(e);
        }


        XMLSlideShow dPPT = new XMLSlideShow();
		// 将新建的PPT页面大小设置为模板页面大小
        dPPT.setPageSize(oPPT.getPageSize());
        
  		// 获取PPT模板
        List<XSLFSlide> slides = oPPT.getSlides();
        XSLFSlide baseSlide0 = slides.get(0);
        XSLFSlide baseSlide1 = slides.get(1);
        XSLFSlide baseSlide2 = slides.get(2);

        //创建内容页
        System.out.println("创建内容页...");
        Pattern indexPattern = Pattern.compile("[\\d]+、");
        for (int i = 1; i < contentList.size() - 1; i++) {
            WordStrList wsl = contentList.get(i);
            Matcher matcher = indexPattern.matcher(wsl.toString().substring(0, 5));
            XSLFSlide contentSlide = copySlide(dPPT, baseSlide1);
            shapeList = contentSlide.getShapes();
            
            for (XSLFShape shape : shapeList) {

                if (shape instanceof XSLFTextShape) {
                    XSLFTextShape temp = (XSLFTextShape) shape;
                    temp.clearText();

                    XSLFTextRun xslfTextRun;
                    WordStr wStr;
                    if (!matcher.find()) {
                        String tempStr = wsl.get(0).getStr();
                        wsl.get(0).setStr(i + "、" + tempStr);
                    }

                    for (int j = 0; j < wsl.size(); j++) {
                        wStr = wsl.get(j);
                        xslfTextRun = temp.appendText(wStr.getStr(), false);
                        setText(xslfTextRun, wStr.getColor(), 18.0, "等线");
                        temp.setHorizontalCentered(true);
                    }

                }
            }
        }
 
        //将PPT写出至本地
        try {
            dPPT.write(os);
        } catch (IOException e) {
            throw new RuntimeException(e);
        }

        System.out.println("PPT【" + destPPTPath + "】生成结束,生成PPT页数:" + dPPT.getSlides().size() + "页...");

    }
 public static XSLFSlide copySlide(XMLSlideShow slideShow, XSLFSlide slide) {
        XSLFSlide xslfSlide = slideShow.createSlide();
        List<XSLFShape> shapes = slide.getShapes();

        for (XSLFShape shape : shapes) {
            xslfSlide.importContent(shape.getSheet());
        }

        return xslfSlide;
    }
 public static void setText(XSLFTextRun xslfTextRun, String color, double fontSize, String fontFamily) {

        xslfTextRun.setFontColor(fromStrToARGB(color));
        xslfTextRun.setFontSize(fontSize);
        xslfTextRun.setFontFamily(fontFamily);
    }
   public static Color fromStrToARGB(String str) {
        String redStr = str.substring(0, 2);
        String greenStr = str.substring(2, 4);
        String blueStr = str.substring(4, 6);


        int red = Integer.parseInt(redStr, 16);
        int green = Integer.parseInt(greenStr, 16);
        int blue = Integer.parseInt(blueStr, 16);
        Color color = new Color(red, green, blue);
        return color;
    }

因为笔者源码中含有一些自己文件格式的解析,所以就没有贴出全部的内容了。这里的PPT创建主要分为几步,通过 XMLSlideShow 获取模板文件、通过XMLSlideShow 创建新的PPT文件,通过模板向新建PPT文件中创建新的页面,将之前读取到的内容填充至新建PPT中。

将PPT转为图片

该功能需要注意的是,按原尺寸绘制的PPT界面会比较模糊,可以通过等比例放大图片,使生成的图片更加清晰。
同时,目前该功能无法将第二步代码生成的PPT进行转换,可以转换正常的PPT文件,因为在拷贝模板的步骤中( public XSLFSlide importContent(XSLFSheet src)),会改变新建PPT页SlideLayout,最终导致绘制过程报错,此处目前暂未找到好的方法解决。

 public static int converPPTtoImage(String pptPath, String targetImageFileDir,
                                       String imageFormatNameString, int times) {

        File orignalPPTFile = new File(pptPath);

        //验证文件是否为pptx格式
        if (!checkIsPPTFile(orignalPPTFile)) {
            System.out.print("待转换文件格式异常,不是pptx");
            return 0;
        }

        FileInputStream is = null;
        int imgCount = 0;
        File imgFileDir = new File(targetImageFileDir);
        //如果没有文件夹就创建文件夹
        createDirIfNotExist(targetImageFileDir);
        try {
            is = new FileInputStream(orignalPPTFile);
            XMLSlideShow xmlSlideShow = new XMLSlideShow(is);

           List<XSLFSlideMaster> list =  xmlSlideShow.getSlideMasters();
           XSLFSlideLayout[] slideLayouts = list.get(0).getSlideLayouts();

           is.close();
           // 获取大小
           Dimension pgsize = xmlSlideShow.getPageSize();
           // 获取幻灯片
           XSLFSlide[] slides = xmlSlideShow.getSlides().toArray(new XSLFSlide[0]);
           imgCount = slides.length;
           System.out.println("|--3.slides.length--|"+imgCount);


           for (int i = 0; i < slides.length; i++) {             
                // 创建BufferedImage对象,图像的尺寸为原来的每页的尺寸*倍数times
                BufferedImage img = new BufferedImage(pgsize.width * times,
                        pgsize.height * times, BufferedImage.TYPE_INT_RGB);
                Graphics2D graphics = img.createGraphics();
                graphics.setPaint(Color.white);
                graphics.scale(times, times);// 将图片放大times倍
                graphics.fill(new Rectangle2D.Float(0, 0, pgsize.width, pgsize.height));

                // 绘制
                slides[i].draw(graphics);
                //图片将要存放的路径
                String absolutePath = imgFileDir.getAbsolutePath() + File.separator + (i + 1)
                        + "." + imageFormatNameString;
                File jpegFile = new File(absolutePath);

                //如果图片存在,则不再生成
                if (jpegFile.exists()) {
                    continue;
                }
                // 这里设置图片的存放路径和图片的格式(jpeg,png,bmp等等),注意生成文件路径
                FileOutputStream out = new FileOutputStream(jpegFile);
                // 写入到图片中去
                ImageIO.write(img, imageFormatNameString, out);
                out.close();
            }
            return imgCount;
        } catch (Exception e) {
            e.printStackTrace(); 
        }
        return imgCount;
    }

总结

生活中有着很多重复性的工作,也许只要花少量的时间,就可以创建一个自动化的工具来协助我们更高效地完成日常工作,解放一定的时间。并且在制作工具的同时,也可以了解更多的知识。

有关Java Apache POI 小记(读取Word通过模板创建PPT)的更多相关文章

  1. ruby - 如何在 Ruby 中顺序创建 PI - 2

    出于纯粹的兴趣,我很好奇如何按顺序创建PI,而不是在过程结果之后生成数字,而是让数字在过程本身生成时显示。如果是这种情况,那么数字可以自行产生,我可以对以前看到的数字实现垃圾收集,从而创建一个无限系列。结果只是在Pi系列之后每秒生成一个数字。这是我通过互联网筛选的结果:这是流行的计算机友好算法,类机器算法:defarccot(x,unity)xpow=unity/xn=1sign=1sum=0loopdoterm=xpow/nbreakifterm==0sum+=sign*(xpow/n)xpow/=x*xn+=2sign=-signendsumenddefcalc_pi(digits

  2. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  3. ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2

    我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

  4. ruby - 通过 rvm 升级 ruby​​gems 的问题 - 2

    尝试通过RVM将RubyGems升级到版本1.8.10并出现此错误:$rvmrubygemslatestRemovingoldRubygemsfiles...Installingrubygems-1.8.10forruby-1.9.2-p180...ERROR:Errorrunning'GEM_PATH="/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/ruby-1.9.2-p180@global:/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/rub

  5. ruby - 使用 Vim Rails,您可以创建一个新的迁移文件并一次性打开它吗? - 2

    使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta

  6. ruby-on-rails - 无法使用 Rails 3.2 创建插件? - 2

    我对最新版本的Rails有疑问。我创建了一个新应用程序(railsnewMyProject),但我没有脚本/生成,只有脚本/rails,当我输入ruby./script/railsgeneratepluginmy_plugin"Couldnotfindgeneratorplugin.".你知道如何生成插件模板吗?没有这个命令可以创建插件吗?PS:我正在使用Rails3.2.1和ruby​​1.8.7[universal-darwin11.0] 最佳答案 随着Rails3.2.0的发布,插件生成器已经被移除。查看变更日志here.现在

  7. ruby - 通过 erb 模板输出 ruby​​ 数组 - 2

    我正在使用puppet为ruby​​程序提供一组常量。我需要提供一组主机名,我的程序将对其进行迭代。在我之前使用的bash脚本中,我只是将它作为一个puppet变量hosts=>"host1,host2"我将其提供给bash脚本作为HOSTS=显然这对ruby​​不太适用——我需要它的格式hosts=["host1","host2"]自从phosts和putsmy_array.inspect提供输出["host1","host2"]我希望使用其中之一。不幸的是,我终其一生都无法弄清楚如何让它发挥作用。我尝试了以下各项:我发现某处他们指出我需要在函数调用前放置“function_”……这

  8. ruby - 如何使用 RSpec::Core::RakeTask 创建 RSpec Rake 任务? - 2

    如何使用RSpec::Core::RakeTask初始化RSpecRake任务?require'rspec/core/rake_task'RSpec::Core::RakeTask.newdo|t|#whatdoIputinhere?endInitialize函数记录在http://rubydoc.info/github/rspec/rspec-core/RSpec/Core/RakeTask#initialize-instance_method没有很好的记录;它只是说:-(RakeTask)initialize(*args,&task_block)AnewinstanceofRake

  9. Ruby 写入和读取对象到文件 - 2

    好的,所以我的目标是轻松地将一些数据保存到磁盘以备后用。您如何简单地写入然后读取一个对象?所以如果我有一个简单的类classCattr_accessor:a,:bdefinitialize(a,b)@a,@b=a,bendend所以如果我从中非常快地制作一个objobj=C.new("foo","bar")#justgaveitsomerandomvalues然后我可以把它变成一个kindaidstring=obj.to_s#whichreturns""我终于可以将此字符串打印到文件或其他内容中。我的问题是,我该如何再次将这个id变回一个对象?我知道我可以自己挑选信息并制作一个接受该信

  10. ruby - 通过 ruby​​ 进程共享变量 - 2

    我正在编写一个gem,我必须在其中fork两个启动两个webrick服务器的进程。我想通过基类的类方法启动这个服务器,因为应该只有这两个服务器在运行,而不是多个。在运行时,我想调用这两个服务器上的一些方法来更改变量。我的问题是,我无法通过基类的类方法访问fork的实例变量。此外,我不能在我的基类中使用线程,因为在幕后我正在使用另一个不是线程安全的库。所以我必须将每个服务器派生到它自己的进程。我用类变量试过了,比如@@server。但是当我试图通过基类访问这个变量时,它是nil。我读到在Ruby中不可能在分支之间共享类变量,对吗?那么,还有其他解决办法吗?我考虑过使用单例,但我不确定这是

随机推荐