如何使用PDFBox读取pdf内容

àì夳堔傛蜴生んèń 2022-12-23 03:17 747阅读 0赞

1.引入PDFBoxpom依赖

2.以下是PDFBox全部功能所需要的的pom依赖,一般引入前三个依赖即可

  1. <dependencies>
  2. <dependency>
  3. <groupId>org.apache.pdfbox</groupId>
  4. <artifactId>pdfbox</artifactId>
  5. <version>2.0.1</version>
  6. </dependency>
  7. <dependency>
  8. <groupId>org.apache.pdfbox</groupId>
  9. <artifactId>fontbox</artifactId>
  10. <version>2.0.0</version>
  11. </dependency>
  12. <dependency>
  13. <groupId>org.apache.pdfbox</groupId>
  14. <artifactId>jempbox</artifactId>
  15. <version>1.8.11</version>
  16. </dependency>
  17. <dependency>
  18. <groupId>org.apache.pdfbox</groupId>
  19. <artifactId>xmpbox</artifactId>
  20. <version>2.0.0</version>
  21. </dependency>
  22. <dependency>
  23. <groupId>org.apache.pdfbox</groupId>
  24. <artifactId>preflight</artifactId>
  25. <version>2.0.0</version>
  26. </dependency>
  27. <dependency>
  28. <groupId>org.apache.pdfbox</groupId>
  29. <artifactId>pdfbox-tools</artifactId>
  30. <version>2.0.0</version>
  31. </dependency>
  32. </dependencies>

3.读取pdf文件的代码

  1. public static void main(String args[]) throws IOException {
  2. //Loading an existing document
  3. File file = new File("D:\\test\\Attachment.pdf");
  4. PDDocument document = PDDocument.load(file);
  5. //Instantiate PDFTextStripper class
  6. PDFTextStripper pdfStripper = new PDFTextStripper();
  7. //Retrieving text from PDF document
  8. String text = pdfStripper.getText(document);
  9. System.out.println(text);
  10. //Closing the document
  11. document.close();
  12. }

4.Just like that!

5.有需要更多骚操作的,可以去阅读文档
https://iowiki.com/pdfbox/pdfbox_index.html

发表评论

表情:
评论列表 (有 0 条评论,747人围观)

还没有评论,来说两句吧...

相关阅读

    相关 C# 读取PDF书签内容

    PDF书签常见于一些PDF格式的教程或文献等资料中,通过它,读者可以快速的知道每个章节讲述的内容,以此增加文档的可读性和结构性。本文将介绍如何使用C\快速读取一个PDF文档中的

    相关 PdfParser读取PDF文件内容

    > PdfParser 是一个标准的 PHP 库提供个用于从 PDF 文件中抽取数据的工具。它加载 PDF文件并解析文件中对象、头和元数据,可抽取其中的文本信息,支持压缩的 P