问题

我能够成功地从所有页面的 PDF 中提取文本，但无法生成结构化数据。如果有人遇到这样的专业知识，请指导我。

代码:

package pdfboxreadfromfile;

import java.awt.geom.Rectangle2D;
import java.io.File;
import java.io.IOException;
import java.util.List;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDDocumentCatalog;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.interactive.form.PDAcroForm;
import org.apache.pdfbox.pdmodel.interactive.form.PDField;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.PDFTextStripperByArea;

public class PDFBoxReadFromFile {
  public static void main(String[] args) {
    try {
      File file = new File("C:/ma.pdf");
      PDDocument doc = PDDocument.load(file);
      PDFTextStripper pdfTextStripper = new PDFTextStripper();
      pdfTextStripper.setSortByPosition(true);
      pdfTextStripper.setStartPage(1);
      pdfTextStripper.setEndPage(6);
      String text = pdfTextStripper.getText(doc);
      System.out.println(text);
      doc.close();
    } catch (IOException e) {
      e.printStackTrace();
    }
  }
}

输出:

（代码输出内容被省略）

PDF 的外观如下。
第一页:
（图片被省略）

预期标题文本仅供参考，无需打印。
（图片被省略）

尝试了以下内容：

Pattern p = Pattern.compile("PO...........*?");
Pattern p1 = Pattern.compile("Vendor...........");
Pattern p2 = Pattern.compile("100.....*?");
Pattern p4 = Pattern.compile("Date...............................................*?");
Pattern p5 = Pattern.compile("62...........3*?");
Pattern p6 = Pattern.compile("62710149950...*?");
Pattern p7 = Pattern.compile("627101499504..*?");

Matcher m = p.matcher(text);
Matcher m1 = p1.matcher(text);
Matcher m2 = p2.matcher(text);
Matcher m4 = p4.matcher(text);
Matcher m5 = p5.matcher(text);
Matcher m6 = p6.matcher(text);
Matcher m7 = p7.matcher(text);
m.find();
m1.find();
m2.find();
m4.find();
m5.find();
m6.find();
m7.find();

System.out.println(m.group(0) + "|" + m1.group(0) + "|" + m2.group(0) + "|" + m2.group(0) + "|" + "MAC" + "|" + m4.group(0) + "|" + m5.group(0) + "|");
System.out.println(m.group(0) + "|" + m1.group(0) + "|" + m2.group(0) + "|" + m2.group(0) + "|" + "MAC" + "|" + m4.group(0) + "|" + m6.group(0) + "|");
System.out.println(m.group(0) + "|" + m1.group(0) + "|" + m2.group(0) + "|" + m2.group(0) + "|" + "MAC" + "|" + m4.group(0) + "|" + m7.group(0) + "|");

结构化输出。但问题是数量与条形码别名产品代码不匹配。
（图片被省略）

英文:

I am able to extract the text from all pages in pdf successfully. But unable to generate in structured data. Guide me if anyone come across such expertise.

Code:

package pdfboxreadfromfile;

import java.awt.geom.Rectangle2D;
import java.io.File;
import java.io.IOException;
import java.util.List;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDDocumentCatalog;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.interactive.form.PDAcroForm;
import org.apache.pdfbox.pdmodel.interactive.form.PDField;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.PDFTextStripperByArea;

public class PDFBoxReadFromFile {
  public static void main(String[] args) {
    try {
      File file = new File(&quot;C:/ma.pdf&quot;);
      PDDocument doc = PDDocument.load(file);
      PDFTextStripper pdfTextStripper = new PDFTextStripper();
      pdfTextStripper.setSortByPosition(true);
      pdfTextStripper.setStartPage(1);
      pdfTextStripper.setEndPage(6);
      String text = pdfTextStripper.getText(doc);
      System.out.println(text);
      doc.close();
    } catch (IOException e) {
      e.printStackTrace();
    }
  }

Output:

PDF looks like this.
Page 1:

Expected header text is only for reference and need notin print.

Tried the following:

Pattern p = Pattern.compile(&quot;PO...........*?&quot;);
Pattern p1 = Pattern.compile(&quot;Vendor...........&quot;);
Pattern p2 = Pattern.compile(&quot;100.....*?&quot;);
Pattern p4 = Pattern.compile(&quot;Date...............................................*?&quot;);
Pattern p5 = Pattern.compile(&quot;62...........3*?&quot;);
Pattern p6 = Pattern.compile(&quot;62710149950...*?&quot;);
Pattern p7 = Pattern.compile(&quot;627101499504..*?&quot;);

Matcher m = p.matcher(text);
Matcher m1 = p1.matcher(text);
Matcher m2 = p2.matcher(text);
Matcher m4 = p4.matcher(text);
Matcher m5 = p5.matcher(text);
Matcher m6 = p6.matcher(text);
Matcher m7 = p7.matcher(text);
m.find();
m1.find();
m2.find();
m4.find();
m5.find();
m6.find();
m7.find();

System.out.println(m.group(0) + &quot;|&quot; + m1.group(0) + &quot;|&quot; + m2.group(0) + &quot;|&quot; + m2.group(0) + &quot;|&quot; + &quot;MAC&quot; + &quot;|&quot; + m4.group(0) + &quot;|&quot; + m5.group(0) + &quot;|&quot;);
System.out.println(m.group(0) + &quot;|&quot; + m1.group(0) + &quot;|&quot; + m2.group(0) + &quot;|&quot; + m2.group(0) + &quot;|&quot; + &quot;MAC&quot; + &quot;|&quot; + m4.group(0) + &quot;|&quot; + m6.group(0) + &quot;|&quot;);
System.out.println(m.group(0) + &quot;|&quot; + m1.group(0) + &quot;|&quot; + m2.group(0) + &quot;|&quot; + m2.group(0) + &quot;|&quot; + &quot;MAC&quot; + &quot;|&quot; + m4.group(0) + &quot;|&quot; + m7.group(0) + &quot;|&quot;);

Structured Output. But issue is Quantity against the Barcode alias Product code is not coming.

答案1

得分: 0

你应该搜索文本找到标题行（条形码，物品编号，...），然后通过将每一行分割成列来解析。列之间用空格分隔，因此可以使用String.split()函数。

英文:

You should search the text for the header line (Barcode, Item number, ...) and then parse each following line by splitting it to columns. The columns are separated by spaces, so you can use the String.split() function.

专注分享java语言的经验与见解，让所有开发者获益！

从PDF文档中提取文本并生成结构化数据。

问题

答案1

Go like channels in Java

在低资源环境下使用Apache Cassandra和Go服务器

avatica-go客户端读取Phoenix查询服务器：[驱动程序：连接错误]

向Spring端点发送POST请求，返回状态码400。

Spring Boot控制器从Golang应用程序接收到的重定向请求会被重复执行两次。

可以在不将其读入内存的情况下多次重用HTTP请求体吗？

How to register my go lang microservice in Spring Eureka Service Discovery

在应用程序-go + BDD-java中模拟第三方服务

What is value, reference vs pointer and what these three example used to pass?

Do goroutines and light-weight Java threads mean we never need use thread pools and async code again?

发表评论