如何让 PDFTextStripper 按行提取文本?

huangapple 未分类评论53阅读模式
英文:

How can I get PDFTextStripper to extract text row by row?

问题

以下是您要翻译的内容:

这是输入(PDF)的摘录:

如何让 PDFTextStripper 按行提取文本?

这是我的代码:

public static String pdfPageToText(
    PDDocument docIn,
    int pageNumber
) {
    String pageText = "";
    try {
        PDFTextStripper stripper = new PDFTextStripper( );
        stripper.setStartPage( pageNumber );
        stripper.setEndPage( pageNumber );
        pageText = stripper.getText( docIn );
    } catch ( Exception e ) {
        LOGGER.severe( e.getMessage( ) );
    }
    return pageText;
}

提取的文本看起来像这样:

如何让 PDFTextStripper 按行提取文本?

我希望它更像这样:

如何让 PDFTextStripper 按行提取文本?

请指引我正确的方向。谢谢。

英文:

Here is an excerpt of the input (PDF):

如何让 PDFTextStripper 按行提取文本?

Here is my code:

    public static String pdfPageToText(
        PDDocument docIn,
        int pageNumber
    ) {
        String pageText = "";
        try {
            PDFTextStripper stripper = new PDFTextStripper( );
            stripper.setStartPage( pageNumber );
            stripper.setEndPage( pageNumber );
            pageText = stripper.getText( docIn );
        } catch ( Exception e ) {
            LOGGER.severe( e.getMessage( ) );
        }
        return pageText;
    }

The extracted text looks like this:

如何让 PDFTextStripper 按行提取文本?

I would expect it to be more like this:

如何让 PDFTextStripper 按行提取文本?

Please point me in the right direction. Thank you.

huangapple
  • 本文由 发表于 2020年4月10日 07:55:05
  • 转载请务必保留本文链接:https://java.coder-hub.com/61132067.html
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定