wms/nflg-qms-pdf-extract/src/main/java/service/PdfExtractionService.java

package service;

import extraction.DimensionIdentifier;
import extraction.PositionedTextStripper;
import extraction.TextGrouper;
import lombok.extern.slf4j.Slf4j;
import model.DimensionResult;
import model.TextElement;
import model.TextGroup;
import org.apache.pdfbox.Loader;
import org.apache.pdfbox.pdmodel.PDDocument;

import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.io.StringWriter;
import java.net.MalformedURLException;
import java.net.URL;
import java.nio.file.Path;
import java.util.List;
import java.util.stream.Collectors;

@Slf4j
public class PdfExtractionService {

    private final TextGrouper textGrouper;
    private final DimensionIdentifier dimensionIdentifier;

    public PdfExtractionService(TextGrouper textGrouper,
                                DimensionIdentifier dimensionIdentifier) {
        this.textGrouper = textGrouper;
        this.dimensionIdentifier = dimensionIdentifier;
    }

    public ExtractionResult extractDimensions(Path pdfPath, String fileId) throws IOException {
        long start = System.currentTimeMillis();
        File file = pdfPath.toFile();

        try (PDDocument document = Loader.loadPDF(file)) {
            int totalPages = document.getNumberOfPages();

            PositionedTextStripper stripper = new PositionedTextStripper();
            stripper.setSortByPosition(true);
            StringWriter writer = new StringWriter();
            stripper.writeText(document, writer);
            List<TextElement> allElements = stripper.getElements();

            List<TextGroup> groups = textGrouper.groupTextElements(allElements);
            List<DimensionResult> dimensions = dimensionIdentifier.identifyDimensions(groups);

            long elapsed = System.currentTimeMillis() - start;
            log.info("Extracted {} dimensions from {} in {}ms", dimensions.size(), pdfPath.getFileName(), elapsed);

            return new ExtractionResult(dimensions, totalPages);
        }
    }

    /**
     * 区域提取：不限公差过滤，包含所有尺寸，不保存到数据库
     */
    public List<DimensionResult> extractAllDimensionsForRegion(String pdfUrl) throws IOException {
        byte[] pdfBytes;
        try (InputStream in = new URL(pdfUrl).openStream();
             ByteArrayOutputStream buffer = new ByteArrayOutputStream()) {
            byte[] chunk = new byte[8192];
            int len;
            while ((len = in.read(chunk)) != -1) {
                buffer.write(chunk, 0, len);
            }
            pdfBytes = buffer.toByteArray();
        }
        try (PDDocument document = Loader.loadPDF(pdfBytes)) {
            PositionedTextStripper stripper = new PositionedTextStripper();
            stripper.setSortByPosition(true);
            StringWriter writer = new StringWriter();
            stripper.writeText(document, writer);
            List<TextElement> allElements = stripper.getElements();
            List<TextGroup> groups = textGrouper.groupTextElements(allElements);
            return dimensionIdentifier.identifyDimensions(groups, false);
        }
    }

    public List<DimensionResult> extractDimensions(String pdfUrl) throws IOException {
        byte[] pdfBytes;
        try (InputStream in = new URL(pdfUrl).openStream();
             ByteArrayOutputStream buffer = new ByteArrayOutputStream()) {
            byte[] chunk = new byte[8192];
            int len;
            while ((len = in.read(chunk)) != -1) {
                buffer.write(chunk, 0, len);
            }
            pdfBytes = buffer.toByteArray();
        }
        try (PDDocument document = Loader.loadPDF(pdfBytes)) {
            int totalPages = document.getNumberOfPages();
            PositionedTextStripper stripper = new PositionedTextStripper();
            stripper.setSortByPosition(true);
            StringWriter writer = new StringWriter();
            stripper.writeText(document, writer);
            List<TextElement> allElements = stripper.getElements();

            List<TextGroup> groups = textGrouper.groupTextElements(allElements);
            return dimensionIdentifier.identifyDimensions(groups);
        }
    }

    public static class ExtractionResult {
        private final List<DimensionResult> dimensions;
        private final int totalPages;

        public ExtractionResult(List<DimensionResult> dimensions, int totalPages) {
            this.dimensions = dimensions;
            this.totalPages = totalPages;
        }

        public List<DimensionResult> getDimensions() { return dimensions; }
        public int getTotalPages() { return totalPages; }
    }
}
-												feat(pdf-extract): 实现PDF尺寸和公差的提取识别功能

- 新增DimensionIdentifier用于识别PDF中的尺寸和多种公差格式
- 支持对称公差、非对称公差、配合公差和螺纹标注的正则匹配
- 实现基于TextGroup的文本预处理和位置判断，提高识别准确度
- 创建DimensionResult作为尺寸识别结果的封装实体
- 增加PdfExtractionService服务实现PDF解析、文本分组和尺寸提取流程
- 新增配置类PdfExtractConfig，提供文本分组和尺寸识别组件的Spring Bean
- 增加nflg-qms-pdf-extract模块及相关依赖管理，完成PDF尺寸提取的整体集成

											
										
										
											2026-05-06 15:49:28 +08:00
+								package service;
 								import extraction.DimensionIdentifier;
 								import extraction.PositionedTextStripper;
 								import extraction.TextGrouper;
 								import lombok.extern.slf4j.Slf4j;
 								import model.DimensionResult;
 								import model.TextElement;
 								import model.TextGroup;
 								import org.apache.pdfbox.Loader;
 								import org.apache.pdfbox.pdmodel.PDDocument;
 								import java.io.ByteArrayOutputStream;
 								import java.io.File;
 								import java.io.IOException;
 								import java.io.InputStream;
 								import java.io.StringWriter;
-												feat(pdf-extract): 新增PDF尺寸区域提取功能

- 在PdfExtractionService中实现从PDF URL中提取尺寸数据
- 通过URL读取PDF字节流并加载文档进行文本位置解析
- 利用文本分组和维度识别器提取尺寸信息列表
- 在QmsInspectionStandardController添加GET接口，支持通过URL参数提取尺寸数据
- 在QmsInspectionStandardControllerService中添加对应服务方法调用pdfExtractionService接口

											
										
										
											2026-05-08 09:03:02 +08:00
+								import java.net.MalformedURLException;
-												feat(pdf-extract): 实现PDF尺寸和公差的提取识别功能

- 新增DimensionIdentifier用于识别PDF中的尺寸和多种公差格式
- 支持对称公差、非对称公差、配合公差和螺纹标注的正则匹配
- 实现基于TextGroup的文本预处理和位置判断，提高识别准确度
- 创建DimensionResult作为尺寸识别结果的封装实体
- 增加PdfExtractionService服务实现PDF解析、文本分组和尺寸提取流程
- 新增配置类PdfExtractConfig，提供文本分组和尺寸识别组件的Spring Bean
- 增加nflg-qms-pdf-extract模块及相关依赖管理，完成PDF尺寸提取的整体集成

											
										
										
											2026-05-06 15:49:28 +08:00
+								import java.net.URL;
 								import java.nio.file.Path;
 								import java.util.List;
 								import java.util.stream.Collectors;
 								@Slf4j
 								public class PdfExtractionService {
 								    private final TextGrouper textGrouper;
 								    private final DimensionIdentifier dimensionIdentifier;
 								    public PdfExtractionService(TextGrouper textGrouper,
 								                                DimensionIdentifier dimensionIdentifier) {
 								        this.textGrouper = textGrouper;
 								        this.dimensionIdentifier = dimensionIdentifier;
 								    }
 								    public ExtractionResult extractDimensions(Path pdfPath, String fileId) throws IOException {
 								        long start = System.currentTimeMillis();
 								        File file = pdfPath.toFile();
 								        try (PDDocument document = Loader.loadPDF(file)) {
 								            int totalPages = document.getNumberOfPages();
 								            PositionedTextStripper stripper = new PositionedTextStripper();
 								            stripper.setSortByPosition(true);
 								            StringWriter writer = new StringWriter();
 								            stripper.writeText(document, writer);
 								            List<TextElement> allElements = stripper.getElements();
 								            List<TextGroup> groups = textGrouper.groupTextElements(allElements);
 								            List<DimensionResult> dimensions = dimensionIdentifier.identifyDimensions(groups);
 								            long elapsed = System.currentTimeMillis() - start;
 								            log.info("Extracted {} dimensions from {} in {}ms", dimensions.size(), pdfPath.getFileName(), elapsed);
 								            return new ExtractionResult(dimensions, totalPages);
 								        }
 								    }
 								    /**
 								     * 区域提取：不限公差过滤，包含所有尺寸，不保存到数据库
 								     */
 								    public List<DimensionResult> extractAllDimensionsForRegion(String pdfUrl) throws IOException {
 								        byte[] pdfBytes;
 								        try (InputStream in = new URL(pdfUrl).openStream();
 								             ByteArrayOutputStream buffer = new ByteArrayOutputStream()) {
 								            byte[] chunk = new byte[8192];
 								            int len;
 								            while ((len = in.read(chunk)) != -1) {
 								                buffer.write(chunk, 0, len);
 								            }
 								            pdfBytes = buffer.toByteArray();
 								        }
 								        try (PDDocument document = Loader.loadPDF(pdfBytes)) {
 								            PositionedTextStripper stripper = new PositionedTextStripper();
 								            stripper.setSortByPosition(true);
 								            StringWriter writer = new StringWriter();
 								            stripper.writeText(document, writer);
 								            List<TextElement> allElements = stripper.getElements();
 								            List<TextGroup> groups = textGrouper.groupTextElements(allElements);
 								            return dimensionIdentifier.identifyDimensions(groups, false);
 								        }
 								    }
-												feat(pdf-extract): 新增PDF尺寸区域提取功能

- 在PdfExtractionService中实现从PDF URL中提取尺寸数据
- 通过URL读取PDF字节流并加载文档进行文本位置解析
- 利用文本分组和维度识别器提取尺寸信息列表
- 在QmsInspectionStandardController添加GET接口，支持通过URL参数提取尺寸数据
- 在QmsInspectionStandardControllerService中添加对应服务方法调用pdfExtractionService接口

											
										
										
											2026-05-08 09:03:02 +08:00
+								    public List<DimensionResult> extractDimensions(String pdfUrl) throws IOException {
 								        byte[] pdfBytes;
 								        try (InputStream in = new URL(pdfUrl).openStream();
 								             ByteArrayOutputStream buffer = new ByteArrayOutputStream()) {
 								            byte[] chunk = new byte[8192];
 								            int len;
 								            while ((len = in.read(chunk)) != -1) {
 								                buffer.write(chunk, 0, len);
 								            }
 								            pdfBytes = buffer.toByteArray();
 								        }
 								        try (PDDocument document = Loader.loadPDF(pdfBytes)) {
 								            int totalPages = document.getNumberOfPages();
 								            PositionedTextStripper stripper = new PositionedTextStripper();
 								            stripper.setSortByPosition(true);
 								            StringWriter writer = new StringWriter();
 								            stripper.writeText(document, writer);
 								            List<TextElement> allElements = stripper.getElements();
 								            List<TextGroup> groups = textGrouper.groupTextElements(allElements);
 								            return dimensionIdentifier.identifyDimensions(groups);
 								        }
 								    }
-												feat(pdf-extract): 实现PDF尺寸和公差的提取识别功能

- 新增DimensionIdentifier用于识别PDF中的尺寸和多种公差格式
- 支持对称公差、非对称公差、配合公差和螺纹标注的正则匹配
- 实现基于TextGroup的文本预处理和位置判断，提高识别准确度
- 创建DimensionResult作为尺寸识别结果的封装实体
- 增加PdfExtractionService服务实现PDF解析、文本分组和尺寸提取流程
- 新增配置类PdfExtractConfig，提供文本分组和尺寸识别组件的Spring Bean
- 增加nflg-qms-pdf-extract模块及相关依赖管理，完成PDF尺寸提取的整体集成

											
										
										
											2026-05-06 15:49:28 +08:00
+								    public static class ExtractionResult {
 								        private final List<DimensionResult> dimensions;
 								        private final int totalPages;
 								        public ExtractionResult(List<DimensionResult> dimensions, int totalPages) {
 								            this.dimensions = dimensions;
 								            this.totalPages = totalPages;
 								        }
 								        public List<DimensionResult> getDimensions() { return dimensions; }
 								        public int getTotalPages() { return totalPages; }
 								    }
 								}