wms/nflg-qms-pdf-extract/src/main/java/extraction/PositionedTextStripper.java

package extraction;

import model.TextElement;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.common.PDRectangle;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.TextPosition;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

public class PositionedTextStripper extends PDFTextStripper {

    private static final Logger log = LoggerFactory.getLogger(PositionedTextStripper.class);

    private final List<TextElement> elements = new ArrayList<>();
    private int seqCounter = 0;
    private int currentPage = 0;
    private float currentPageWidth = 0;
    private float currentPageHeight = 0;

    public PositionedTextStripper() throws IOException {
        super();
    }

//    @Override
//    protected void processTextPosition(TextPosition text) {
//        log.info("processTextPosition: {},unicode={},codes={},font={},embedded={},damaged={}"
//                , text, text.getUnicode(), text.getCharacterCodes(), text.getFont().getName(), text.getFont().isEmbedded(), text.getFont().isDamaged());
//    }

    @Override
    protected void startPage(PDPage page) throws IOException {
        currentPage++;
        PDRectangle mediaBox = page.getMediaBox();
        currentPageWidth = mediaBox.getWidth();
        currentPageHeight = mediaBox.getHeight();
        super.startPage(page);
    }

    @Override
    protected void writeString(String text, List<TextPosition> textPositions) throws IOException {
        if (textPositions == null || textPositions.isEmpty()) {
            super.writeString(text, textPositions);
            return;
        }
//        log.info("writeString: {}", text);

        // Rebuild text from individual TextPositions and apply garbled-pattern corrections.
        StringBuilder sb = new StringBuilder();
        for (TextPosition tp : textPositions) {
            String u = tp.getUnicode();
            if (u != null) {
                sb.append(u);
            }
        }
        String correctedText = correctGarbledText(sb.toString());

        // Log original vs corrected text at INFO level for diagnostics
//        log.info("writeString: raw=[{}] corrected=[{}]", text, correctedText);

        // Debug: log each TextPosition's unicode with code points AND font name
        if (log.isDebugEnabled()) {
            for (TextPosition tp : textPositions) {
                String u = tp.getUnicode();
                if (u != null && !u.isEmpty() && u.charAt(0) > 0x7F) {
                    String fn = tp.getFont() != null ? tp.getFont().getName() : "null";
                    log.debug("TextPos: unicode={} codePoints={} fontSize={} font={}",
                            u, toCodePoints(u), String.format("%.1f", tp.getFontSizeInPt()), fn);
                }
            }
        }

        TextPosition first = textPositions.get(0);
        TextPosition last = textPositions.get(textPositions.size() - 1);

        TextElement elem = new TextElement();
        elem.setText(correctedText.trim());
        elem.setPageNum(currentPage);
        elem.setX(first.getX());
        elem.setY(first.getY());
        elem.setWidth(Math.abs((last.getX() + last.getWidth()) - first.getX()));
        elem.setHeight(Math.max(1, Math.abs(first.getHeight())));
        elem.setFontSize(first.getFontSizeInPt());
        elem.setPageWidth(currentPageWidth);
        elem.setPageHeight(currentPageHeight);

        if (!elem.getText().isEmpty()) {
            elem.setSeqNum(seqCounter++);
            elements.add(elem);
        }

        super.writeString(text, textPositions);
    }

    /**
     * Correct common garbled text patterns produced by PDFBox on Windows.
     * <p>
     * When a PDF uses Symbol / engineering fonts, the glyph codes are
     * sometimes misinterpreted through the platform's default charset
     * (GBK on Chinese Windows, Latin-1 on Western Windows), producing
     * garbled character pairs or individual garbled chars.
     * <p>
     * Pair replacements are tried first; if the pair is split across
     * separate writeString() calls, individual char fallbacks apply.
     */
    private String correctGarbledText(String text) {
        if (text == null || text.isEmpty()) return text;

        String result = text
                // ---- Pair replacements (both chars in same writeString call) ----
                .replace("\u00a1\u00a4", "\u03a6")   // ¡¤ -> Φ (diameter)
                .replace("\u00a1\u00e3", "\u00b0")   // ¡ã -> ° (degree)
                .replace("\u00a1\u00c0", "\u00b1")   // ¡À -> ± (plus-minus)
                .replace("\u00a6\u00b5", "\u03a6")   // ¦µ -> Φ (variant)
                .replace("\u00a1\u00c1", "\u00b1")   // ¡Á -> ± (variant)
                .replace("\uffc3n\uffc3", "\u03a6")   // Mac garbled Φ
                .replace("\uffc3$\uffc3", "\u03a6")   // Mac garbled Φ
                .replace("\ufffdn\ufffd", "\u00d8")   // Mac garbled Ø
                // ---- Fallback: individual char replacements ----
                // When ¡¤ is split across separate writeString() calls,
                // each char appears alone.  Standalone ¡ -> Φ, ¤ -> removed.
                .replace("\u00a1", "\u03a6")     // ¡ -> Φ
                .replace("\u00a4", "")           // ¤ -> removed
                // ---- Remove Unicode REPLACEMENT CHARACTER ----
                .replace("\ufffd", "");

        // Diagnostic log at INFO level when a correction was made
        if (!result.equals(text)) {
            log.info("correctGarbledText: [{}] -> [{}]", toCodePoints(text), toCodePoints(result));
        }

        return result;
    }

    private static String toCodePoints(String s) {
        if (s == null) return "null";
        StringBuilder sb = new StringBuilder("[");
        for (int i = 0; i < s.codePointCount(0, s.length()); i++) {
            if (i > 0) sb.append(" ");
            sb.append(String.format("U+%04X", s.codePointAt(s.offsetByCodePoints(0, i))));
        }
        sb.append("]");
        return sb.toString();
    }

    public List<TextElement> getElements() {
        return elements;
    }
}
feat(pdf-extract): 实现PDF尺寸和公差的提取识别功能 - 新增DimensionIdentifier用于识别PDF中的尺寸和多种公差格式 - 支持对称公差、非对称公差、配合公差和螺纹标注的正则匹配 - 实现基于TextGroup的文本预处理和位置判断，提高识别准确度 - 创建DimensionResult作为尺寸识别结果的封装实体 - 增加PdfExtractionService服务实现PDF解析、文本分组和尺寸提取流程 - 新增配置类PdfExtractConfig，提供文本分组和尺寸识别组件的Spring Bean - 增加nflg-qms-pdf-extract模块及相关依赖管理，完成PDF尺寸提取的整体集成 2026-05-06 15:49:28 +08:00			`package extraction;`

			`import model.TextElement;`
			`import org.apache.pdfbox.pdmodel.PDPage;`
			`import org.apache.pdfbox.pdmodel.common.PDRectangle;`
			`import org.apache.pdfbox.text.PDFTextStripper;`
			`import org.apache.pdfbox.text.TextPosition;`
refactor(extraction): 优化尺寸识别与文本预处理逻辑 - 使用统一Unicode字符替代多种编码符号，提升尺寸与公差识别的准确性 - 增加自动推断直径符号Φ的启发式方法，支持根据配合公差上下文自动标记 - 添加查找前导符号函数，处理分开文本元素中的工程符号与数字合并 - 引入文本序号seqNum，用于排序过滤和错误匹配排除 - 在文本合并逻辑中允许工程符号忽略字体大小差异合并文本单元 - 新增文本纠错函数，修正PDF符号字体乱码，提升解析文本质量 - 完善公差识别与尺寸字符串拼接的内部逻辑，统一±符号为Unicode编码 - 为文本元素添加seqNum属性，支持序号管理与日志打印 - 采纳文本归一化处理，做NFC标准化，修正编码混乱文本 - 杜绝无用的日志打印，保留必要信息用于调试与后续支持 2026-05-11 19:03:24 +08:00			`import org.slf4j.Logger;`
			`import org.slf4j.LoggerFactory;`
feat(pdf-extract): 实现PDF尺寸和公差的提取识别功能 - 新增DimensionIdentifier用于识别PDF中的尺寸和多种公差格式 - 支持对称公差、非对称公差、配合公差和螺纹标注的正则匹配 - 实现基于TextGroup的文本预处理和位置判断，提高识别准确度 - 创建DimensionResult作为尺寸识别结果的封装实体 - 增加PdfExtractionService服务实现PDF解析、文本分组和尺寸提取流程 - 新增配置类PdfExtractConfig，提供文本分组和尺寸识别组件的Spring Bean - 增加nflg-qms-pdf-extract模块及相关依赖管理，完成PDF尺寸提取的整体集成 2026-05-06 15:49:28 +08:00
			`import java.io.IOException;`
			`import java.util.ArrayList;`
			`import java.util.List;`

			`public class PositionedTextStripper extends PDFTextStripper {`
refactor(extraction): 优化尺寸识别与文本预处理逻辑 - 使用统一Unicode字符替代多种编码符号，提升尺寸与公差识别的准确性 - 增加自动推断直径符号Φ的启发式方法，支持根据配合公差上下文自动标记 - 添加查找前导符号函数，处理分开文本元素中的工程符号与数字合并 - 引入文本序号seqNum，用于排序过滤和错误匹配排除 - 在文本合并逻辑中允许工程符号忽略字体大小差异合并文本单元 - 新增文本纠错函数，修正PDF符号字体乱码，提升解析文本质量 - 完善公差识别与尺寸字符串拼接的内部逻辑，统一±符号为Unicode编码 - 为文本元素添加seqNum属性，支持序号管理与日志打印 - 采纳文本归一化处理，做NFC标准化，修正编码混乱文本 - 杜绝无用的日志打印，保留必要信息用于调试与后续支持 2026-05-11 19:03:24 +08:00
			`private static final Logger log = LoggerFactory.getLogger(PositionedTextStripper.class);`

feat(pdf-extract): 实现PDF尺寸和公差的提取识别功能 - 新增DimensionIdentifier用于识别PDF中的尺寸和多种公差格式 - 支持对称公差、非对称公差、配合公差和螺纹标注的正则匹配 - 实现基于TextGroup的文本预处理和位置判断，提高识别准确度 - 创建DimensionResult作为尺寸识别结果的封装实体 - 增加PdfExtractionService服务实现PDF解析、文本分组和尺寸提取流程 - 新增配置类PdfExtractConfig，提供文本分组和尺寸识别组件的Spring Bean - 增加nflg-qms-pdf-extract模块及相关依赖管理，完成PDF尺寸提取的整体集成 2026-05-06 15:49:28 +08:00			`private final List<TextElement> elements = new ArrayList<>();`
refactor(extraction): 优化尺寸识别与文本预处理逻辑 - 使用统一Unicode字符替代多种编码符号，提升尺寸与公差识别的准确性 - 增加自动推断直径符号Φ的启发式方法，支持根据配合公差上下文自动标记 - 添加查找前导符号函数，处理分开文本元素中的工程符号与数字合并 - 引入文本序号seqNum，用于排序过滤和错误匹配排除 - 在文本合并逻辑中允许工程符号忽略字体大小差异合并文本单元 - 新增文本纠错函数，修正PDF符号字体乱码，提升解析文本质量 - 完善公差识别与尺寸字符串拼接的内部逻辑，统一±符号为Unicode编码 - 为文本元素添加seqNum属性，支持序号管理与日志打印 - 采纳文本归一化处理，做NFC标准化，修正编码混乱文本 - 杜绝无用的日志打印，保留必要信息用于调试与后续支持 2026-05-11 19:03:24 +08:00			`private int seqCounter = 0;`
feat(pdf-extract): 实现PDF尺寸和公差的提取识别功能 - 新增DimensionIdentifier用于识别PDF中的尺寸和多种公差格式 - 支持对称公差、非对称公差、配合公差和螺纹标注的正则匹配 - 实现基于TextGroup的文本预处理和位置判断，提高识别准确度 - 创建DimensionResult作为尺寸识别结果的封装实体 - 增加PdfExtractionService服务实现PDF解析、文本分组和尺寸提取流程 - 新增配置类PdfExtractConfig，提供文本分组和尺寸识别组件的Spring Bean - 增加nflg-qms-pdf-extract模块及相关依赖管理，完成PDF尺寸提取的整体集成 2026-05-06 15:49:28 +08:00			`private int currentPage = 0;`
			`private float currentPageWidth = 0;`
			`private float currentPageHeight = 0;`

refactor(extraction): 优化尺寸识别与文本预处理逻辑 - 使用统一Unicode字符替代多种编码符号，提升尺寸与公差识别的准确性 - 增加自动推断直径符号Φ的启发式方法，支持根据配合公差上下文自动标记 - 添加查找前导符号函数，处理分开文本元素中的工程符号与数字合并 - 引入文本序号seqNum，用于排序过滤和错误匹配排除 - 在文本合并逻辑中允许工程符号忽略字体大小差异合并文本单元 - 新增文本纠错函数，修正PDF符号字体乱码，提升解析文本质量 - 完善公差识别与尺寸字符串拼接的内部逻辑，统一±符号为Unicode编码 - 为文本元素添加seqNum属性，支持序号管理与日志打印 - 采纳文本归一化处理，做NFC标准化，修正编码混乱文本 - 杜绝无用的日志打印，保留必要信息用于调试与后续支持 2026-05-11 19:03:24 +08:00			`public PositionedTextStripper() throws IOException {`
			`super();`
			`}`

			`// @Override`
			`// protected void processTextPosition(TextPosition text) {`
			`// log.info("processTextPosition: {},unicode={},codes={},font={},embedded={},damaged={}"`
			`// , text, text.getUnicode(), text.getCharacterCodes(), text.getFont().getName(), text.getFont().isEmbedded(), text.getFont().isDamaged());`
			`// }`

feat(pdf-extract): 实现PDF尺寸和公差的提取识别功能 - 新增DimensionIdentifier用于识别PDF中的尺寸和多种公差格式 - 支持对称公差、非对称公差、配合公差和螺纹标注的正则匹配 - 实现基于TextGroup的文本预处理和位置判断，提高识别准确度 - 创建DimensionResult作为尺寸识别结果的封装实体 - 增加PdfExtractionService服务实现PDF解析、文本分组和尺寸提取流程 - 新增配置类PdfExtractConfig，提供文本分组和尺寸识别组件的Spring Bean - 增加nflg-qms-pdf-extract模块及相关依赖管理，完成PDF尺寸提取的整体集成 2026-05-06 15:49:28 +08:00			`@Override`
			`protected void startPage(PDPage page) throws IOException {`
			`currentPage++;`
			`PDRectangle mediaBox = page.getMediaBox();`
			`currentPageWidth = mediaBox.getWidth();`
			`currentPageHeight = mediaBox.getHeight();`
			`super.startPage(page);`
			`}`

			`@Override`
			`protected void writeString(String text, List<TextPosition> textPositions) throws IOException {`
			`if (textPositions == null \|\| textPositions.isEmpty()) {`
			`super.writeString(text, textPositions);`
			`return;`
			`}`
refactor(extraction): 优化尺寸识别与文本预处理逻辑 - 使用统一Unicode字符替代多种编码符号，提升尺寸与公差识别的准确性 - 增加自动推断直径符号Φ的启发式方法，支持根据配合公差上下文自动标记 - 添加查找前导符号函数，处理分开文本元素中的工程符号与数字合并 - 引入文本序号seqNum，用于排序过滤和错误匹配排除 - 在文本合并逻辑中允许工程符号忽略字体大小差异合并文本单元 - 新增文本纠错函数，修正PDF符号字体乱码，提升解析文本质量 - 完善公差识别与尺寸字符串拼接的内部逻辑，统一±符号为Unicode编码 - 为文本元素添加seqNum属性，支持序号管理与日志打印 - 采纳文本归一化处理，做NFC标准化，修正编码混乱文本 - 杜绝无用的日志打印，保留必要信息用于调试与后续支持 2026-05-11 19:03:24 +08:00			`// log.info("writeString: {}", text);`

			`// Rebuild text from individual TextPositions and apply garbled-pattern corrections.`
			`StringBuilder sb = new StringBuilder();`
			`for (TextPosition tp : textPositions) {`
			`String u = tp.getUnicode();`
			`if (u != null) {`
			`sb.append(u);`
			`}`
			`}`
			`String correctedText = correctGarbledText(sb.toString());`

			`// Log original vs corrected text at INFO level for diagnostics`
			`// log.info("writeString: raw=[{}] corrected=[{}]", text, correctedText);`

			`// Debug: log each TextPosition's unicode with code points AND font name`
			`if (log.isDebugEnabled()) {`
			`for (TextPosition tp : textPositions) {`
			`String u = tp.getUnicode();`
			`if (u != null && !u.isEmpty() && u.charAt(0) > 0x7F) {`
			`String fn = tp.getFont() != null ? tp.getFont().getName() : "null";`
			`log.debug("TextPos: unicode={} codePoints={} fontSize={} font={}",`
			`u, toCodePoints(u), String.format("%.1f", tp.getFontSizeInPt()), fn);`
			`}`
			`}`
			`}`
feat(pdf-extract): 实现PDF尺寸和公差的提取识别功能 - 新增DimensionIdentifier用于识别PDF中的尺寸和多种公差格式 - 支持对称公差、非对称公差、配合公差和螺纹标注的正则匹配 - 实现基于TextGroup的文本预处理和位置判断，提高识别准确度 - 创建DimensionResult作为尺寸识别结果的封装实体 - 增加PdfExtractionService服务实现PDF解析、文本分组和尺寸提取流程 - 新增配置类PdfExtractConfig，提供文本分组和尺寸识别组件的Spring Bean - 增加nflg-qms-pdf-extract模块及相关依赖管理，完成PDF尺寸提取的整体集成 2026-05-06 15:49:28 +08:00
			`TextPosition first = textPositions.get(0);`
			`TextPosition last = textPositions.get(textPositions.size() - 1);`

			`TextElement elem = new TextElement();`
refactor(extraction): 优化尺寸识别与文本预处理逻辑 - 使用统一Unicode字符替代多种编码符号，提升尺寸与公差识别的准确性 - 增加自动推断直径符号Φ的启发式方法，支持根据配合公差上下文自动标记 - 添加查找前导符号函数，处理分开文本元素中的工程符号与数字合并 - 引入文本序号seqNum，用于排序过滤和错误匹配排除 - 在文本合并逻辑中允许工程符号忽略字体大小差异合并文本单元 - 新增文本纠错函数，修正PDF符号字体乱码，提升解析文本质量 - 完善公差识别与尺寸字符串拼接的内部逻辑，统一±符号为Unicode编码 - 为文本元素添加seqNum属性，支持序号管理与日志打印 - 采纳文本归一化处理，做NFC标准化，修正编码混乱文本 - 杜绝无用的日志打印，保留必要信息用于调试与后续支持 2026-05-11 19:03:24 +08:00			`elem.setText(correctedText.trim());`
feat(pdf-extract): 实现PDF尺寸和公差的提取识别功能 - 新增DimensionIdentifier用于识别PDF中的尺寸和多种公差格式 - 支持对称公差、非对称公差、配合公差和螺纹标注的正则匹配 - 实现基于TextGroup的文本预处理和位置判断，提高识别准确度 - 创建DimensionResult作为尺寸识别结果的封装实体 - 增加PdfExtractionService服务实现PDF解析、文本分组和尺寸提取流程 - 新增配置类PdfExtractConfig，提供文本分组和尺寸识别组件的Spring Bean - 增加nflg-qms-pdf-extract模块及相关依赖管理，完成PDF尺寸提取的整体集成 2026-05-06 15:49:28 +08:00			`elem.setPageNum(currentPage);`
			`elem.setX(first.getX());`
			`elem.setY(first.getY());`
			`elem.setWidth(Math.abs((last.getX() + last.getWidth()) - first.getX()));`
			`elem.setHeight(Math.max(1, Math.abs(first.getHeight())));`
			`elem.setFontSize(first.getFontSizeInPt());`
			`elem.setPageWidth(currentPageWidth);`
			`elem.setPageHeight(currentPageHeight);`

			`if (!elem.getText().isEmpty()) {`
refactor(extraction): 优化尺寸识别与文本预处理逻辑 - 使用统一Unicode字符替代多种编码符号，提升尺寸与公差识别的准确性 - 增加自动推断直径符号Φ的启发式方法，支持根据配合公差上下文自动标记 - 添加查找前导符号函数，处理分开文本元素中的工程符号与数字合并 - 引入文本序号seqNum，用于排序过滤和错误匹配排除 - 在文本合并逻辑中允许工程符号忽略字体大小差异合并文本单元 - 新增文本纠错函数，修正PDF符号字体乱码，提升解析文本质量 - 完善公差识别与尺寸字符串拼接的内部逻辑，统一±符号为Unicode编码 - 为文本元素添加seqNum属性，支持序号管理与日志打印 - 采纳文本归一化处理，做NFC标准化，修正编码混乱文本 - 杜绝无用的日志打印，保留必要信息用于调试与后续支持 2026-05-11 19:03:24 +08:00			`elem.setSeqNum(seqCounter++);`
feat(pdf-extract): 实现PDF尺寸和公差的提取识别功能 - 新增DimensionIdentifier用于识别PDF中的尺寸和多种公差格式 - 支持对称公差、非对称公差、配合公差和螺纹标注的正则匹配 - 实现基于TextGroup的文本预处理和位置判断，提高识别准确度 - 创建DimensionResult作为尺寸识别结果的封装实体 - 增加PdfExtractionService服务实现PDF解析、文本分组和尺寸提取流程 - 新增配置类PdfExtractConfig，提供文本分组和尺寸识别组件的Spring Bean - 增加nflg-qms-pdf-extract模块及相关依赖管理，完成PDF尺寸提取的整体集成 2026-05-06 15:49:28 +08:00			`elements.add(elem);`
			`}`

			`super.writeString(text, textPositions);`
			`}`

refactor(extraction): 优化尺寸识别与文本预处理逻辑 - 使用统一Unicode字符替代多种编码符号，提升尺寸与公差识别的准确性 - 增加自动推断直径符号Φ的启发式方法，支持根据配合公差上下文自动标记 - 添加查找前导符号函数，处理分开文本元素中的工程符号与数字合并 - 引入文本序号seqNum，用于排序过滤和错误匹配排除 - 在文本合并逻辑中允许工程符号忽略字体大小差异合并文本单元 - 新增文本纠错函数，修正PDF符号字体乱码，提升解析文本质量 - 完善公差识别与尺寸字符串拼接的内部逻辑，统一±符号为Unicode编码 - 为文本元素添加seqNum属性，支持序号管理与日志打印 - 采纳文本归一化处理，做NFC标准化，修正编码混乱文本 - 杜绝无用的日志打印，保留必要信息用于调试与后续支持 2026-05-11 19:03:24 +08:00			`/**`
			`* Correct common garbled text patterns produced by PDFBox on Windows.`
			`* <p>`
			`* When a PDF uses Symbol / engineering fonts, the glyph codes are`
			`* sometimes misinterpreted through the platform's default charset`
			`* (GBK on Chinese Windows, Latin-1 on Western Windows), producing`
			`* garbled character pairs or individual garbled chars.`
			`* <p>`
			`* Pair replacements are tried first; if the pair is split across`
			`* separate writeString() calls, individual char fallbacks apply.`
			`*/`
			`private String correctGarbledText(String text) {`
			`if (text == null \|\| text.isEmpty()) return text;`

			`String result = text`
			`// ---- Pair replacements (both chars in same writeString call) ----`
			`.replace("\u00a1\u00a4", "\u03a6") // ¡¤ -> Φ (diameter)`
			`.replace("\u00a1\u00e3", "\u00b0") // ¡ã -> ° (degree)`
			`.replace("\u00a1\u00c0", "\u00b1") // ¡À -> ± (plus-minus)`
			`.replace("\u00a6\u00b5", "\u03a6") // ¦µ -> Φ (variant)`
			`.replace("\u00a1\u00c1", "\u00b1") // ¡Á -> ± (variant)`
			`.replace("\uffc3n\uffc3", "\u03a6") // Mac garbled Φ`
			`.replace("\uffc3$\uffc3", "\u03a6") // Mac garbled Φ`
			`.replace("\ufffdn\ufffd", "\u00d8") // Mac garbled Ø`
			`// ---- Fallback: individual char replacements ----`
			`// When ¡¤ is split across separate writeString() calls,`
			`// each char appears alone. Standalone ¡ -> Φ, ¤ -> removed.`
			`.replace("\u00a1", "\u03a6") // ¡ -> Φ`
			`.replace("\u00a4", "") // ¤ -> removed`
			`// ---- Remove Unicode REPLACEMENT CHARACTER ----`
			`.replace("\ufffd", "");`

			`// Diagnostic log at INFO level when a correction was made`
			`if (!result.equals(text)) {`
			`log.info("correctGarbledText: [{}] -> [{}]", toCodePoints(text), toCodePoints(result));`
			`}`

			`return result;`
			`}`

			`private static String toCodePoints(String s) {`
			`if (s == null) return "null";`
			`StringBuilder sb = new StringBuilder("[");`
			`for (int i = 0; i < s.codePointCount(0, s.length()); i++) {`
			`if (i > 0) sb.append(" ");`
			`sb.append(String.format("U+%04X", s.codePointAt(s.offsetByCodePoints(0, i))));`
			`}`
			`sb.append("]");`
			`return sb.toString();`
			`}`

			`public List<TextElement> getElements() {`
			`return elements;`
			`}`
feat(pdf-extract): 实现PDF尺寸和公差的提取识别功能 - 新增DimensionIdentifier用于识别PDF中的尺寸和多种公差格式 - 支持对称公差、非对称公差、配合公差和螺纹标注的正则匹配 - 实现基于TextGroup的文本预处理和位置判断，提高识别准确度 - 创建DimensionResult作为尺寸识别结果的封装实体 - 增加PdfExtractionService服务实现PDF解析、文本分组和尺寸提取流程 - 新增配置类PdfExtractConfig，提供文本分组和尺寸识别组件的Spring Bean - 增加nflg-qms-pdf-extract模块及相关依赖管理，完成PDF尺寸提取的整体集成 2026-05-06 15:49:28 +08:00			`}`