曹鹏飞
|
6ebacd0b9b
|
docs(pdf-extraction): 编写PDF尺寸标注提取方案文档
- 详细说明项目概述及技术栈,包括Java、Spring Boot和PDFBox 3.x
- 描述直径符号Φ的识别方案,区分文字形式和矢量图形两种情况
- 介绍乱码字符映射及文本提取管线流程
- 提供正则模式匹配优先级及关键文件职责说明
- 明确启发式推断规则及已知局限,指导用户手动校正矢量Φ符号情况
- 包含乱码映射表及配合公差识别规则,提升提取精度和可维护性
|
2026-05-12 08:07:32 +08:00 |
曹鹏飞
|
f67ccb5796
|
refactor(extraction): 优化尺寸识别与文本预处理逻辑
- 使用统一Unicode字符替代多种编码符号,提升尺寸与公差识别的准确性
- 增加自动推断直径符号Φ的启发式方法,支持根据配合公差上下文自动标记
- 添加查找前导符号函数,处理分开文本元素中的工程符号与数字合并
- 引入文本序号seqNum,用于排序过滤和错误匹配排除
- 在文本合并逻辑中允许工程符号忽略字体大小差异合并文本单元
- 新增文本纠错函数,修正PDF符号字体乱码,提升解析文本质量
- 完善公差识别与尺寸字符串拼接的内部逻辑,统一±符号为Unicode编码
- 为文本元素添加seqNum属性,支持序号管理与日志打印
- 采纳文本归一化处理,做NFC标准化,修正编码混乱文本
- 杜绝无用的日志打印,保留必要信息用于调试与后续支持
|
2026-05-11 19:03:24 +08:00 |
曹鹏飞
|
9eccd96b00
|
feat(pdf-extract): 新增PDF尺寸区域提取功能
- 在PdfExtractionService中实现从PDF URL中提取尺寸数据
- 通过URL读取PDF字节流并加载文档进行文本位置解析
- 利用文本分组和维度识别器提取尺寸信息列表
- 在QmsInspectionStandardController添加GET接口,支持通过URL参数提取尺寸数据
- 在QmsInspectionStandardControllerService中添加对应服务方法调用pdfExtractionService接口
|
2026-05-08 09:03:02 +08:00 |
曹鹏飞
|
ba571b994c
|
refactor(pdf-extract): 移除旧pdfInfo字段,改用独立pdf属性存储位置信息
- 在PositionedTextStripper中添加elements字段的Getter以便外部访问
- 删除QmsInspectionStandard相关类中旧的pdfInfo字段及相关JSON序列化逻辑
- 新增QmsInspectionStandardItemContent、VO、QO类中pdfPageNum、pdfX、pdfY、pdfWidth和pdfHeight属性
- 在QmsInspectionStandardControllerService和QmsInspectionStandardItemControllerService中调整属性赋值逻辑,改用新字段替代pdfInfo
- 优化部分代码导入,移除未使用的JSONUtil和TextPosition引用
|
2026-05-06 16:51:03 +08:00 |
曹鹏飞
|
e8142d0480
|
feat(pdf-extract): 实现PDF尺寸和公差的提取识别功能
- 新增DimensionIdentifier用于识别PDF中的尺寸和多种公差格式
- 支持对称公差、非对称公差、配合公差和螺纹标注的正则匹配
- 实现基于TextGroup的文本预处理和位置判断,提高识别准确度
- 创建DimensionResult作为尺寸识别结果的封装实体
- 增加PdfExtractionService服务实现PDF解析、文本分组和尺寸提取流程
- 新增配置类PdfExtractConfig,提供文本分组和尺寸识别组件的Spring Bean
- 增加nflg-qms-pdf-extract模块及相关依赖管理,完成PDF尺寸提取的整体集成
|
2026-05-06 15:49:28 +08:00 |