市审计局融合智能技术破解非结构化数据分析比对难题
发布日期:2025-07-02来源:济南市审计局浏览次数:字体:[ ]

近期,市审计机关聚焦传统文本核查工作中存在的人工核验效率低、易错率高等痛点,通过融合OCR文本识别、大语言模型智能解析、Python自动化处理等技术,探索构建文本信息智能提取方法,实现海量非结构化文本数据智能比对,有效提升数据信息处理效能。

一是大模型语义分析赋能非结构化数据提取转化

在历史城区保护项目审计中,针对无法直接分析房屋征收补偿协议等非结构化数据的难题,通过OCR技术对图片型PDF协议进行文本识别,结合DeepSeek大模型语义解析能力批量提取房屋产权人、面积等关键字段,经Python自动化处理生成结构化Excel数据表。基于SQL技术建立房产信息比对模型,通过结构化数据与既有房产数据库的关联分析,精准识别房屋面积虚报、违规套取拆迁补贴等异常线索287条。

二是Python构建关键信息批量自动化核查模式

在财政预算执行审计调查中,依托PyPDF2库实现物业合同文本解析,采用正则表达式提取文件内容,通过re库模式匹配精准提取服务面积、频次强度等核心字段,运用openpyxl库自动化生成结构化Excel台账。基于该标准化数据开展多维分析,有效识别出15个部门单位存在服务条款量化缺失、履约标准模糊等问题。

三是利用AI技术实现招标文件一致性智能比对

在公共投资项目审计、经济责任审计中,首先利用OCR技术将招投标文书转化为可编辑文本,并通过去噪、图像增强等手段提升识别精度。然后进行AI模型训练与优化,调用论文查重接口,结合招标文件内容去重训练,通过贝叶斯优化等技术调参,构建定制化比对模型,快速发现不同投标人投标文件多处雷同情况,为审计人员提供风险线索,精准揭示围标串标问题6起。

来源:电子数据审计处

编辑:解宏涛

打印 关闭
Produced By 大汉网络 大汉版通发布系统