Python读取PDF发票信息

读取方法:采用PDF转DOCX,解压DOCX使用xml读取word/document.xml文字,获取出所有文字类w:t节点nodeValue值,re过滤出发票内容。 Github 地址::https://github.com/hefaxing/fapiao_read 仔细看config.ini,修改相应信息,测试运行几次就懂了。 各个方法代码展示(请勿直接复制运行,没有主体调用,请移步Github下载完整代码): #!/usr/bin/env python3 # -*- coding: utf-8 -*- # author: CY # Date: 2021-08-19 # QQ: 77061066 # Version: 1.0.210820.1700 # # pip install pdf2docx==0.5.2 # pip install pyzbar==0.1.8 # pip install pandas==1.3.0 # pip install Pillow==8.3.1 # pip install frontend==0.0.3 # pip install openpyxl==3.0.7 # # 获 … 继续阅读“Python读取PDF发票信息”