Python读取PDF发票信息

读取方法:采用PDF转DOCX,解压DOCX使用xml读取word/document.xml文字,获取出所有文字类w:t节点nodeValue值,re过滤出发票内容。 Github 地址::https://github.com/hefaxing/fapiao_read 仔细看config.ini,修改相应信息,测试运行几次就懂了。 各个方法代码展示(请勿直接复制运行,没有主体调用,请移步Github下载完整代码): #!/usr/bin/env python3 # -*- coding: utf-8 -*- # author: CY # Date: 2021-08-19 # QQ: 77061066 # Version: 1.0.210820.1700 # # pip install pdf2docx==0.5.2 # pip install pyzbar==0.1.8 # pip install pandas==1.3.0 # pip install Pillow==8.3.1 # pip install frontend==0.0.3 # pip install openpyxl==3.0.7 # # 获 … 继续阅读“Python读取PDF发票信息”

Django中URL正则表达式匹配

Django框架中的URL分发采用正则表达式匹配来进行,以下是正则表达式的基本规则: 符号 匹配 . (dot) 任意单一字符 \d 任意一位数字 [A-Z] A 到 Z中任意一个字符(大写) [a-z] a 到 z中任意一个字符(小写) [A-Za-z] a 到 z中任意一个字符(不区分大小写) + 匹配一个或更多 (例如, \d+ 匹配一个或 多个数字字符) [^/]+ 一个或多个不为‘/’的字符 * 零个或一个之前的表达式(例如:\d? 匹配零个或一个数字) * 匹配0个或更多 (例如, \d* 匹配0个 或更多数字字符) {1,3} 介于一个和三个(包含)之前的表达式(例如,\d{1,3}匹配一个或两个或三个数字) 元字符 含义描述 * 匹配O次、1次或多次其前的原子 + 匹配1次或多次其前的原子 ? 匹配0次或1次其前的原子 . 匹配除了换行符外的任意一个字符 | 匹配两个或多个分支选择 {n} 表示其前面的原子恰好出现n次 {n,} 表示其前面的原子出现不少于n次 {n,m} 表 … 继续阅读“Django中URL正则表达式匹配”