编程归档 - 琳海家园

读取方法：采用PDF转DOCX，解压DOCX使用xml读取word/document.xml文字，获取出所有文字类w:t节点nodeValue值，re过滤出发票内容。 Github 地址:：https://github.com/hefaxing/fapiao_read 仔细看config.ini，修改相应信息，测试运行几次就懂了。各个方法代码展示（请勿直接复制运行，没有主体调用，请移步Github下载完整代码）： #!/usr/bin/env python3 # -*- coding: utf-8 -*- # author: CY # Date: 2021-08-19 # QQ: 77061066 # Version: 1.0.210820.1700 # # pip install pdf2docx==0.5.2 # pip install pyzbar==0.1.8 # pip install pandas==1.3.0 # pip install Pillow==8.3.1 # pip install frontend==0.0.3 # pip install openpyxl==3.0.7 # # 获 … 继续阅读“Python读取PDF发票信息”

Django框架中的URL分发采用正则表达式匹配来进行，以下是正则表达式的基本规则：符号匹配 . (dot) 任意单一字符 \d 任意一位数字 [A-Z] A 到 Z中任意一个字符（大写） [a-z] a 到 z中任意一个字符（小写） [A-Za-z] a 到 z中任意一个字符（不区分大小写） + 匹配一个或更多 (例如, \d+ 匹配一个或多个数字字符) [^/]+ 一个或多个不为‘/’的字符 * 零个或一个之前的表达式（例如：\d? 匹配零个或一个数字） * 匹配0个或更多 (例如, \d* 匹配0个或更多数字字符) {1,3} 介于一个和三个（包含）之前的表达式（例如，\d{1,3}匹配一个或两个或三个数字）元字符含义描述 * 匹配O次、1次或多次其前的原子 + 匹配1次或多次其前的原子 ? 匹配0次或1次其前的原子 . 匹配除了换行符外的任意一个字符 | 匹配两个或多个分支选择 {n} 表示其前面的原子恰好出现n次 {n,} 表示其前面的原子出现不少于n次 {n,m} 表 … 继续阅读“Django中URL正则表达式匹配”