网站首页 > 技术文章 正文
vscode 是一个轻量编辑器。
正则全称叫正则表达式,应用相当广泛,可用的地方很多,这里就简单说一下工作中使用正则来提取数据。
假如有这么一些数据,需要提取里面的数字,进行处理:
正则的使用其实就是发现数据的共通之处,我们要提取的是数字,里面还包含有逗号和小数点,还有一些无用的空格和识别错误的摄氏度符号。这些是我从截图中提取的文字,很多ocr软件都可以做到,我这里使用的是微软的OneNote。
下面开始处理这些乱七八糟的数据。
我们发现我们要提取的数字,都是数字开头
\d 就是表达要匹配一个数字,+标识匹配一次以及一次以上,点是匹配任意字符,*代表匹配零次或者多次
\d+.*\d
这样就把想要的匹配出来了。将其复制出来
2 135 . 57
1 , 506 . 52
10,000.00
0 ℃ 0
2 , 180 . 70
1 , 530 ℃ 7
10 , 000 ℃ 0
0 ℃ 0
2 , 308 . 76
1 , 635 . 94
10 , 000 ℃ 0
0 ℃ 0
2 , 332 , 92
1 , 603 . 93
2 , 386 . 49
1 , 767 , 50
20,000.00
0 . 00
10,000.00
0 . 00
2 , 561.35
1 , 768 . 84
我们发现13行和16行的小数点有问题,小数点误识别成了逗号
可以用下面的正则匹配:下面的$1是一个引用,引用上面正则括号里面匹配的内容
此时,匹配到了这两条需要修复的数据,全部替换即可
下面处理特殊符号,选中ctrl+h全部替换为空即可
接着同理,处理逗号,空格,小数点,注意第六行有个摄氏度符号要将其替换为小数点
最后可以处理一下.00,反斜线代表转义符,就是匹配点本身,因为上面说过点匹配任意字符的,要想匹配本身需要添加反斜线
\.00
最后处理完成的数据
猜你喜欢
- 2024-09-10 vscode 键盘快捷键配置(vscode怎么自定义快捷键)
- 2024-09-10 七爪源码:最大化生产力的最小 VSCode 设置(第 1 部分)
- 2024-09-10 手把手教你如何利用VS Code设置提高编码效率
- 2024-09-10 没有用过这些插件,别说你在用vscode
- 2024-09-10 使用截图,一键让GPT-4o生成打砖块游戏代码
- 2024-09-10 手把手教你在VSCode下如何使用Jupyter
- 2024-09-10 开发函数计算的正确姿势——爬虫(函数式开发)
- 2024-09-10 VSCode常用快捷键(详细)(vscode快捷键整理代码)
- 2024-09-10 办公小技巧009:VSCode无法安装插件怎么办?
- 2024-09-10 提高VSCode 10倍效率的技巧(vscode 调整格式快捷键)
- 02-21走进git时代, 你该怎么玩?_gits
- 02-21GitHub是什么?它可不仅仅是云中的Git版本控制器
- 02-21Git常用操作总结_git基本用法
- 02-21为什么互联网巨头使用Git而放弃SVN?(含核心命令与原理)
- 02-21Git 高级用法,喜欢就拿去用_git基本用法
- 02-21Git常用命令和Git团队使用规范指南
- 02-21总结几个常用的Git命令的使用方法
- 02-21Git工作原理和常用指令_git原理详解
- 最近发表
- 标签列表
-
- cmd/c (57)
- c++中::是什么意思 (57)
- sqlset (59)
- ps可以打开pdf格式吗 (58)
- phprequire_once (61)
- localstorage.removeitem (74)
- routermode (59)
- vector线程安全吗 (70)
- & (66)
- java (73)
- org.redisson (64)
- log.warn (60)
- cannotinstantiatethetype (62)
- js数组插入 (83)
- resttemplateokhttp (59)
- gormwherein (64)
- linux删除一个文件夹 (65)
- mac安装java (72)
- reader.onload (61)
- outofmemoryerror是什么意思 (64)
- flask文件上传 (63)
- eacces (67)
- 查看mysql是否启动 (70)
- java是值传递还是引用传递 (58)
- 无效的列索引 (74)