>

re模块和正则表明式,python正则学习

- 编辑:正版管家婆马报彩图 -

re模块和正则表明式,python正则学习

python正则学习,python学习

re模块

python group()

正则表明式中,group()用来提议分组截获的字符串,()用来分组

import re
a = "123abc456"
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0)   #123abc456,返回整体
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(1)   #123
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(2)   #abc
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(3)   #456

究其因

  1. 正则表明式中的三组括号把相称结果分成三组
  •  group() 同group(0)就是协作正则表达式全体结果
  •  group(1) 列出第一个括号相配部分,group(2) 列出第一个括号相称部分,group(3) 列出第八个括号相配部分。
  1. 从不相称成功的,re.search()再次回到None

  2. 本来正则表达式中从不括号,group(1)料定不对了。

正文备注:第三次发博,copy仅供自学用。

原作链接:

讲正题以前大家先来看三个例证:

正则表明式截取UEvoqueL文件名及后缀名

例:/upload/activity/xueba/20161025/091909_ce15d6bf-1089-4002-9ff6-016e13e420e5.gif
1,获取图片名称
正则表达式:[^/\]+$
相称结果:091906_ce15d6bf-1089-4002-9ff6-016e13e420e5.gif
2,获取后缀
正则表明式:[^.]w*$
同盟结果:gif

pic_type = re.search(r'[^.]w*$', pic_url).group(0)

 



 

python group() 正则表明式中,group()用来建议分组截获的字符串 ,()用来分组 import rea = " 123abc456 " print re.sear...

那是京东的注册页面,张开页面大家就看看这么些供给输入个人新闻的提醒。
一经大家随意的在手提式有线电电话机号码这一栏输入二个11111111111,它会提示咱们格式有误。
以此职能是怎么落到实处的啊?
即使未来您用python写一段代码,类似:

phone_number = input('please input your phone number : ')

您怎么决断那个phone_number是官方的吧?

根据手机号码一共11位并且是只以13、14、15、18开头的数字这些特点,我们用python写了如下代码: 

图片 1图片 2

while True:
    phone_number = input('please input your phone number : ')
    if len(phone_number) == 11 
            and phone_number.isdigit()
            and (phone_number.startswith('13') 
            or phone_number.startswith('14') 
            or phone_number.startswith('15') 
            or phone_number.startswith('18')):
        print('是合法的手机号码')
    else:
        print('不是合法的手机号码')

推断手提式有线话机号码是或不是合法1

这是你的写法,现在我要展示一下我的写法:

图片 3图片 4

import re
phone_number = input('please input your phone number : ')
if re.match('^(13|14|15|18)[0-9]{9}$',phone_number):
        print('是合法的手机号码')
else:
        print('不是合法的手机号码')

认清手提式有线电话机号码是或不是合法2

绝对来说下面的三种写法,此时此刻,小编要问您你欣赏哪一种格局呀?你势必照旧会说第一种,为什么吗?因为第一种不用学呀!
可是只要今天有多个文本,笔者让您从任何文件里相配出全体的手提式有线电电话机号码。你用python给自家写个试试?
不过学了后天的才干之后,分分钟帮您化解!

后天我们要读书python里的re模块和正则表明式,学会了那么些就可以帮我们化解刚刚的疑团。正则表明式不唯有在python领域,在任何编制程序届都挤占十分重要的地位。

图片 5图片 6

不管以后你是不是去做python开发,只要你是一个程序员就应该了解正则表达式的基本使用。如果未来你要在爬虫领域发展,你就更应该好好学习这方面的知识。
但是你要知道,re模块本质上和正则表达式没有一毛钱的关系。re模块和正则表达式的关系 类似于 time模块和时间的关系
你没有学习python之前,也不知道有一个time模块,但是你已经认识时间了 12:30就表示中午十二点半(这个时间可好,一般这会儿就该下课了)。
时间有自己的格式,年月日时分秒,12个月,365天......已经成为了一种规则。你也早就牢记于心了。time模块只不过是python提供给我们的可以方便我们操作时间的一个工具而已

正则表明式和re模块

正则表明式

一说法则本人已经清楚您很晕了,未来就让大家先来看有的实际的使用。在线测验工具 

首先你要知道的是,谈到正则,就只和字符串相关了。在我给你提供的工具中,你输入的每一个字都是一个字符串。
其次,如果在一个位置的一个值,不会出现什么变化,那么是不需要规则的。
  比如你要用"1"去匹配"1",或者用"2"去匹配"2",直接就可以匹配上。这连python的字符串操作都可以轻松做到。
那么在之后我们更多要考虑的是在同一个位置上可以出现的字符的范围。

字符组 : [字符组]
在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示
字符分为很多类,比如数字、字母、标点等等。
假如你现在要求一个位置"只能出现一个数字",那么这个位置上的字符只能是0、1、2...9这10个数之一。
正则
待匹配字符
匹配
结果
说明
[0123456789]
8
True
在一个字符组里枚举合法的所有字符,字符组里的任意一个字符
和"待匹配字符"相同都视为可以匹配
[0123456789]
a
False
由于字符组中没有"a"字符,所以不能匹配
 
[0-9]
 
7
True
也可以用-表示范围,[0-9]就和[0123456789]是一个意思
 
[a-z]
 
s
 
True
 
同样的如果要匹配所有的小写字母,直接用[a-z]就可以表示
 
[A-Z]
 
B
 
True
 
[A-Z]就表示所有的大写字母
 
[0-9][a-f][A-F]
 
e
 
True
 
可以匹配数字,大小写形式的a~f,用来验证十六进制字符
 

字符:

 
元字符
 
匹配内容
匹配除换行符以外的任意字符
w 匹配字母或数字或下划线
s 匹配任意的空白符
d 匹配数字
n 匹配一个换行符
t 匹配一个制表符
b 匹配一个单词的结尾
^ 匹配字符串的开始
$ 匹配字符串的结尾
W
匹配非字母或数字或下划线
D
匹配非数字
S
匹配非空白符
a|b
匹配字符a或字符b
()
匹配括号内的表达式,也表示一个组
[...]
匹配字符组中的字符
[^...]
匹配除了字符组中字符的所有字符

 

量词:

量词
用法说明
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

 

. ^ $

正则 待匹配字符 匹配
结果
说明
海. 海燕海娇海东 海燕海娇海东   匹配所有"海."的字符
^海. 海燕海娇海东 海燕 只从开头匹配"海."
  海.$   海燕海娇海东 海东 只匹配结尾的"海.$"

 

* + ? { }

正则 待匹配字符 匹配
结果
说明
李.? 李杰和李莲英和李二棍子

李杰
李莲
李二

 
?表示重复零次或一次,即只匹配"李"后面一个任意字符
 
李.* 李杰和李莲英和李二棍子 李杰和李莲英和李二棍子
*表示重复零次或多次,即匹配"李"后面0或多个任意字符
李.+ 李杰和李莲英和李二棍子 李杰和李莲英和李二棍子
+表示重复一次或多次,即只匹配"李"后面1个或多个任意字符
李.{1,2} 李杰和李莲英和李二棍子

李杰和
李莲英
李二棍

{1,2}匹配1到2次任意字符

 注意:前面的*,+,?等都以名缰利锁相配,也等于尽也许相配,后边加?号使其变为惰性相配

正则 待匹配字符 匹配
结果
说明
李.*? 李杰和李莲英和李二棍子

惰性匹配

 

字符集[][^]

正则 待匹配字符 匹配
结果
说明
李[杰莲英二棍子]* 李杰和李莲英和李二棍子

李杰
李莲英
李二棍子

 
表示匹配"李"字后面[杰莲英二棍子]的字符任意次
 
李[^和]* 李杰和李莲英和李二棍子

李杰
李莲英
李二棍子

表示匹配一个不是"和"的字符任意次
[d] 456bdha3

4
5
6
3

表示匹配任意一个数字,匹配到4个结果
[d]+ 456bdha3

456
3

表示匹配任意个数字,匹配到2个结果

 

分组 ()与 或 |[^]

 身份ID编号是一个长度为15或贰十一个字符的字符串,如若是14位则全体️数字构成,第2位不可能为0;假诺是十八位,则前二十一人一体是数字,倒数一位也许是数字或x,上边大家尝试用正则来代表:

正则 待匹配字符 匹配
结果
说明
^[1-9]d{13,16}[0-9x]$ 110101198001017032

110101198001017032

   表示可以匹配一个正确的身份证号
^[1-9]d{13,16}[0-9x]$ 1101011980010170

1101011980010170

表示也可以匹配这串数字,但这并不是一个正确的身份证号码,它是一个16位的数字
^[1-9]d{14}(d{2}[0-9x])?$ 1101011980010170

False

现在不会匹配错误的身份证号了
()表示分组,将d{2}[0-9x]分成一组,就可以整体约束他们出现的次数为0-1次
^([1-9]d{16}[0-9x]|[1-9]d{14})$ 110105199812067023

110105199812067023

表示先匹配[1-9]d{16}[0-9x]如果没有匹配上就匹配[1-9]d{14}

 

转义符

在正则表明式中,有一数不完有特有含义的是元字符,比方d和s等,假使要在正则中相配平常的"d"并非"数字"就要求对""举行转义,形成'\'。

在python中,无论是正则表达式,照旧待相称的剧情,都是以字符串的款式出现的,在字符串中也可以有例外的含义,本人还亟需转义。所以只要同盟一回"d",字符串中要写成'\d',那么正则里将在写成"\\d",那样就太费事了。那一年我们就用到了r'd'这些概念,此时的正则是r'\d'就足以了。

正则 待匹配字符 匹配
结果
说明
d d  False
因为在正则表达式中是有特殊意义的字符,所以要匹配d本身,用表达式d无法匹配
\d d  True
转义之后变成\,即可匹配
"\\d" '\d'  True
如果在python中,字符串中的''也需要转义,所以每一个字符串''又需要转义一次
r'\d' r'd'  True
在字符串之前加r,让整个字符串不转义

 

眼馋肚饱相称

贪婪相称:在满意相称时,相称尽恐怕长的字符串,暗中同意情况下,选拔贪婪相配

正则 待匹配字符 匹配
结果
说明
<.*>

<script>...<script>

<script>...<script>
默认为贪婪匹配模式,会匹配尽量长的字符串
<.*?> r'd'  

<script>
<script>

加上?为将贪婪匹配模式转为非贪婪匹配模式,会匹配尽量短的字符串

多少个常用的非贪婪相配Pattern

*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复

.*?的用法

图片 7

. 是任意字符
* 是取 0 至 无限长度
? 是非贪婪模式。
何在一起就是 取尽量少的任意字符,一般不会这么单独写,他大多用在:
.*?x

就是取前面任意长度的字符,直到一个x出现

图片 8

re模块下的常用方法

 

图片 9

import re

ret = re.findall('a', 'eva egon yuan')  # 返回所有满足匹配条件的结果,放在列表里
print(ret) #结果 : ['a', 'a']

ret = re.search('a', 'eva egon yuan').group()
print(ret) #结果 : 'a'
# 函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以
# 通过调用group()方法得到匹配的字符串,如果字符串没有匹配,则返回None。

ret = re.match('a', 'abc').group()  # 同search,不过尽在字符串开始处进行匹配
print(ret)
#结果 : 'a'

ret = re.split('[ab]', 'abcd')  # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
print(ret)  # ['', '', 'cd']

ret = re.sub('d', 'H', 'eva3egon4yuan4', 1)#将数字替换成'H',参数1表示只替换1个
print(ret) #evaHegon4yuan4

ret = re.subn('d', 'H', 'eva3egon4yuan4')#将数字替换成'H',返回元组(替换的结果,替换了多少次)
print(ret)

obj = re.compile('d{3}')  #将正则表达式编译成为一个 正则表达式对象,规则要匹配的是3个数字
ret = obj.search('abc123eeee') #正则表达式对象调用search,参数为待匹配的字符串
print(ret.group())  #结果 : 123

import re
ret = re.finditer('d', 'ds3sy4784a')   #finditer返回一个存放匹配结果的迭代器
print(ret)  # <callable_iterator object at 0x10195f940>
print(next(ret).group())  #查看第一个结果
print(next(ret).group())  #查看第二个结果
print([i.group() for i in ret])  #查看剩余的左右结果

图片 10

 

【python】正则表明式-group和group的界别

正则表明式中,group()用来建议分组截获的字符串,()用来分组

1
2
3
4
5
6
7
8
 
import re
= "123abc456"
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group()   #123abc456
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0)  #123abc456
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(1)  #123
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(2)  #abc
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(3)  #456
print re.search("([0-9]*)([a-z]*)([0-9]*)",a).groups()  #('123', 'abc', '456')

  下面正则表达式中的三组括号把相称结果分成三组

  •  group() 同group(0)就是合作正则表明式全体结果
  •  group(1) 列出第贰个括号相称部分,group(2) 列出第2个括号相配部分,group(3) 列出第七个括号相称部分。
  • groups()是把装有相称出来的分组参日元组中
 1
2
3
4
5
 
import re
= "123abc456"
print re.search("[0-9]*[a-z]*[0-9]*",a).group()   #123abc456
print re.search("[0-9]*[a-z]*[0-9]*",a).group(0)  #123abc456
print re.search("[0-9]*[a-z]*[0-9]*",a).groups()  #()

 当然正则表明式中并未有括号分组,group(1)和groups料定不对了。

 

注意:

1 findall的早期级查询:

图片 11

import re

ret = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com')
print(ret)  # ['oldboy']     这是因为findall会优先把匹配结果组里内容返回,如果想要匹配结果,取消权限即可

ret = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com')
print(ret)  # ['www.oldboy.com']

图片 12

 

2 split的事先级查询

图片 13

ret=re.split("d+","eva3egon4yuan")
print(ret) #结果 : ['eva', 'egon', 'yuan']

ret=re.split("(d+)","eva3egon4yuan")
print(ret) #结果 : ['eva', '3', 'egon', '4', 'yuan']

#在匹配部分加上()之后所切出的结果是不同的,
#没有()的没有保留所匹配的项,但是有()的却能够保留了匹配的项,
#这个在某些需要保留匹配部分的使用过程是非常重要的。

图片 14

 

练习

1、相称标签

图片 15图片 16

import re


ret = re.search("<(?P<tag_name>w+)>w+</(?P=tag_name)>","<h1>hello</h1>")
#还可以在分组中利用?<name>的形式给分组起名字
#获取的匹配结果可以直接用group('名字')拿到对应的值
print(ret.group('tag_name'))  #结果 :h1
print(ret.group())  #结果 :<h1>hello</h1>

ret = re.search(r"<(w+)>w+</1>","<h1>hello</h1>")
#如果不给组起名字,也可以用序号来找到对应的组,表示要找的内容和前面的组内容一致
#获取的匹配结果可以直接用group(序号)拿到对应的值
print(ret.group(1))
print(ret.group())  #结果 :<h1>hello</h1>

View Code

 

2、相称整数

图片 17图片 18

import re

ret=re.findall(r"d+","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '2', '60', '40', '35', '5', '4', '3']
ret=re.findall(r"-?d+.d*|(-?d+)","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '-2', '60', '', '5', '-4', '3']
ret.remove("")
print(ret) #['1', '-2', '60', '5', '-4', '3']

View Code

 

3、数字相称

图片 19图片 20

1、 匹配一段文本中的每行的邮箱
      http://blog.csdn.net/make164492212/article/details/51656638

2、 匹配一段文本中的每行的时间字符串,比如:‘1990-07-12’;

   分别取出1年的12个月(^(0?[1-9]|1[0-2])$)、
   一个月的31天:^((0?[1-9])|((1|2)[0-9])|30|31)$

3、 匹配qq号。(腾讯QQ号从10000开始)  [1,9][0,9]{4,}

4、 匹配一个浮点数。       ^(-?d+)(.d+)?$   或者  -?d+.?d*

5、 匹配汉字。             ^[u4e00-u9fa5]{0,}$ 

6、 匹配出所有整数

View Code

 

4、爬虫练习

图片 21图片 22

import requests

import re
import json

def getPage(url):

    response=requests.get(url)
    return response.text

def parsePage(s):

    com=re.compile('<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>d+).*?(?P<title>.*?)'
                   '.*?(?P<rating_num>.*?).*?(?P<comment_num>.*?)评价',re.S)

    ret=com.finditer(s)
    for i in ret:
        yield {
            "id":i.group("id"),
            "title":i.group("title"),
            "rating_num":i.group("rating_num"),
            "comment_num":i.group("comment_num"),
        }

def main(num):

    url='https://movie.douban.com/top250?start=%s&filter='%num
    response_html=getPage(url)
    ret=parsePage(response_html)
    print(ret)
    f=open("move_info7","a",encoding="utf8")

    for obj in ret:
        print(obj)
        data=json.dumps(obj,ensure_ascii=False)
        f.write(data+"n")

if __name__ == '__main__':
    count=0
    for i in range(10):
        main(count)
        count+=25

View Code

 

本文由编程应用发布,转载请注明来源:re模块和正则表明式,python正则学习