php发展

首页 » 常识 » 问答 » 使用多个Python库开发网页爬虫二
TUhjnbcbe - 2021/2/14 17:43:00
冬季白癜风注意事项         https://m-mip.39.net/nk/mipso_4531861.html

使用正则表达式

在之前的文章中,我们讨论过正则表达式,正则可以用来识别常见的模式(电子邮件,URL,手机号等),功能强大。

幸运的是,BautifulSoup也支持正则这一功能,我们可以使用正则表达式来匹配特定的标签。

想像一下,我们想抓取一些链接,匹配一个特定的模式,如属于内部的链接,或者特殊的外部链接,或者抓取一些特定路径的图片。

使用正则表达式则很轻松的实现这些工作。

importrtags=rs.findAll("img",{"src":r.

1
查看完整版本: 使用多个Python库开发网页爬虫二