使用正则表达式
在之前的文章中,我们讨论过正则表达式,正则可以用来识别常见的模式(电子邮件,URL,手机号等),功能强大。
幸运的是,BautifulSoup也支持正则这一功能,我们可以使用正则表达式来匹配特定的标签。
想像一下,我们想抓取一些链接,匹配一个特定的模式,如属于内部的链接,或者特殊的外部链接,或者抓取一些特定路径的图片。
使用正则表达式则很轻松的实现这些工作。
importrtags=rs.findAll("img",{"src":r.