网络爬虫(Webcrawler),就是通过网址获得网络中的数据、然后根据目标解析数据、存储目标信息。这个过程可以自动化程序实现,行为类似一个蜘蛛。蜘蛛在互联网上爬行,一个一个网页就是蜘蛛网。这样蜘蛛可以通过一个网页爬行到另外一个网页。
网络爬虫也是获取数据的一个途径。对于大数据行业,数据的价值不言而喻,在这个信息爆炸的年代,互联网上有太多的信息数据,对于中小微公司,合理利用爬虫爬取有价值的数据,是弥补自身先天数据短板的不二选择。
根据上面的分析,我们可以把网络爬虫分为四步:
获取网页数据
解析网页数据
存储网页数据
分析网页数据
第一步:获取网页数据
获取网页数据,也就是通过网址(URL:UniformResourceLocator,统一资源定位符),获得网络的数据,充当搜索引擎。当输入网址,我们就相当于对网址服务器发送了一个请求,网站服务器收到以后,进行处理和解析,进而给我们一个相应的相应。如果网络正确并且网址不错,一般都可以得到网页信息,否则告诉我们一个错误代码,比如.整个过程可以称为请求和响应。
常见的请求方法有两种,GET和POST。GET请求是把参数包含在了url里面,比如在百度里面输入爬虫,得到一个get请求,链接为
def…