本系列是小编对RobertLayton编写的《LearningDataMiningwithPython》第二版所做的学习笔记分享。
本文主要介绍数据分析入门的一些准备工作。原课程作为对有编程基础并修过数理统计的学生开设的研究生课程,所以对于入门的准备工作没有做过多解释,为了让所有感兴趣的读者都能无障碍跟读,并激发兴趣,小编就多添些油加些醋了。
本文是小编根据课程教材及网络收集的资料结合自己所学所思翻译整理,纠错指正、深入探讨,咱们评论区见。
01
WHAT
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
就像在装满各式各样的糖果罐里用勺子找你最想吃的那个糖果,这里的勺子就是算法,这个过程就是数据挖掘。
数据分析相对范围更广,但是其内涵还是相通的,这里就不做过多解释了。
Python是一种编程语言,可以理解为与电脑沟通的语言。
比如想和电脑打招呼用Python就是
message=input(Hello!)
具体的语法和交互在后面章节会具体解释,这里只做一个简单的演示。
02
HOW
就像前面提到的找糖果需要勺子,那么勺子从哪里来呢,可以自己去厨房找,也可以找哆啦A梦借。
那我们怎么样才能用Python做数据分析呢?
通常我们需要什么呢?
网络:WIFI或者网线,最好是自己的,蹭别人家的可不太好,而且也不太安全。
通常数据分析都是在线获取的,特别是涉及到实时的数据分析,时效性很重要。糖果放长了会坏,咱从糖果铺出来就可以吃掉,可以不用等回家,但是一次吃太多小心蛀牙哦。
所以做数据分析经常会用到网络爬虫和一个叫做beautifulsoup(美丽汤)的神器。
能玩吃鸡的设备:电脑,平板,手机都可以。
不同的设备有不同的系统,虽然有很多不同但是咱们吃鸡的操作都是一样的。
小编用的windows系统的电脑,所以后面章节更多的是用win系统做演示。
数据分析常用环境是电脑,因为涉及到代码和屏幕交互,电脑会更有效率一点。
数据集:如果糖果罐都没有去哪里找糖果呢?
有时候糖果罐就在面前,但有的时候需要先去糖果铺买。
下面介绍几个非常受欢迎的免费糖果铺:[2]
data.worldKaggle.