15丨一次学会Python数据可视化的10种技能
下载APP
关闭
渠道合作
推荐作者
15丨一次学会Python数据可视化的10种技能
2019-01-16 陈旸 来自北京
《数据分析实战45讲》
课程介绍
讲述:陈旸
时长15:03大小13.79M
今天我来给你讲讲 Python 的可视化技术。
如果你想要用 Python 进行数据分析,就需要在项目初期开始进行探索性的数据分析,这样方便你对数据有一定的了解。其中最直观的就是采用数据可视化技术,这样,数据不仅一目了然,而且更容易被解读。同样在数据分析得到结果之后,我们还需要用到可视化技术,把最终的结果呈现出来。
可视化视图都有哪些?
按照数据之间的关系,我们可以把可视化视图划分为 4 类,它们分别是比较、联系、构成和分布。我来简单介绍下这四种关系的特点:
比较:比较数据间各类别的关系,或者是它们随着时间的变化趋势,比如折线图;
联系:查看两个或两个以上变量之间的关系,比如散点图;
构成:每个部分占整体的百分比,或者是随着时间的百分比变化,比如饼图;
分布:关注单个变量,或者多个变量的分布情况,比如直方图。
同样,按照变量的个数,我们可以把可视化视图划分为单变量分析和多变量分析。
单变量分析指的是一次只关注一个变量。比如我们只关注“身高”这个变量,来看身高的取值分布,而暂时忽略其他变量。
多变量分析可以让你在一张图上可以查看两个以上变量的关系。比如“身高”和“年龄”,你可以理解是同一个人的两个参数,这样在同一张图中可以看到每个人的“身高”和“年龄”的取值,从而分析出来这两个变量之间是否存在某种联系。
可视化的视图可以说是分门别类,多种多样,今天我主要介绍常用的 10 种视图,这些视图包括了散点图、折线图、直方图、条形图、箱线图、饼图、热力图、蜘蛛图、二元变量分布和成对关系。
下面我给你一一进行介绍。
散点图
散点图的英文叫做 scatter plot,它将两个变量的值显示在二维坐标中,非常适合展示两个变量之间的关系。当然,除了二维的散点图,我们还有三维的散点图。
我在上一讲中给你简单介绍了下 Matplotlib 这个工具,在 Matplotlib 中,我们经常会用到 pyplot 这个工具包,它包括了很多绘图函数,类似 Matlab 的绘图框架。在使用前你需要进行引用:
在工具包引用后,画散点图,需要使用 plt.scatter(x, y, marker=None) 函数。x、y 是坐标,marker 代表了标记的符号。比如“x”、“>”或者“o”。选择不同的 marker,呈现出来的符号样式也会不同,你可以自己试一下。
下面三张图分别对应“x”“>”和“o”。
除了 Matplotlib 外,你也可以使用 Seaborn 进行散点图的绘制。在使用 Seaborn 前,也需要进行包引用:
在引用 seaborn 工具包之后,就可以使用 seaborn 工具包的函数了。如果想要做散点图,可以直接使用 sns.jointplot(x, y, data=None, kind='scatter') 函数。其中 x、y 是 data 中的下标。data 就是我们要传入的数据,一般是 DataFrame 类型。kind 这类我们取 scatter,代表散点的意思。当然 kind 还可以取其他值,这个我在后面的视图中会讲到,不同的 kind 代表不同的视图绘制方式。
好了,让我们来模拟下,假设我们的数据是随机的 1000 个点。
我们运行一下这个代码,就可以看到下面的视图(第一张图为 Matplotlib 绘制的,第二张图为 Seaborn 绘制的)。其实你能看到 Matplotlib 和 Seaborn 的视图呈现还是有差别的。Matplotlib 默认情况下呈现出来的是个长方形。而 Seaborn 呈现的是个正方形,而且不仅显示出了散点图,还给了这两个变量的分布情况。
Matplotlib 绘制:
Seaborn 绘制:
折线图
折线图可以用来表示数据随着时间变化的趋势。
在 Matplotlib 中,我们可以直接使用 plt.plot() 函数,当然需要提前把数据按照 x 轴的大小进行排序,要不画出来的折线图就无法按照 x 轴递增的顺序展示。
在 Seaborn 中,我们使用 sns.lineplot (x, y, data=None) 函数。其中 x、y 是 data 中的下标。data 就是我们要传入的数据,一般是 DataFrame 类型。
这里我们设置了 x、y 的数组。x 数组代表时间(年),y 数组我们随便设置几个取值。下面是详细的代码。
然后我们分别用 Matplotlib 和 Seaborn 进行画图,可以得到下面的图示。你可以看出这两个图示的结果是完全一样的,只是在 seaborn 中标记了 x 和 y 轴的含义。
直方图
直方图是比较常见的视图,它是把横坐标等分成了一定数量的小区间,这个小区间也叫作“箱子”,然后在每个“箱子”内用矩形条(bars)展示该箱子的箱子数(也就是 y 值),这样就完成了对数据集的直方图分布的可视化。
在 Matplotlib 中,我们使用 plt.hist(x, bins=10) 函数,其中参数 x 是一维数组,bins 代表直方图中的箱子数量,默认是 10。
在 Seaborn 中,我们使用 sns.distplot(x, bins=10, kde=True) 函数。其中参数 x 是一维数组,bins 代表直方图中的箱子数量,kde 代表显示核密度估计,默认是 True,我们也可以把 kde 设置为 False,不进行显示。核密度估计是通过核函数帮我们来估计概率密度的方法。
这是一段绘制直方图的代码。
我们创建一个随机的一维数组,然后分别用 Matplotlib 和 Seaborn 进行直方图的显示,结果如下,你可以看出,没有任何差别,其中最后一张图就是 kde 默认为 Ture 时的显示情况。
条形图
如果说通过直方图可以看到变量的数值分布,那么条形图可以帮我们查看类别的特征。在条形图中,长条形的长度表示类别的频数,宽度表示类别。
在 Matplotlib 中,我们使用 plt.bar(x, height) 函数,其中参数 x 代表 x 轴的位置序列,height 是 y 轴的数值序列,也就是柱子的高度。
在 Seaborn 中,我们使用 sns.barplot(x=None, y=None, data=None) 函数。其中参数 data 为 DataFrame 类型,x、y 是 data 中的变量。
我们创建了 x、y 两个数组,分别代表类别和类别的频数,然后用 Matplotlib 和 Seaborn 进行条形图的显示,结果如下:
箱线图
箱线图,又称盒式图,它是在 1977 年提出的,由五个数值点组成:最大值 (max)、最小值 (min)、中位数 (median) 和上下四分位数 (Q3, Q1)。它可以帮我们分析出数据的差异性、离散程度和异常值等。
在 Matplotlib 中,我们使用 plt.boxplot(x, labels=None) 函数,其中参数 x 代表要绘制箱线图的数据,labels 是缺省值,可以为箱线图添加标签。
在 Seaborn 中,我们使用 sns.boxplot(x=None, y=None, data=None) 函数。其中参数 data 为 DataFrame 类型,x、y 是 data 中的变量。
这段代码中,我生成 0-1 之间的 10*4 维度数据,然后分别用 Matplotlib 和 Seaborn 进行箱线图的展示,结果如下。
Matplotlib 绘制:
Seaborn 绘制:
饼图
饼图是常用的统计学模块,可以显示每个部分大小与总和之间的比例。在 Python 数据可视化中,它用的不算多。我们主要采用 Matplotlib 的 pie 函数实现它。
在 Matplotlib 中,我们使用 plt.pie(x, labels=None) 函数,其中参数 x 代表要绘制饼图的数据,labels 是缺省值,可以为饼图添加标签。
这里我设置了 labels 数组,分别代表高中、本科、硕士、博士和其他几种学历的分类标签。nums 代表这些学历对应的人数。
通过 Matplotlib 的 pie 函数,我们可以得出下面的饼图:
热力图
热力图,英文叫 heat map,是一种矩阵表示方法,其中矩阵中的元素值用颜色来代表,不同的颜色代表不同大小的值。通过颜色就能直观地知道某个位置上数值的大小。另外你也可以将这个位置上的颜色,与数据集中的其他位置颜色进行比较。
热力图是一种非常直观的多元变量分析方法。
我们一般使用 Seaborn 中的 sns.heatmap(data) 函数,其中 data 代表需要绘制的热力图数据。
这里我们使用 Seaborn 中自带的数据集 flights,该数据集记录了 1949 年到 1960 年期间,每个月的航班乘客的数量。
通过 seaborn 的 heatmap 函数,我们可以观察到不同年份,不同月份的乘客数量变化情况,其中颜色越浅的代表乘客数量越多,如下图所示:
蜘蛛图
蜘蛛图是一种显示一对多关系的方法。在蜘蛛图中,一个变量相对于另一个变量的显著性是清晰可见的。
假设我们想要给王者荣耀的玩家做一个战力图,指标一共包括推进、KDA、生存、团战、发育和输出。那该如何做呢?
这里我们需要使用 Matplotlib 来进行画图,首先设置两个数组:labels 和 stats。他们分别保存了这些属性的名称和属性值。
因为蜘蛛图是一个圆形,你需要计算每个坐标的角度,然后对这些数值进行设置。当画完最后一个点后,需要与第一个点进行连线。
因为需要计算角度,所以我们要准备 angles 数组;又因为需要设定统计结果的数值,所以我们要设定 stats 数组。并且需要在原有 angles 和 stats 数组上增加一位,也就是添加数组的第一个元素。
代码中 flt.figure 是创建一个空白的 figure 对象,这样做的目的相当于画画前先准备一个空白的画板。然后 add_subplot(111) 可以把画板划分成 1 行 1 列。再用 ax.plot 和 ax.fill 进行连线以及给图形上色。最后我们在相应的位置上显示出属性名。这里需要用到中文,Matplotlib 对中文的显示不是很友好,因此我设置了中文的字体 font,这个需要在调用前进行定义。最后我们可以得到下面的蜘蛛图,看起来是不是很酷?
二元变量分布
如果我们想要看两个变量之间的关系,就需要用到二元变量分布。当然二元变量分布有多种呈现方式,开头给你介绍的散点图就是一种二元变量分布。
在 Seaborn 里,使用二元变量分布是非常方便的,直接使用 sns.jointplot(x, y, data=None, kind) 函数即可。其中用 kind 表示不同的视图类型:“kind='scatter'”代表散点图,“kind='kde'”代表核密度图,“kind='hex' ”代表 Hexbin 图,它代表的是直方图的二维模拟。
这里我们使用 Seaborn 中自带的数据集 tips,这个数据集记录了不同顾客在餐厅的消费账单及小费情况。代码中 total_bill 保存了客户的账单金额,tip 是该客户给出的小费金额。我们可以用 Seaborn 中的 jointplot 来探索这两个变量之间的关系。
代码中我用 kind 分别显示了他们的散点图、核密度图和 Hexbin 图,如下图所示。
散点图:
核密度图:
Hexbin 图:
成对关系
如果想要探索数据集中的多个成对双变量的分布,可以直接采用 sns.pairplot() 函数。它会同时展示出 DataFrame 中每对变量的关系,另外在对角线上,你能看到每个变量自身作为单变量的分布情况。它可以说是探索性分析中的常用函数,可以很快帮我们理解变量对之间的关系。
pairplot 函数的使用,就像在 DataFrame 中使用 describe() 函数一样方便,是数据探索中的常用函数。
这里我们使用 Seaborn 中自带的 iris 数据集,这个数据集也叫鸢尾花数据集。鸢尾花可以分成 Setosa、Versicolour 和 Virginica 三个品种,在这个数据集中,针对每一个品种,都有 50 个数据,每个数据中包括了 4 个属性,分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。通过这些数据,需要你来预测鸢尾花卉属于三个品种中的哪一种。
这里我们用 Seaborn 中的 pairplot 函数来对数据集中的多个双变量的关系进行探索,如下图所示。从图上你能看出,一共有 sepal_length、sepal_width、petal_length 和 petal_width4 个变量,它们分别是花萼长度、花萼宽度、花瓣长度和花瓣宽度。
下面这张图相当于这 4 个变量两两之间的关系。比如矩阵中的第一张图代表的就是花萼长度自身的分布图,它右侧的这张图代表的是花萼长度与花萼宽度这两个变量之间的关系。
总结
我今天给你讲了 Python 可视化工具包 Matplotlib 和 Seaborn 工具包的使用。他们两者之间的关系就相当于 NumPy 和 Pandas 的关系。Seaborn 是基于 Matplotlib 更加高级的可视化库。
另外针对我讲到的这 10 种可视化视图,可以按照变量之间的关系对它们进行分类,这些关系分别是比较、联系、构成和分布。当然我们也可以按照随机变量的个数来进行划分,比如单变量分析和多变量分析。在数据探索中,成对关系 pairplot() 的使用,相好比 Pandas 中的 describe() 使用一样方便,常用于项目初期的数据可视化探索。
在 Matplotlib 和 Seaborn 的函数中,我只列了最基础的使用,也方便你快速上手。当然如果你也可以设置修改颜色、宽度等视图属性。你可以自己查看相关的函数帮助文档。这些留给你来进行探索。
关于本次 Python 可视化的学习,我希望你能掌握:
视图的分类,以及可以从哪些维度对它们进行分类;
十种常见视图的概念,以及如何在 Python 中进行使用,都需要用到哪些函数;
需要自己动手跑一遍案例中的代码,体验下 Python 数据可视化的过程。
最后,我给你留两道思考题吧,Seaborn 数据集中自带了 car_crashes 数据集,这是一个国外车祸的数据集,你要如何对这个数据集进行成对关系的探索呢?第二个问题就是,请你用 Seaborn 画二元变量分布图,如果想要画散点图,核密度图,Hexbin 图,函数该怎样写?
欢迎你在评论区与我分享你的答案,也欢迎点击“请朋友读”,把这篇文章分享给你的朋友或者同事,一起来动手练习一下。
分享给需要的人,Ta购买本课程,你将得18元
生成海报并分享
赞 10
提建议
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
上一篇
14丨数据可视化:掌握数据领域的万金油技能
下一篇
16丨数据分析基础篇答疑
精选留言(66)
- 建强置顶2019-08-18思考题1:对车祸数据成对关系的的探索,程序代码如下: #车祸数据分析 import matplotlib.pyplot as plt import seaborn as sns import pandas as pd # 数据准备 crashes = sns.load_dataset('car_crashes') crashes_data = pd.DataFrame(crashes) # 用 Seaborn 画成对关系 sns.pairplot(crashes) plt.show() 思考题2:模拟企业隐患数据分析,代码如下: import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np #定义生成隐患数量函数 def GenerateHDNum(hdtimes): #hdtimes表示要生成多少隐患数量 HD_NumList = list(pd.Series(np.random.rand(hdtimes))) return [int(x * 100) for x in HD_NumList] #数据准备函数 def MakeData(): #创建以月份为单位的时间索引 dti = pd.date_range(start='2017-01-01', end='2018-12-31', freq='M') monthlist = [str(x * 100 + y) for x,y in zip(dti.year,dti.month)] hdtimes = len(monthlist) #生成各种隐患数量 NormalHD = GenerateHDNum(hdtimes) ImportHD = GenerateHDNum(hdtimes) HDNum = { 'Normal': NormalHD ,'Import': ImportHD} HD_Frame = pd.DataFrame(data = HDNum, index=monthlist) print(HD_Frame) return HD_Frame def AnalyData(HDSet,AnalyType='0'): #AnalyType取值:1:成对关系图;2:散点图;3:核密度图;4:Hexbin图 #成对关系图 if AnalyType == '1': sns.pairplot(HDSet) #散点图 if AnalyType == '2': sns.jointplot(x='Normal', y='Import', data=HDSet, kind='scatter') #核密度图 if AnalyType == '3': sns.jointplot(x='Normal', y='Import', data=HDSet, kind='kde') #Hexbin图 if AnalyType == '4': sns.jointplot(x='Normal', y='Import', data=HDSet, kind='hex') plt.show() def ShowMenu(): print('='*20) print('1.显示成对关系图') print('2.显示散点图') print('3.显示核密度图') print('4.显示Hexbin图') print('R.换一批数据') print('0.退出') print('='*20) return input('请输入命令:') def main(): HDSet = MakeData() while True: command = ShowMenu() if command == '0': break elif command == 'R': HDSet = MakeData() else: AnalyData(HDSet, command) main()展开
作者回复: 建强同学很不错的作业分享,大家都可以看下
共 4 条评论13 - 佳佳的爸2019-01-17建议所有的示例代码加上完整的引用(完整的import语句),谢谢!共 2 条评论37
- 林骥2019-01-16# -*- coding: utf-8 -*- # 作者:数据化分析 # 微信公众号:isjhfx # 版本:1.0 import matplotlib.pyplot as plt import seaborn as sns # 解决seaborn数据集导入报错的问题 import ssl ssl._create_default_https_context = ssl._create_unverified_context # 数据准备 data = sns.load_dataset('car_crashes') print(data.head(10)) # 用 seaborn 探索成对关系 sns.pairplot(data) # 用 seaborn 画散点图 sns.jointplot(x='total', y='speeding', data=data, kind='scatter') # 用 seaborn 画核密度图 sns.jointplot(x='total', y='speeding', data=data, kind='kde') # 用 seaborn 画 Hexbin 图 sns.jointplot(x='total', y='speeding', data=data, kind='hex') plt.show()展开13
- sxpujs2019-04-21在 Mac 下设置中文字体,可以使用以下路径: # 设置中文字体 font = FontProperties(fname="/System/Library/Fonts/STHeiti Medium.ttc", size=14)
作者回复: 很好的分享
9 - 李闯2021-06-28在学习蜘蛛图直接使用老师代码报了错,仔细研究代码后发现添加标签时前面的angels多加了一个导致报错,去除后可以运行出结果,下面的代码给出了修改和注释。 # In[] # 蜘蛛图 import numpy as np import matplotlib.pyplot as plt import seaborn as sns from matplotlib.font_manager import FontProperties # 数据准备 labels=np.array([u"推进","KDA",u"生存",u"团战",u"发育",u"输出"]) stats=[83, 61, 95, 67, 76, 88] # 画图数据准备,角度、状态值 angles=np.linspace(0, 2*np.pi, len(labels), endpoint=False) stats=np.concatenate((stats,[stats[0]])) angles=np.concatenate((angles,[angles[0]])) # 用Matplotlib画蜘蛛图 fig = plt.figure() ax = fig.add_subplot(111, polar=True) ax.plot(angles, stats, 'o-', linewidth=2) ax.fill(angles, stats, alpha=0.25) # 设置中文字体 font = FontProperties(fname=r"C:\Windows\Fonts\simhei.ttf", size=14) ax.set_thetagrids(angles[:-1] * 180/np.pi, labels, FontProperties=font)#前面angels为了封闭起来多坠一位,此处需要去掉 plt.show()展开共 1 条评论7
- William~Zhang2020-02-25运行sns.load_dataset()的时候遇到这个问题: URLError: <urlopen error [Errno 61] Connection refused> 请问大家有解决办法吗?共 10 条评论4
- Andre2019-06-05我的想法是把老师的几种操作,自己做一遍然后发到github和自己的知乎专栏上面4
- jsw2019-01-17我的数据和程序都在服务器上,如何可以生成html在web上展示?共 1 条评论4
- 跳跳2019-01-16第一题:seaborn car_crashes成对关系探索 iris=sns.load_dataset("car_crashes") sns.pairplot(iris) plt.show() 第二题:由第一题可以看出酒精和速度由类似线性关系,因此做酒精和速度二元变量的分布图 iris=sns.load_dataset("car_crashes") print(iris.head(10)) sns.jointplot(x='alcohol',y='speeding',data=iris,kind='scatter') sns.jointplot(x='alcohol',y='speeding',data=iris,kind='kde') sns.jointplot(x='alcohol',y='speeding',data=iris,kind='hex') 碎碎念一下:为啥留言不支持图片?难受展开
作者回复: 哈哈 支持图片这个需要技术来做
4 - jion2021-03-06你好,练习成对关系图时,除下如下错误,是何原因? import matplotlib.pyplot as plt import seaborn as sns from sklearn import datasets # 数据准备 iris_datas = datasets.load_iris() iris = pd.DataFrame(iris_datas.data, columns=['SpealLength', 'Spealwidth', 'PetalLength', 'PetalLength']) print(iris.shape,"\n",iris) # 用Seaborn画成对关系 sns.pairplot(iris) 出现如下错误:ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().展开
作者回复: 原因是seaborn中有自己的iris数据集API:iris = sns.load_dataset('iris') seaborn中多了代表品种的“species”列,该列为字符串类型的离散值。当你使用sns.pairplot(iris)时,seaborn会按照自带的数据集格式来绘制,由于sklearn中的iris数据集没有“species”列,从而才会报错。你可以把sklearn中的iris的数据集的列名全部改为其他列名,即可正常使用sns.pairplot(iris)进行绘制。
3 - 小强2020-07-10各种场景的视图,试用什么场景,怎么分析,例子太少了,理解不够深。
作者回复: 在后面的例子中我们还会常用到。
共 2 条评论2 - 求知鸟2019-01-16python在慢慢追赶R,我的R语言分析水平停止了,python水平在往上涨,现在的状态是,有老师的课就学课,没有就看《精益数据分析》。
作者回复: 嗯嗯 慢慢来 坚持就有收获
共 3 条评论3 - 夕子2021-03-18car_crashes = sns.load_dataset('car_crashes') car_crashes.head(10) # 成对关系探索 sns.pairplot(car_crashes) plt.show() # 画散点图 sns.jointplot(x = 'speeding', y = 'total', data = car_crashes, kind = 'scatter') plt.show() # 画核密度图 sns.jointplot(x = 'speeding', y = 'total', data = car_crashes, kind = 'kde') plt.show() # 画hexbin图 sns.jointplot(x = 'speeding', y = 'total', data = car_crashes, kind = 'hex') plt.show()展开
作者回复: 很棒
1 - 丁思森2020-06-11请问一下,有人在运行sns.load_dataset('tips'),遇到报错urllib.error.URLError: <urlopen error [Errno 11004] getaddrinfo failed>么?这里直接加载数据集会报错,你们是怎么解决的?
作者回复: seaborn的数据集需要科学上网才能使用load_dataset
共 2 条评论1 - 阿敦教授2019-06-03老师您好,在用sns.load_dataset()时,不管load哪个在线数据集,都报错 urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1056)>。请问怎么解决呀?谢谢老师共 3 条评论1
- 周飞2019-02-27折线图的demo 中 如果运行出现如下的错误 : AttributeError: module 'seaborn' has no attribute 'lineplot'. 请看这里 https://stackoverflow.com/questions/51846948/seaborn-lineplot-module-object-has-no-attribute-lineplot 。 解决方案是 : conda install -c anaconda seaborn=0.9.01
- 周飞2019-02-27macOS的用户如果不能显示,请看这里:https://matplotlib.org/faq/osx_framework.html#conda conda install python.app 然后 用pythonw 来运行脚步,此时可能会报错: Intel MKL FATAL ERROR: Cannot load libmkl_intel_thread.dylib. , 然后看这里 https://blog.csdn.net/u010900574/article/details/53413937 运行 conda install -f numpy 和 conda install mkl 。然后在用pythonw 来运行脚本就可以了。展开1
- 毛毛🐛虫🌻2019-01-18热力图那个是颜色越浅,值越大么?
作者回复: 对 右侧有坐标对照
共 2 条评论1 - 拉我吃2019-01-17# coding:utf-8 import matplotlib.pyplot as plt import seaborn as sns # Data Prep car_crashes = sns.load_dataset('car_crashes') sns.pairplot(car_crashes) plt.show() # plot with seaborn (scatter, kde, hex) sns.jointplot(x='alcohol', y='speeding', data=car_crashes, kind='scatter') sns.jointplot(x='alcohol', y='speeding', data=car_crashes, kind='kde') sns.jointplot(x='alcohol', y='speeding', data=car_crashes, kind='hex') plt.show() 二元关系选了喝酒和超速的对比,基本上在大部分区间下是线性关系,就是喝得多速度快:)展开
作者回复: 加油~
1 - Jay2022-09-29 来自广东【箱线图可以帮我们分析出数据的差异性、离散程度和异常值等】 请问具体怎么从图上分析呢?