19丨决策树(下):泰坦尼克乘客生存预测
19丨决策树(下):泰坦尼克乘客生存预测
讲述:陈旸
时长12:56大小11.82M
sklearn 中的决策树模型
Titanic 乘客生存预测
决策树模型使用技巧总结
赞 17
提建议
精选留言(79)
- ken2019-01-25经典入门案例,浅入但没有提供完整的代码和说明,缺少拓展,对包调用的逻辑方法也不够完整。 是一次手把手练习的实操过程,但有点不上不下的,完全没python基础的可能连sklearn也不知道,有点工程基础的,又没有理论拓展说明,未免鸡肋。 当然,本人可能严格了。展开共 13 条评论137
- 一只眼看世界2019-07-03还有个问题 决策树怎么读? 就是每个方框内的数据都代表什么意思呢?
作者回复: 你可以看下输出的决策树的图形,有几个数值你需要了解: 比如类似 X[7]<=0.5 这种就是告诉你这个节点,选择的属性是X[7],阈值是0.5。 当<=0.5的时候,决策进入到左子树,当>0.5的时候,决策进入到右子树。 entropy实际上代表了信息不纯度,这个数值越大,代表纯度越低。 samples代表的是这个节点的样本数,比如samples=891,就代表这个节点一般有891个样本。然后value这个数组会告诉你这个样本集是如何分布的,比如value=[549,342],即891个样本,有549个为True,也就是X[7]<=0.5,还有342个样本为False,即这些样本的X[7]>0.5 好了,然后继续上面的分裂过程,直到叶子节点,纯度越来越高,最终归为同一个类别时,纯度最高,entropy=0,此时样本都为同一个类别,也就是按照这条线路可以得到的最终分类结果。 所以你能看到:决策树的使用,就是从根节点开始,然后属性划分,当<=阈值时走左子树,>阈值时走右子树,最终在叶子节点可以得到分类的结果。你指的每个方框里的entropy, samples, vale都是中间的计算结果。 这样解释决策图的使用不知道是否理解,希望对你能有帮助。
44 - 小熊猫2019-02-18fit 从一个训练集中学习模型参数,其中就包括了归一化时用到的均值,标准偏差等,可以理解为一个训练过程。 transform: 在fit的基础上,对数据进行标准化,降维,归一化等数据转换操作 fit_transform: 将模型训练和转化合并到一起,训练样本先做fit,得到mean,standard deviation,然后将这些参数用于transform(归一化训练数据),使得到的训练数据是归一化的,而测试数据只需要在原先fit得到的mean,std上来做归一化就行了,所以用transform就行了。展开
编辑回复: 总结的很好。需要注意的是,transform和fit_transform虽然结果相同,但是不能互换。因为fit_transform只是 fit+transform两个步骤合并的简写。而各种分类算法都需要先fit,然后再进行transform。所以如果把fit_transform替换为transform可能会报错。
共 2 条评论25 - 每天晒白牙2019-01-30# 依赖包从 cmd中 pip install即可 import pandas as pd import numpy as np from sklearn.feature_extraction import DictVectorizer from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import cross_val_score from sklearn import tree import graphviz # 数据加载 train_data = pd.read_csv('D:/workspace/study/python/Titanic_Data/train.csv') test_data = pd.read_csv('D:/workspace/study/python/Titanic_Data/test.csv') # 数据探索 print(train_data.info()) print('-'*30) print(train_data.describe()) print('-'*30) print(train_data.describe(include=['O'])) print('-'*30) print(train_data.head()) print('-'*30) print(train_data.tail()) # 数据清洗 # 使用平均年龄来填充年龄中的 nan 值 train_data['Age'].fillna(train_data['Age'].mean(), inplace=True) test_data['Age'].fillna(test_data['Age'].mean(), inplace=True) # 使用票价的均值填充票价中的 nan 值 train_data['Fare'].fillna(train_data['Fare'].mean(), inplace=True) test_data['Fare'].fillna(test_data['Fare'].mean(), inplace=True) # 使用登录最多的港口来填充登录港口的 nan 值 train_data['Embarked'].fillna('S', inplace=True) test_data['Embarked'].fillna('S', inplace=True) # 特征选择 features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked'] train_features = train_data[features] train_labels = train_data['Survived'] test_features = test_data[features] dvec = DictVectorizer(sparse=False) train_features = dvec.fit_transform(train_features.to_dict(orient='record')) print(dvec.feature_names_) # 决策树模型 # 构造 ID3 决策树 clf = DecisionTreeClassifier(criterion='entropy') # 决策树训练 clf.fit(train_features, train_labels) # 模型预测 & 评估 test_features=dvec.transform(test_features.to_dict(orient='record')) # 决策树预测 pred_labels = clf.predict(test_features) # 决策树准确率 acc_decision_tree = round(clf.score(train_features, train_labels), 6) print(u'score 准确率为 %.4lf' % acc_decision_tree) # K 折交叉验证统计决策树准确率 print(u'cross_val_score 准确率为 %.4lf' % np.mean(cross_val_score(clf, train_features, train_labels, cv=10))) # 决策树可视化 dot_data = tree.export_graphviz(clf, out_file=None) graph = graphviz.Source(dot_data) graph.view()展开
作者回复: Good Job
共 4 条评论23 - 不做键盘侠2019-02-05Fare似乎没有缺失值?
编辑回复: 训练集train_data中Fare没有缺失值,测试集test_data中Fare有缺失值。 通过print(test_data.info()) 可以看到,所以train_data可以补用填充,而test_data需要对缺失值做处理。
共 4 条评论16 - 听妈妈的话2019-03-20我想问Fare是怎么看出来有缺失的呀,数目是891呀共 1 条评论12
- MachineLP2019-01-27这讲的确需要在精进一些哦,还有后续应该如何通过更好的数据分析进行效果提升也没有体现,感觉这才是关键,并不是简单跑个模型而已。共 1 条评论10
- 旭霁2019-03-27安装 graphviz 工具,并设置好环境变量后,发现还是出错,加了下边两行代码后得以解决。 import os os.environ["PATH"] += os.pathsep + 'D:/Program Files (x86)/Graphviz2.38/bin/' 在 Windows 中,只需在开头添加这两行,其中 'D:/ Program Files(x86)/Graphviz2.38/bin/' 将替换为 bin 文件所在的地址。展开共 1 条评论9
- Lambert2019-02-27# 决策树可视化 from sklearn import tree import graphviz dot_data = tree.export_graphviz(clf, out_file=None) graph = graphviz.Source(dot_data) graph.render("tree") graph.view('graph')展开
作者回复: Good Job
共 2 条评论8 - 上官2019-01-25Carbin缺失率分别为 77% 和 78%, Age\Fare有缺失值,这都是在哪儿判断出来的?
编辑回复: 在数据探索的过程中,我们可以通过打印train_data.info()和test_data.info()得出。 你能看到训练集train_data中一共有891行数据,其中Cabin有204个非空数据。同理,测试集test_data中一共有418行数据,其中Cabin有91个非空数据。所以Cabin缺失率分别是77%和78%。同理,你能看到训练集和测试集中的Age字段有缺失值(即空值),测试集中的Fare有缺失值。
8 - 听妈妈的话2019-03-21https://github.com/apachecn/kaggle/tree/master/competitions/getting-started/titanic 我个人认为这里的预测方案写的更加详细一点,大家可以参考一下
作者回复: 不错的分享
共 3 条评论7 - 柚子2019-02-19关于graphviz:我用的是anaconda,通过在anaconda prompt界面输入 conda install python-graphviz 可以直接安装graphviz
作者回复: 可以的
共 2 条评论7 - hh2019-02-17老师的课太值了,请问老师还有其他课吗,真是干货满满
编辑回复: 多谢支持,后续有和数据相关的课程。 数据分析中的知识点比较多,同时也需要一些基础。所以课程中,有些基础的内容会省略,虽然专栏前面有3节关于python的内容,不过还是需要一定的python基础。另外每篇文章篇幅有限,我会尽量在讲解算法使用的基础上,进行一个完整的项目交付。很多使用细节和体会,还需要你通过日常的学习慢慢进行总结。
6 - 笔落惊风雨2019-02-26我表示真的没看明白 来回来看5遍了
编辑回复: 我上传了完整的代码到GitHub上。你可以先自己运行一遍。如果有哪个模块不理解的,你可以加到微信群里,和我单独交流。也可以直接加我微信 cylearn123。
5 - 桔子2020-03-26决策树的优势是分类决策可以解释性强,速度快,分类准确率高。分类效果普遍不错,但是对异常值敏感,容易过拟合。 类似贪心算法 每次都是在当前情况下,选择最优选择,这样获得决策容易陷入局部最优和非全局最优 而且在一步步选择中,忽略了特征间的相关性 优化思路,引入随机森林:随机可以提升抗过拟合的能力,森林可以提高准确度展开共 1 条评论4
- 建强2019-09-10transform()和fit_transform()二者的功能都是对数据进行某种统一处理(比如标准化~N(0,1),将数据缩放(映射)到某个固定区间,归一化,正则化等)。 fit_transform(trainData)对部分训练数据先拟合fit,找到部分训练数据的整体指标,如均值、方差、最大值最小值等等(根据具体转换的目的),然后对训练数据进行转换transform,从而实现数据的标准化、归一化等等。 根据对之前部分训练数据进行fit的整体指标,对测试数据集使用同样的均值、方差、最大、最小值等指标进行转换transform(testData),从而保证train、test处理方式相同。展开
作者回复: 正确,总结的不错
4 - szm2019-01-28那个问如何将预测的结果写入到test.csv中的? 直接test_data['Survived'] = pred_labels就可以了。3
- mickey2019-01-25# encoding=utf-8 import pandas as pd from sklearn.feature_extraction import DictVectorizer from sklearn.tree import DecisionTreeClassifier import numpy as np from sklearn.model_selection import cross_val_score # 数据加载 train_data = pd.read_csv('./Titanic_Data/train.csv') test_data = pd.read_csv('./Titanic_Data/test.csv') # 数据探索 print(train_data.info()) print(train_data.describe()) print(train_data.describe(include=['O'])) print(train_data.head()) print(train_data.tail()) # 数据清洗 # 使用平均年龄来填充年龄中的Nan值 train_data['Age'].fillna(train_data['Age'].mean(), inplace=True) test_data['Age'].fillna(test_data['Age'].mean(),inplace=True) # 使用票价的均值填充票价中的Nan值 train_data['Fare'].fillna(train_data['Fare'].mean(), inplace=True) test_data['Fare'].fillna(test_data['Fare'].mean(),inplace=True) # 使用登录最多的港口来填充登录港口的nan值 # print(train_data['Embarked'].value_counts()) train_data['Embarked'].fillna('S', inplace=True) test_data['Embarked'].fillna('S',inplace=True) # 特征选择 features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked'] train_features = train_data[features] train_labels = train_data['Survived'] test_features = test_data[features] dvec = DictVectorizer(sparse=False) train_features = dvec.fit_transform(train_features.to_dict(orient='record')) # 构造ID3决策树 clf = DecisionTreeClassifier(criterion='entropy') # 决策树训练 clf.fit(train_features, train_labels) # 得到决策树准确率 acc_decision_tree = round(clf.score(train_features, train_labels), 6) print(u'score准确率为 %.4lf' % acc_decision_tree) # 使用K折交叉验证 统计决策树准确率 print(u'cross_val_score准确率为 %.4lf' % np.mean(cross_val_score(clf, train_features, train_labels, cv=10)))展开
作者回复: Good Job
3 - Python2019-01-25这两个函数最后得出的结果完全一样,但实际上用法有所不同。如果一定要两个一起用,那肯定是得先 fit_transforms,再transforms,不然就会报错。fit_transforms实际上是fit()和transforms()这两个函数的集合
编辑回复: 对的,如果大家刚接触sklearn,这个是需要注意的地方之一。
3 - 永降不息之雨2019-06-28自己写了一遍代码,说怎么一直报错,原来是测试集的fare有缺失啊!
作者回复: 嗯 在数据探索阶段可以打印train_data.info()和test_data.info()进行查看
2