python机器学习-乳腺癌细胞挖掘:http://dwz.date/bweyup主录制

前言

警钟长鸣!癌症离我们远吗?《我不是药神》催人泪下,笔者在此揭露真相,癌症不是小概率疾病,癌症就在身边。癌症早期发现和控制可极大延长寿命和减少治疗费用。笔者下载美国威斯康辛临床数据,运用python sklearn建立乳腺癌分类器模型,可预测正常细胞和癌细胞。

乳腺癌

乳腺癌是威胁我国女性健康最主要的恶性肿瘤之一,根据世界卫生组织国际癌症研究机构全球184个国家和地区的癌症报告,中国女性乳腺癌的发病率和死亡率在全球中处于较低水平,但是发病人数占全球的11.19%,仅次于美国,且近20年来发病率与死亡率增长迅速,防控形势严峻。

乳腺癌位居女性恶性肿瘤发病首位

根据国家癌症中心公布的数据,2014年全国女性乳腺癌新发病例约27.89万例,占女性恶性肿瘤发病16.51%,位居女性恶性肿瘤发病第1位。

2014年中国女性前10位恶性肿瘤发病构成

其中,城市地区女性乳腺癌新发病例约18.46万,农村地区女性乳腺癌新发病例约9.43万。

中国是乳腺癌发病率增长速度最快的国家之一,并且以每年2%的速度递增,癌症负担在不断增加。在全球范围内,中国占据新诊断乳腺癌病例的12.2%,占据乳腺癌死亡的9.6%。

55岁是女性乳腺癌发病高峰

中国女性乳腺癌发病率在20岁之前处于较低的水平,此后发病率随年龄增长迅速上升,并于55岁年龄组达到高峰,而后随年龄增长下降。

城乡地区年龄别发病率曲线与全国女性乳腺癌发病情况类似,但城市地区女性乳腺癌发病水平高于农村,城市地区发病率最高出现在60岁年龄组。30~60岁年龄组城市地区女性乳腺癌发病率约为农村地区的1.5倍,65岁年龄组后达2倍以上。

一方面这可能与城市居民生活条件较好,脂肪等摄入过多,肥胖增加以及人口老龄化程度高有关;另一方面由于城市女性受教育程度较高,初产年龄较晚,未产、母乳喂养的时间减少等导致乳腺癌发病的风险更高。

女性乳腺癌死亡率随年龄增长逐渐升高2014年中国女性前10位恶性肿瘤死亡构成

同时,中国女性乳腺癌25岁后死亡率随年龄增长迅速上升,并于60岁年龄组达到高峰后略有下降,70岁年龄组后再次上升,并于85岁以上年龄组达到死亡高峰。城乡地区年龄别死亡率变化趋势与全国相似。

课程概述

Toby,持牌照金融公司担任模型验证专家,国内最大医药数据中心数据挖掘部门负责人!此课程讲述如何运用python的sklearn快速建立机器学习模型。课程结合美国威斯康辛乳腺癌细胞临床数据,实操演练,建立癌细胞预测分类器。

本视频系列通俗易懂,课程针对学生和科研机构,python爱好者。

本视频教程系列有完整python代码,观众看后可以下载实际操作。

了解癌症肿瘤基本常识,建立健康生活方式,预防癌症,减轻癌症治疗成本。

课程中十大经典机器学习算法震撼登场:逻辑回归,支持向量,KNN,神经网络,随机森林,xgboost,lightGBM,catboost。课程提供视频里讲解脚本,这些模型脚本可以应用于各个领域数据,包括金融反欺诈模型,信用评分模型,收入预测模型等等,为中小企业提供现成解决方案。

随机森林变量权重可视化

课程耗费三年时间,360度无死角的讲述整个模型开发周期,非市场上快餐教学。教程包括数据获取,数据预处理,变量筛选,模型筛选,模型评估,模型调参。

本视频系列通俗易懂,课程针对学生和科研机构,python爱好者。本视频教程系列有完整python代码,观众看后可以下载实际操作。这些模型代码可为中小型企业提供解决方案。

Anaconda+KNN+网格调参+交叉验证

目录

章节1:癌症常识

课时1警钟长鸣!癌症就在你身边11:00

课时2癌症科普介绍23:05

课时3病毒细菌诱发的癌症20:43

课时4祸从口入-致癌食物大揭秘08:37

课时5Python机器学习挖掘癌细胞概述13:11

章节2:sklearn编程环境搭建

课时6Python非官方扩展包下载地址02:21

课时7python第三方包安装(pip和conda install) 02:48

课时8Anaconda下载安装07:02

课时9Canopy下载和安装03:47

章节3:sklearn机器学习基础知识

课时10机器学习数据库介绍02:19

课时11机器学习书籍推荐02:59

课时12Python数据科学常用的包13:14

课时13如何选择模型03:57

课时14sklearn算法速查表02:29

课时15sklearn建模基础代码18:19

课时16python数据科学入门介绍(选修)55:15

章节4:获取乳腺癌临床数据

课时17数据获取-乳腺癌细胞临床数据07:06

章节5:变量筛选和描述性统计

课时18因子分析-解释癌细胞特征33:24

课时19变量筛选1-模型法11:50

课时20变量筛选2-比例法percentile07:04

课时21变量筛选3-方差法(推荐)06:36

课时22变量筛选4-KBest01:59

章节6:十大经典机器学习算法-建立乳腺癌细胞分类器

课时23逻辑回归logistic regression27:17

课时24支持向量SVM13:48

课时25KNN最近邻算法13:38

课时26决策树-decision tree21:59

课时27随机森林-random forest14:02

课时28神经网络neural network17:07

课时29xgboost12:27

课时30lightGBM03:51

课时31catboost07:08

课时32算法优劣对比10:52

课时33bagging VS boosting05:51

章节7:数据预处理

课时34pandasl数据处理基础知识15:50

课时35哑变量处理-hotcode热编码06:14

课时36imputer-缺失数据处理04:49

课时37scale-数据标准化处理12:13

章节8:模型调参

课时38遍历调参法05:15

课时39网格调参106:10

课时40网格调参204:26

课时41随机网格调参02:29

章节9:模型验证

课时42交叉验证cross validation03:45

课时43模型验证前言12:15

课时44混淆矩阵14:16

课时45ROC曲线11:57

课时46PSI(population stability index)10:20

课时47基尼系数GINI index25:16

课时48KS(kolmogorov-smirnoff)06:51

章节10:附录

课时49视频教程python脚本下载网址需购买观看

课时50显微镜下癌细胞

python机器学习生物信息学系列课(博主录制):http://dwz.date/b9vwup主录制

更多推荐

55岁自学python编程-python机器学习-乳腺癌细胞挖掘(一)