驱动精灵官方-玩客游戏浏览器

iris5
2023年4月6日发(作者:win7 sp1 32 补丁)

Iris数据集

数据是机器学习模型的原材料,当下机器学习的热潮离不开⼤数据的⽀撑。在机器学习领域,有⼤量的公开数据集可以使⽤,从⼏百个样本到⼏⼗万个

样本的数据集都有。有些数据集被⽤来教学,有些被当做机器学习模型性能测试的标准(例如ImageNet图⽚数据集以及相关的图像分类⽐赛)。这些⾼

质量的公开数据集为我们学习和研究机器学习算法提供了极⼤的便利,类似于模式⽣物对于⽣物学实验的价值。

Iris数据集概况

IrisDataSet(鸢尾属植物数据集)是我现在接触到的历史最悠久的数据集,它⾸次出现在著名的英国统计学家和⽣物学家1936年的论⽂《Theuseof

multiplemeasurementsintaxonomicproblems》中,被⽤来介绍线性判别式分析。在这个数据集中,包括了三类不同的鸢尾属植物:IrisSetosa,Iris

Versicolour,IrisVirginica。每类收集了50个样本,因此这个数据集⼀共包含了150个样本。

特征

该数据集测量了所有150个样本的4个特征,分别是:

ength(花萼长度)

idth(花萼宽度)

ength(花瓣长度)

idth(花瓣宽度)

以上四个特征的单位都是厘⽶(cm)。

通常使⽤mm表⽰样本量的⼤⼩,nn表⽰每个样本所具有的特征数。因此在该数据集中,m=150,n=4m=150,n=4

数据集的获取

该数据集被⼴泛⽤于分类算法的⽰例中,很多机器学习相关的数据都对这个数据集进⾏了介绍,因此可以获得的途径应该也会很多。

下⾯是该数据集存放的原始位置,该位置好像已经⽆法下载了,但是收集了使⽤该数据集的论⽂列表可供参考:

另⼀个⽐较⽅便的获取⽅式是,直接利⽤Python中的机器学习包scikit-learn直接导⼊该数据集,可参考,下⾯是具体的操作:

tsimportload_iris

2data=load_iris()

3print(dir(data))#查看data所具有的属性或⽅法

4print()#查看数据集的简介

5

6

7importpandasaspd

8#直接读到pandas的数据框中

ame(data=,columns=e_names)

下⾯是第3⾏和第4⾏的输出:

['DESCR','data','feature_names','target','target_names']

IrisPlantsDatabase

====================

Notes

-----

DataSetCharacteristics:

:NumberofInstances:150(50ineachofthreeclasses)

:NumberofAttributes:4numeric,predictiveattributesandtheclass

:AttributeInformation:

-sepallengthincm

-sepalwidthincm

-petallengthincm

-petalwidthincm

-class:

-Iris-Setosa

-Iris-Versicolour

-Iris-Virginica

:SummaryStatistics:

======================================================

MinMaxMeanSDClassCorrelation

======================================================

sepallength:4.37.95.840.830.7826

sepalwidth:2.04.43.050.43-0.4194

petallength:1.06.93.761.760.9490(high!)

petalwidth:0.12.51.200.760.9565(high!)

======================================================

:MissingAttributeValues:None

:ClassDistribution:33.3%foreachof3classes.

:Creator:

:Donor:MichaelMarshall(MARSHALL%PLU@)

:Date:July,1988

ThisisacopyofUCIMLirisdatasets.

/ml/datasets/Iris

ThefamousIrisdatabase,r

Thisisperhapsthebestknowndatabasetobefoundinthe

'spaperisaclassicinthefieldand

isreferencedfrequentlytothisday.(SeeDuda&Hart,forexample.)The

datasetcontains3classesof50instanceseach,whereeachclassreferstoa

ssislinearlyseparablefromtheother2;the

latterareNOTlinearlyseparablefromeachother.

References

----------

...

数据的可视化展⽰

将数据⽤图像的形式展⽰出来,可以对该数据集有⼀个直观的整体印象。下⾯利⽤该数据集4个特征中的后两个,即花瓣的长度和宽度,来展⽰所有的样

本点。

asplt

('ggplot')

3

4

5X=#只包括样本的特征,150x4

6y=#样本的类型,[0,1,2]

7features=e_names#4个特征的名称

8targets=_names#3类鸢尾花的名称,跟y中的3个数字对应

9

(figsize=(10,4))

(X[:,2][y==0],X[:,3][y==0],'bs',label=targets[0])

(X[:,2][y==1],X[:,3][y==1],'kx',label=targets[1])

(X[:,2][y==2],X[:,3][y==2],'ro',label=targets[2])

(features[2])

(features[3])

('IrisDataSet')

()

g('',dpi=200)

()

利⽤上⾯的代码画出来的图如下:

Reference

更多推荐

iris5