资源描述:
《乳腺癌分类器及数据样本验证(python)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、乳腺癌分类器及数据样本验证ByTobyQQ:231469242欢迎爱好者交流,并改进代码数据下载地址ucimachinelearing/breastcancer词汇:Malignancy恶性biopsy活组织检查benign良性的diagnosis诊断periodicexamination定期检查ClumpThickness肿块厚度UniformityofCellSize细胞大小的均匀性UniformityofCellShape细胞形状的均匀性MarginalAdhesion边缘粘SingleEpithelialCe
2、llSize单上皮细胞的大小BareNuclei裸核BlandChromatin乏味染色体NormalNucleoli正常核Mitoses有丝分裂背景知识isconsinBreastCancerDatabase(WBCD)January8,1991RevisedNomeber3,1994ThisisadescriptionoftheWisconsinBreastCancerDatabase,collectedbyDr.WilliamH.Wolberg,UniversityofWisconsinHospitals,Ma
3、dison.Theactualdatabaseiscontainedinanotherfile(datacum).SampleswerecollectedperiodicallyasDr.Wolbergreportedhisclinicalcases.Thedatabasethereforereflectsthischronologicalgroupingofthedata.Thesamplesconsistofvisuallyassessednuclearfeaturesoffineneedleaspirates(
4、FNAs)takenfrompatients'breasts.Eachsamplehasbeenassigneda9-dimensionalvector(attributes3to9below)byDr.Wolberg.Eachcomponentisintheinterval1to10,withvalue1correspondingtoanormalstateand10toamostabnormalstate.Attribute1issamplenumber,whileattribute2designateswhet
5、herthesampleisbenignormalignant.Malignancy恶性isdeterminedbytakingasampletissuefromthepatient'sbreastandperformingabiopsyonit.Abenign良性的diagnosis诊断isconfirmedeitherbybiopsy活组织检查orbyperiodicexamination定期检查,dependingonthepatient'schoice.Allgroupsareinthesamefile.We
6、haveseparatedthegroups感谢Wisconsin医学院的williamH.Wolberg博士提供乳腺癌数据样本。所欲数据来自真实临床案例,每个案例有9个属性这就是判断乳腺癌的9个属性(翻译非全部准确)FieldAttribute1Samplecodenumber(病人ID)2Class:2forbenign,4formalignant(恶性或良性分类)3ClumpThickness肿块厚度4UniformityofCellSize细胞大小的均匀性5UniformityofCellShape细胞形状的
7、均匀性6MarginalAdhesion边缘粘7SingleEpithelialCellSize单上皮细胞的大小8BareNuclei裸核9BlandChromatin乏味染色体10NormalNucleoli正常核11Mitoses有丝分裂数据样本示例说明:病人ID恶性或良性(2是良性,4是恶性)剩下的是9个属性(field3-11),每个属性用数字表示1000025,2,5,1,1,1,2,1,3,1,1NOTE:16pointswithmissingattributes(indicatedbya0)有16个遗失
8、的属性,会造成统计不准确,用0表示classifier分类器分类器是一种计算机程序。他的设计目标是在通过学习后,可自动将数据分到已知类别。应用在搜索引擎以及各种检索程序中。同时也大量应于数据分析与预测领域。分类器是一种机器学习程序,因此归为人工智能的范畴中。人工智能的多个领域,包括数据挖掘,专家系统,模式识别都用到此类程序。对于分类器,其实质为