CCDM 竞赛回顾与总结

23
CCDM 竞竞竞竞竞竞竞 陈陈陈 2014/03/26

description

CCDM 竞赛回顾与总结. 陈文强 2014/03/26. 1. 2. 3. 目录. 第一页. 比赛基本介绍. 多标记分类任务. 多分类任务. 比赛基本介绍. 第二页. 主办单位:中国计算机学会 & 中国人工智能学会. 协办单位:中国计算机学会模式识别与人工智能专委会 中国人工智能学会机器学习专委会. 指导专家:周志华等. 评审专家: 郭茂祖 、朱军等. 比赛基本介绍. 第三页. 竞赛时间: 2014/01/05 —— 2014/03/15. 数 据 集:医学诊断数据. - PowerPoint PPT Presentation

Transcript of CCDM 竞赛回顾与总结

Page 1: CCDM 竞赛回顾与总结

CCDM竞赛回顾与总结陈文强2014/03/26

Page 2: CCDM 竞赛回顾与总结

目录第一页

1

3

比赛基本介绍

多标记分类任务

多分类任务

Page 3: CCDM 竞赛回顾与总结

比赛基本介绍第二页

主办单位:中国计算机学会 & 中国人工智能学会

协办单位:中国计算机学会模式识别与人工智能专委会 中国人工智能学会机器学习专委会指导专家:周志华等

评审专家:郭茂祖、朱军等

Page 4: CCDM 竞赛回顾与总结

比赛基本介绍第三页

竞赛时间: 2014/01/05 —— 2014/03/15

数 据 集:医学诊断数据

比赛任务: Task1 多标记 Task2 多分类

Page 5: CCDM 竞赛回顾与总结

比赛基本介绍第四页

目 标 : 前三名

02/1302/20

02/2102/28

02/2903/05

03/0603/12

03/1303/15

jikicaxiJHHTxmu_dmlabCUG_Miners

jikicaxiJHHTFZU_BRRFCUG_MinersYurixmu_dmlab

xmu_dmlabjikicaxiJHHTCUG_MinersYuri

JHHTxmu_dmlabJikicaxiYuri

xmu_dmlabJHHTjikicaxi

排名123456

Page 6: CCDM 竞赛回顾与总结

目录第五页

1

3

比赛基本介绍

多标记分类任务

多分类任务

Page 7: CCDM 竞赛回顾与总结

多标记分类任务第六页

Dataset Domain Instances Features Labels

Multi-label Medical 904 129 12

数据集概况和人员

Page 8: CCDM 竞赛回顾与总结

多标记分类任务第七页

特征分布:稀疏

数据集分析

Page 9: CCDM 竞赛回顾与总结

多标记分类任务第八页

相关标记分布

数据集分析

Page 10: CCDM 竞赛回顾与总结

多标记分类任务第九页

Average Precision

评价指标

1 0 0 1

0.87 0.33 0.26 0.67

Bipartition: a bipartition of the labels into relevant and irrelevant

Confidences: the probability of each label being positive

Ranking: the rank of each label, ranging from 1 to array length

4 2 1 3

Page 11: CCDM 竞赛回顾与总结

多标记分类任务第十页

解决思路

Classifier Pool

FeaturePool

C1 C2 CK…

Ensemble

Predictions

Page 12: CCDM 竞赛回顾与总结

多标记分类任务第十一页

解决思路

Classifier Pool

FeaturePool

RAkEL HOMER MLkNN…

Ensemble

Predictions

GainRatio

Page 13: CCDM 竞赛回顾与总结

多标记分类任务第十二页

解决思路

GainRatioAttributeEval Top 120

Tsoumakas G, Katakis I, Vlahavas I. Mining multi-label data[M]//Data mining and knowledge discovery handbook. Springer US, 2010: 667-685.

Page 14: CCDM 竞赛回顾与总结

目录第十三页

1

3

4

比赛基本介绍

多标记分类任务

多分类任务

总结

Page 15: CCDM 竞赛回顾与总结

多分类任务第十四页

Dataset Domain Instances Features Classes

Multi-Class Medical 5031 410 3

数据集概况和人员

Page 16: CCDM 竞赛回顾与总结

多分类任务第十五页

特征:nominal&numeric

数据集分析

PCA:Retain 95% variance.

Page 17: CCDM 竞赛回顾与总结

多分类任务第十六页

样本分布

数据集分析

Page 18: CCDM 竞赛回顾与总结

多分类任务第十七页

F1 Score

评价指标

TP

相关 不相关

检索到

未检索到

Precision =

FPTP

TP

FPTP

TP

FPTP

TP

Recall = FNTP

TP

F1-Score = ecisioncall

ecisioncall

PrRe

PrRe2

Page 19: CCDM 竞赛回顾与总结

多分类任务第十八页

解决思路

Classifier Pool

FeaturePool

C1 C2 CK…

Ensemble

PredictionsPCA

GainRatio

L1

RBM

MID/MIQ

Scale

LRSVMs

DT

RFBagging

AdaBoost

Cost-Sensitive

GBDT

Page 20: CCDM 竞赛回顾与总结

多分类任务第十九页

解决思路

Page 21: CCDM 竞赛回顾与总结

多分类任务第二十页

解决思路

Tsoumakas G, Katakis I, Vlahavas I. Mining multi-label data[M]//Data mining and knowledge discovery handbook. Springer US, 2010: 667-685.

Page 22: CCDM 竞赛回顾与总结

第二十三页

Page 23: CCDM 竞赛回顾与总结

再次感谢老师指导和关心以及同学们的努力

邹权副教授 林琛副教授

陈伟程 ( 研三 )陈文强 ( 研三 ) 胡始昌 ( 研三 ) 唐振坤 ( 研三 ) 宋莉 ( 本科 )曾建沧 ( 本科 )赵雪薇 ( 本科 )