当前位置:首页 > 中文 > 中心动态

中国人民大学吴喜之教授短期课程的通知

发布时间:2018-10-28


时  间:

2018年10月29日(星期一)上午9:00-12:00

2018年10月31日(星期三)下午3:00-5:00

地  点:弘远楼408会议室



教师简介:

吴喜之: 中国人民大学教授, 本科毕业于北京大学数学力学系, 获美国北卡罗来纳大学统计博士. 曾于国内外二十多所大学任教, 教学及科研涉及几乎所有统计方向。在文革结束前曾经在不通公路没有电力的最高学府为小学的甘孜藏族自治州得荣县工作过6年。曾经干过北方、南方及藏族地区的大部分农活。没有担任过任何行政职务。

课程名称:

机器学习中的有监督学习及任何感兴趣的内容,包括R和python

短期课涉及的主要内容:

本课程包含数据科学的基本概念:问题、数据和模型的关系,以及机器学习的回归与分类,具体包括决策树、随机森林、Adaboost、bagging、logistic回归、神经网络、支持向量机、KNN、Naïve Bayes这些方法构建的原理和参数估计,并用估计的模型做预测。尝试多个不同的模型,对预测的结果用一些评价指标描述预测精度。


1、有指导的学习:分类

课程主要内容包括决策树、随机森林、Adaboost、logistic回归等机器学习分类方法,详细介绍算法的构建、分类的原理和用交叉验证方法比较不同分类方法精度。对相关程序包的使用,并用代码做具体展示。用ROC曲线、AUC等评价指标描述分类结果精确度。


2、有指导的学习:回归

在回归中响应变量和协变量、误差的关系是未知的,而适用最普遍的最小二乘回归假设误差是可加的、响应变量是协变量的线性函数。并且对估计系数的检验只有在误差是正态分布时才有意义,把系数解释为“在其他变量不变时,一个变量系数为该变量增加一个单位对因变量的贡献”,这在有多重共线性时完全错误。本课程介绍数据驱动的回归方法:决策树、随机森林、bagging回归拟合数据,利用测试集的可决系数,标准化均方误差比较不同模型预测精度。


3、神经网络、支持向量机、KNN、Naïve Bayes

本课程内容主要包括机器学习中经典的回归和分类方法,神经网络、支持向量机、KNN、Naïve Bayes的参数估计和新的观测值的预测。对预测结果进行评价,并当实际例子中自变量个数很多时详述算法的应用。