剑客
关注科技互联网

异常值的处理只有删除?

异常值的出现在实际数据分析中经常会碰到。大家往往以为异常值最简单的方式就是直接删除。

其实不然!

针对异常点的处理,有一类方法叫稳健回归。稳健回归的主要目的是检测异常点,并在异常点的情况下给出模型的稳健估计。

稳健回归

其基本思想是对不同数据点给予不同的权重,残差小的点给予较大权重,残差大的点给予较小的权重,也就是异常点的权重较小,以此来减少异常点对模型的影响。

关于稳健回归的估计方法有M估计、LTS(least trimmed squares)估计、S估计和MM估计。

1、 M估计是Huber于1973年提出,是目前处理异常点问题最常用的估计方法,但是该法在存在高杠杆点时估计效果不佳。

2、 LTS估计是有Rousseeuw于1984年提出,可用于处理高杠杆值问题。

3、 S估计由Rousseeuw和Yashi于1984年提出,该法具有比LTS估计更高的统计效率

4、 MM估计由Yashi于1987年提出,是对S估计的进一步发展,它将M估计与LTS估计/S估计结合起来,综合上述方法的优点。

那怎样在软件中实现呢?

本期介绍两种实现稳健回归的软件,一个是SAS软件,如果你觉得编程困难,那跳过看下一个实现软件。。。

一、SAS实现

稳健回归的SAS程序主要通过PROC robustreg过程实现,语句为:

Proc robustreg <选项>;

Model 因变量=自变量</选项>;

RUN;

1. Proc robustreg命令常用的选项

method=    指定稳健估计的方法,可选的有M、LTS、S、MM四种,默认的是method=M

2. Model语句常用的选项

diagnostics 进行异常点诊断

leverage   检测并列出杠杆点

二、DPS数据处理系统(菜单操作、功能强大,推荐尝试一下)

操作界面如下:

异常值的处理只有删除?

异常点的处理经常困扰大家。

本期浅浅而谈,给大家介绍了一种更加科学、保留更多数据信息的稳健回归方法,让大家对其有个印象。

若今后再遇到异常值处理的情况,至少能够想到有该种方法,而不仅仅是删除异常点。统计思路很重要哦。

End.

作者:康哥用统计 (中国统计网特邀认证作者)

本文为中国统计网原创文章,需要转载请联系中国统计网(info@itongji.cn),转载时请注明作者及出处,并保留本文链接。

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址