剑客
关注科技互联网

当我们谈论数据挖掘时,究竟是在说什么?

数据挖掘(Data Mining,简称DM),顾名思义,就是指从大量的数据中挖掘出未知的且有价值的信息和知识的过程。

相较于更注重技术和算法的机器学习而言,数据挖掘更偏向于“数据”而非算法,且包括了很多数据的前期处理工作,爬取数据,数据清洗,数据整合,数据有效性检测,数据可视化(画图)等等,因此是个比较宽泛的概念。

当我们谈论数据挖掘时,究竟是在说什么?

商业上的诸多问题,例如:

如何降低用户流失率?

某个用户是否会响应本次营销活动?

如何细分现有目标市场?

如何制定交叉销售策略以提升销售额?

如何预测未来销量?

从数据挖掘的角度看,都可以转换为四大问题:分类、聚类、关联、预测。

数据挖掘四大基本问题

分类:分类问题带有预测性,简单来说就是判断一个未知数据属于哪种类别。

当我们谈论数据挖掘时,究竟是在说什么?

▲分类算法示意

聚类:根据选定的指标,对数据进行划分,算法根据“物以类聚”的原则,判断各条数据之间的相似性,相似的就将其归为一类。

聚类问题容易与分类问题混淆,主要是语言表达的原因,但两者之间有着本质的区别。分类问题是预测一个未知类别的用户属于哪个类别(相当于做单选题),而聚类问题是根据选定的指标,对一群用户进行划分(相当于做开放式的论述题),它不属于预测问题。

当我们谈论数据挖掘时,究竟是在说什么?

▲聚类算法示意

关联:基于数据识别其中潜在的相关性。

预测:采用统计学技术,例如回归、时间序列等研究目标变量与影响它的若干相关变量之间的关系。

关联中蕴藏价值

关联中蕴藏着巨大的价值,最典型的便是“啤酒-尿布”的故事,我们姑且不论该故事是否是编造而来,但隐藏在啤酒和尿布之间这种表面上并没有任何痕迹的关联,如果不通过数据挖掘技术,仅仅靠拍脑袋,是难以想出来的。

通过关联规则的挖掘,我们便可以找到数据间的相关性,从而指导实际工作。同时,通过寻找关联关系,我们又能发现其间的因果溯源。

当我们谈论数据挖掘时,究竟是在说什么?

预测指导决策

预测,是大数据算法应用中最核心的问题,绝大部分我们可以想象到的应用问题,例如:个性化推荐、精分营销、员工绩效管理、银行信用卡征信、小微企业贷款、生产线优化控制、精准广告投放和营业网点选择……等等,其本质都是预测问题。

生活中,我们比较常见的大数据预测方法有点击购买类的预测(预测一个消费者有多大可能性会点击某个广告,购买某种商品)、基于移动轨迹的位置预测(通过“签到-分享”类应用积累消费者数据从而发现商业价值)、链路预测(社交网络上的朋友推荐)等。

当我们谈论数据挖掘时,究竟是在说什么?

当确定分析问题和指标以后,通过对数据进行清洗、特征提取、模型训练、模型融合,就可以利用数据挖掘工具对数据进行较好的挖掘和分析。

国内外主流数据挖掘工具

当前,国内外主流的数据挖掘工具有RapidMiner、Weka、SAS、R、IBM SPSS Modeler、iCloudUnion、Microsoft ML Studio等。

当我们谈论数据挖掘时,究竟是在说什么?

其中,iCloudUnion作为国内率先出现的数据挖掘产品,以其轻便的B/S架构、特定领域的新算法响应、安全的多用户协作共享空间等众多优点逐步走进大众视野。

End.

来源:PPV课

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址