剑客
关注科技互联网

如何成为一名卓越的数据科学家 ——七剑之一:问题定义

关于作者:

杨滔,桃树科技(TaoData)创始人,专注于下一代人工智能产品的研发、应用与商业化。拥有超过十年机器学习研究与应用经验。奥克兰大学机器学习博士,悉尼科技大学博士后。曾任阿里巴巴集团数据科学家,建立淘宝网数据科学团队,首创聚划算爆款模型。曾任F团首席科学家,建立F团数据化运营体系。

并非所有问题都可以用数据解决,数据也并非解决所有问题的万能钥匙。

找到合适的问题,并 将问题转化为适合用数据解决的问题 ,是数据科学家工作的第一步。

许多问题看上去并不能用数据解决,但经过数据科学家的破解,数据和算法便可以为这些问题创造价值。也有许多问题看似是数据问题,但实际上数据起到的作用却是微乎其微的。

大数据到底能解决什么问题?

一般来讲,适合用数据解决的问题有以下五个特点:

问题有明确、可量化的目标

机器与人的思维是截然不同的。在机器的每一次决策中,必须存在且只能存在一个目标,并且这个目标是可以量化的。陀思妥耶夫斯基说,“一个人不能同时追逐两只兔子”。实际上,不能同时追逐两只兔子的是机器,而人每一次决策永远存在多重目标,只不过有的目标显得格外重要罢了。

人的思维是一个网状思维,而机器所拥有的却是线性思维。数据科学家需要打通这两种思维,让机器理解人的思维并从数据中学习如何解决人提出的问题。

人与机器各有所长。人擅长定义目标,机器则善于基于定义好的目标24小时不间断地持续学习。大部分被成功应用的数据模型都需要人来定义一个 可以量化的目标 ,而这目标正是机器学习算法学习的对象。

如果我们告诉机器,“请找到淘宝网上最好的商品”,机器一定不能满足我们的要求,因为机器并不知道什么叫做“好”,好的标准是需要人来定义的。

但是,数据科学家可以告诉机器,通过数据为每个用户找到他们最有可能购买的商品。商品是否被用户购买,是一个清晰且可以量化的目标,机器基于这个目标找到合适的商品。

当数据科学家告诉机器,通过数据为每个用户找到他们最有可能点击到商品详情页的商品,机器同样可以基于这个目标找到不同的商品。 在两个不同的目标下,机器为用户找到的商品是完全不同的, 一个模型侧重满足用户有明确意向的购物需求,而另外一个模型侧重满足用户逛的需求。

许多时候,数据科学家解决一个商业问题需要定义多个目标,每个目标对应一个模型,而最终的数据科学解决方案由多个模型组成。

例如,设计一个电商搜索引擎,需要从不同的角度考虑什么是一个合理的流量分配机制。如果电商搜索的目标仅仅是提高成交转化率,那么这可能会导致搜索所浮现的商品高度同质化。

优化一个电商搜索引擎不仅需要关注成交转化率,同时需要关注浏览转化率、类目丰富度、消费者满意度、新品成交比例、作弊比例等多种因素。

由于机器仅仅能解决单一目标的问题,一个优秀的数据科学家的价值体现在充分理解问题背后的业务背景,站在业务角度提炼明确、可量化的目标,让机器可以在不同目标下从数据中学习,最终完成数据科学的完整解决方案。

可以收集到丰富全面的数据样本

当机器有了清晰的目标之后,它需要足够全面的数据样本才能学习到数据中存在的规律。请注意,数据不一定是越多越好,但是数据一定是越全面越好。百岁山矿泉水喝得次数再多,也不会有可口可乐的味道。许多相似样本出现次数再多,也无法帮助机器获得更多知识。

当数据样本可以覆盖问题的不同侧面时,机器便可以更加完整地从数据中学习到规律。一个人如果只见过白色的天鹅,他自然会认为天鹅全是白色的,黑天鹅便是他决策的盲点。在这一点上,机器与人并无区别。

许多时候,数据科学家在开始实施一个项目之前,需要判断描述问题的样本是否足够全面,问题的不同侧面是否都有足够的样本描述。并且,数据科学家往往需要调整不同类别样本的比例,以保证机器学习算法可以充分理解问题。

在信用风险评估模型中,正常客户的样本一般都会远大于逾期还款客户的样本。如果数据科学家直接把这个数据喂给机器,机器往往会盲目乐观,认为大部分客户都不会逾期还款。在统计学中,只有数据中不同类别的样本相对均匀时,统计推断才是合理的。

当数据中两个类别的样本高度不均衡的时候,机器学习算法从小类别中学习到的信息往往严重少于它从大类别中学到的信息。尤其,逾期还款客户之所以逾期的原因是多种多样的,当这个类别样本量相对不足时,算法很难充分挖掘不同类型逾期还款的信息。

在这种情况下,数据科学家需要重新调整正常客户和逾期还款客户的比例,例如模拟逾期还款客户的样本并从正常客户样本中进行筛选,使得两个类别的样本近似均衡。基于数据科学家处理过的数据,机器学习算法才可以充分从数据样本中识别完整规律。

如果没有大量的围棋比赛数据样本输入给AlphaGo, 纵使AlphaGo使用的算法再高超,也难以胜过李世石。在癌症数据分析中,癌症病人的数据样本是非常稀缺的,而癌症诊断模型是否有效往往取决于患者样本的大小。并且,不同人群的数据样本往往存着巨大的差异,从一个人群的数据样本中得到的结论不一定适用于另一个人群的诊断。

在医学领域,数据科学家往往仅能获得有限的样本数据。在这种情况下,机器学习算法使用的数据变量越多,模型的效果往往越不好。

这就是机器学习中的“维度咒诅问题”——模型使用数据变量个数要随着样本量的增加而增加,不然模型会“过拟合”(即从有限的数据中过度学习从而得到错误推断)。

数据样本的丰富度决定了机器学习的能力。这就是为什么机器不善于创新—— 机器学习算法很难成功解决一个全新的问题。 在新问题中,即使问题目标被定义清晰,数据科学家也很难为机器准备出足够丰富的样本来描述问题。

为了增强机器学习能力,数据科学家有时需要设计“人工标注”任务,让人对数据进行标注从而获得足够的样本。如果人工标注任务设计合理,不仅企业的业务人员,用户也可以参与到人工标注中。例如,用户在产品中的点赞或者收藏行为,其实都是一种数据样本标注行为。

数据收集和数据建模不是两个割裂的步骤,卓越的数据科学家善于设计数据收集机制,让数据模型的使用者一起参与到数据的收集中,让数据收集步骤动态内嵌于数据科学的整个流程中。

描述问题的核心特征可以被数据化

让机器学习技术发挥它的威力,不仅需要一个清晰的目标和丰富的数据样本,也需要描述问题的核心特征可以被数据化。机器学习算法的原理是利用统计模型从数据样本中学习描述问题的特征和目标之间的映射关系。

如果描述问题的特征不能被数据化,机器学习算法便无法学习到这个映射关系。

数据科学家需要用数据分解问题的核心特征,从而让算法来从数据中寻找规律。并且,数据科学家不仅需要判断问题是否可以被数据化,同时需要在数据收集的环节设计特征抽取算法。

在以后的数据科学七剑的第二剑“数据准备”中,我会详细描述数据科学家应该如何收集和准备数据。(数据科学的七剑都是什么?请参见杨滔所著的“如何成为一名卓越的数据科学家——开篇七剑”,详见公众号:桃树科技)

虽然我们身处大数据时代,但并不是所有事物都能被数据化,至少许多事物非常难被数据化。只有当一个事物被充分浸泡在数据空间时,机器学习技术才可以基于数据从中捕获规律。例如,判断一个项目是否值得被投资是很难纯粹依靠数据来决策的,因为影响投资决策的许多因素是不能被数据化的。

同理,人脸识别技术可以精准识别人脸,但人的气质则很难靠机器来分辨,因为气质是很难被数据化的。在图像识别和语音识别等领域,算法往往可以比较直接地发挥作用,这是因为图像和语音特征可以完全被数据化。

在量化交易领域,数据和算法也是可以发挥巨大价值的,这是因为判断股票需要的核心因素大部分都可以被数据化。虽然金融市场不一定存在恒定规律,但机器持续不间断的学习往往可以及时捕捉到局部规律,从而帮助人更好的决策。

然而值得注意的是,在一些复杂决策的问题中,即使问题可以被充分数据化,数据科学家仍需要像侦探一样,将描述问题的 关键特征 勾勒出来。

在这些问题中,寻找描述问题的关键特征的起点往往是行业经验。人们常以为行业规则和数据建模是对立的。实际上, 经验规则正是机器学习的起点。 一个领域如果完全没有经验的积累,机器学习技术的启动往往也非常困难。数据科学家需要善于从经验中提炼基础数据,并找到从基础数据生成更多经验规则的方法。

有许多问题,从表面看描述问题的关键特征已经存在,但实际上关键特征却是缺失的。例如,在银行的小微企业线下信贷业务中,判断小微企业信用风险的核心数据往往需要线下实地收集。数据科学家需要设计问卷收集数据,并借助算法来判断什么数据是关键数据。

在现场调查中,信贷员往往需要收集以下数据:商家在调研当时有多少现金、调研时商家厂房用电量、商家家庭状况和对贷款态度、调研时商家的货物库存状况。如果这些关键数据不能获取,基于有限数据的机器学习结果会给人误导。

数据科学家是一个特殊的职业,要成为一名卓越的数据科学家绝非易事。数据科学家一方面需要 深入理解数据和算法技术 ,一方面又要 深入理解行业和企业特性

通过大量的实战经验,数据科学家可以积累数据判断力——什么是影响行业应用中的关键特征,描述这个问题的关键特征是否足够。

人工成本高

数据科学家和战略家最大的区别是,数据科学家找到适合机器解决的问题,而战略家找到适合人解决的问题。从商业的原则来思考,一个问题之所以需要交给机器去解决,主要是因为人工成本比机器执行成本高。

目前可以广泛应用的机器学习技术,其本质就是延续人的智慧,从而提升解决问题的效率。在单独一个问题上,机器是很难比人更加聪明的。如果解决一个问题所涉及的人工成本并不高,人其实并不那么需要机器学习技术。

机器学习技术的效率提升主要源于分布式架构。机器学习算法的最新进展,不仅源于海量数据的方便获取,也源于分布式系统的进步。基于分布式架构的机器学习算法技术,是人工智能大规模应用的基础。

当数以万台机器被链接在一起,机器学习的效率得到了质的提升。与李世石对弈的AlphaGo,背后是无数台具备学习能力且可以链接智慧的机器。

搜索是一个数据可以充分发挥价值的应用,因为没有运营人员可以满足每个用户的每个关键字搜索需求,因此搜索必须靠机器解决,尽管机器解决得不一定那么完美。个性化推荐也是数据可以发挥优势的应用,因为没有企业可以负担让客户经理去照顾每个客户个性化需求的人工成本。

同理,量化交易也是数据科学可以创造价值的领域之一,没有任何交易员可以24小时关注大量信息,而且这些信息可能包括许许多多曲线和大量资讯。当数据科学家设定好交易目标,并获取充足的样本和数据变量后,机器便可以极低的成本不停运转计算。

在医学领域,真正为大众带来创新价值的数据挖掘不一定是寻找灵丹妙药,而是以更高的频率关注人身体的健康与疾病信息。如果关键信息可以通过机器学习算法被提前发现,许多疾病便可以在更早期被干预治疗,甚至是完全避免。

许多人工智能技术是完美的科研项目,但由于它所解决的问题的人工成本并不高,所以并不适合被大规模商业化。许多在商业上被成功应用的机器学习技术,其本质都是通过提升企业运营效率来为企业创造利润或者其他竞争优势。

典型的成功案例有机器学习技术在Google成功提升搜索广告匹配到目标客户的效率,在PayPal成功提高了金融欺诈检测的效率。

存在合适的应用场景

如果一个问题有明确的目标,并且存在丰富的数据样本和特征,机器学习技术往往可以产出满意的效果。但是,这个问题是否可以被数据解决,不仅需要计算人工成本高低,同时需要存在一个适合数据解决的应用场景。

“合适的应用场景”是机器学习技术可以大规模应用的最后一个环节,但也是影响数据是否可以创造价值的关键因素。判断和寻找合适的数据应用场景,需要数据科学家深入理解数据所服务的 行业应用产品特性

数据科学家往往需要深入理解行业,判断在不同行业中什么应用场景是最适合用数据解决的问题。 例如,互联网行业的核心是流量,因此试图优化流量分配机制的排序算法在互联网行业中价值巨大;而金融行业的核心是风险管理,因此起到基础作用的金融模型一直围绕着风控。受行业特性影响,互联网排序算法尤其强调计算效率,但信用风险评估模型对计算效率要求并不高,反而对模型的可解释性和稳定性却有很高的要求。

数据科学家需要理解数据嵌入的产品最终为谁服务,数据是否提升产品服务的附加值。一个准确猜中用户需求的产品推荐算法是否可以被大规模应用,取决于产品推荐的结果出现在哪个场景。如果这个产品推荐的结果出现在购物车中,用户可能会发现惊喜;但如果这个推荐结果出现在搜索引擎旁边,用户可能完全无视推荐结果。

一个贷款审批模型可能可以精准预测客户的信用风险,但是如果信贷业务的客户经理主观上并不希望其审批权力被取代,则再准确的信用风控模型也不会发挥任何实际价值。

数据科学家不仅需要选择适合数据发挥价值的场景,也需要 主动为机器学习技术设计场景。 在这个场景中,机器学习技术与行业应用中的核心痛点和产品服务对象的兴趣是高度匹配的。只有在这种匹配下,数据和算法的价值才可以被最大化。

大数据和机器学习技术并不是万能的,它是否可以被成功应用取决于许多先决条件。数据科学家需要非常小心地关注这些条件,并且主动创造适合让数据与算法发挥价值的条件,从而释放大数据的价值。

只有当数据科学家充分理解需要解决的问题,选择合适的问题,并将问题转化为适合数据解决的问题时,海量数据与复杂算法才能被成功应用。

虽然数据原材料和机器学习算法技术在不同行业中拥有很强的普适性,但是数据科学解决方案确是定制化的。数据科学家的职责既不是向企业兜售软件系统,也不是帮助企业去收集数据材料。

数据科学家的职责是通过向企业提供数据科学解决方案,并通过“问题定义-数据收集-算法调优-知识发现-效果分析-线上部署-模型更新”的闭环体系让计算机系统大幅度提升企业的运营效率。这个完整的数据科学工作流,也就是我们所说的 数据科学七剑。

如何成为一名卓越的数据科学家 ——七剑之一:问题定义

今天先砍完“问题定义”这第一剑。以后依然是想到哪,砍到哪。

End.

作者:杨滔_桃树科技(中国统计网特邀认证作者)

本文为中国统计网原创文章,需要转载请联系中国统计网(info@itongji.cn ),转载时请注明作者及出处,并保留本文链接。

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址