实践“无代码”数据科学

2018-12-17

 

我们正在进入数据科学实践的新阶段,即“无代码”时代。 像所有重大的变化一样,这个变化还没有在实践中清晰地体现,但这个变化影响深远,发展趋势非常明显。

 

现在,每一周都会有一些自动代码行业的最新进展。创业公司的集成产品是有一些进展的,不过更多见的是基于现有分析平台供应商新添加的功能或模块。

自从自动化机器学习(AML)平台出现以来,我一直在关注它们的成长。

我在2016年春天,撰写了一篇关于它们的文章,题目是“数据科学家将被自动化机器学习平台取代并在2025年失业!”。

当然,我的预测不是绝对准确的,但在过去的两年半里,自动化功能在我们机器学习行业中的发展确实非常引人注目。

不需要人工写代码的数据科学

无代码数据科学(即不需要人工写代码的数据科学),或自动机器学习,或者可以称为简单易用的 “增强型”数据科学产品,范围包括:

  • 附带指导的平台:具有高度指导功能的建模程序平台(当然还是需要用户完成一定步骤,这样的平台有BigML,SAS,Alteryx)。经典的简易操作平台(drag-and-drop )是这一代的基础。
  • 自动机器学习(AML):全自动机器学习平台(例如DataRobot)。
  • 会话分析:在最新版本中,用户只要提出可以通过常用英语解决的问题,平台就会提供最佳答案,选择数据,特征,建模技术,甚至可能是最佳数据可视化。
不仅仅为了先进的分析

我们工具的智能扩展从预测和规范建模,已经扩展到了数据混合和数据准备领域,甚至扩展到数据视觉设计的领域。这意味着无代码智能功能可提供传统商学院的商业智能分析师(BI business analysts)使用,当然也可以为公民数据学者(又名Citizen Data Scientists)提供支持。

这种演变的市场驱动因素众所周知。在高级分析和人工智能中,核心的困难在于精英数据科学家的短缺,以及其高昂的成本和迫切的需求。在这个领域,最需要的是洞察力,效率和一致性。简而言之,就是效率高,速度快。

然而,上述工具在数据准备,混合,特征识别领域,对数据科学家来说也很重要,但是这些工具真正吸引的是有着更多数据分析师/ BI从业者的世界。在这个世界中,经典静态数据的ETL仍然是一个巨大的负担和时间的延迟,它正在从IT专家的功能迅速转向自助服务。

简易平台->写代码->回到简易平台

我在2001年开始从事数据科学研究时,SAS和SPSS是主要的工具,并且已经从他们的专有代码转向简易操作平台,这便是机器学习自动化的最早形式。

在这之后的7~8年,学术界转向R语言教学,因为虽然SAS和SPSS向学生免费开放,但是他们仍然向教师收费(尽管给学术界的折扣很大)。但是,R一直是免费的。

然后我们就到了这样一个时代,一直持续到今天。在这个时代里,成为数据科学家意味着成为程序员。用代码作业,这就是当前这一代数据科学家受到教育的方式,也是他们在数据科学实践的方式。

人们有着一个并不正确的误解:在简易操作系统平台中,不允许微小超参数的调试,而这应该被允许。如果你曾经使用过SAS Enterprise Miner或其竞争对手的平台上,那么您知道这个想法并不对,事实上,微调非常容易做到。

在我的脑海里,总需要写代码是一个不必要的弯路—这往往会让新的数据科学实践者忽视基础知识,而致力于学习另一种编程语言。

模型质量怎么样

我们倾向于将“提高模型的准确性”视为高级分析是否成功的标准。有一种观念认为,依靠自动化的无代码解决方案会丢失部分准确性。事实并非如此。

像DataRobot,Tazi.ai和OneClick.ai这样的AutoML平台不仅支持并行运行数百种模型类型,还包括超参数,而且它们还可以执行变换,特征选择甚至进行一些特征工程。在准确度上击败这样的平台是很困难的。

需要注意的是,应用特征工程领域的专业知识仍然是人类的优势。

也许更重要的是,你在开发上花费几周时间得到的结果和这些AutoML平台提供的几天甚至几小时的结果相似,那到底哪个更值?

无代码化带来更深远的影响

在我看来,无代码化的最大受益者实际上是传统数据分析师和数据学者,他们仍然最关注BI静态数据。独立的数据混合和准备平台,对这个群体(以及工作量将大大减轻的IT工作者)来说,是一个巨大的好处。

.

这些无代码化数据准备平台,例如ClearStory Data,Paxata和Trifacta正在迅速将机器学习功能纳入它们的流程,帮助用户选择合适的数据源进行数据混合,判断哪些数据项有价值,甚至它们的功能扩展到了特征工程和特征选择。

现代数据平台正在使用嵌入式机器学习技术,作为智能数据自动清洗或异常值处理的典范。

其他公司,例如Octopai公司,刚刚被Gartner评为“5大酷炫公司”之一,专注于让用户通过自动化技术快速查找可信数据,使用机器学习和模式分析来确定不同的数据要素,创建的背景数据,以及数据的预使用和转换之间的关系。

这些平台还通过强制执行权限以及保护PID和其他类似敏感数据来实现数据安全的自助服务。

甚至数据可视化技术的领导者Tableau也正在使用自然语言处理(NLP)和其他机器学习(ML)工具推出会话分析功能,允许用户以简单的英语提出查询要求,并收到最优可视化效果。

这对数据科学家而言究竟意味着什么

Gartner认为,在两年内,即到2020年前,公民数据学者(即citizen data scientist)所完成的高级分析将在数量上和价值上超越数据科学家。他们建议数据科学家专注于专业问题,并将企业级模型嵌入到应用程序中。

我不同意此想法,这似乎会使数据科学家降级去做QA和产品实施(Implementation)的工作。这不是我们的本职工作。

我的看法是,由于较小的数据科学家团队能够处理越来越多的项目,这将迅速将高级分析的使用范围扩大到更深入的项目组织层次。

在一两年之间的我们的技术已经整合了数据科学家必备的数据混合以及数据清洗功能,以及选择最适合某个项目的预测算法的能力。这正是自动无代码化数据科学工具正在取代的领域。

需要创建,监控和管理成百上千个模型的公司是这种技术最早的采用者,特别是保险和金融服务行业。

那还剩下了什么?剩下了分析优化师的高级角色。麦肯锡最近认为这是任何数据科学项目中最重要的角色。简而言之,分析优化师的工作如下:

1、引导并识别在公司业务中,在哪里数据分析可以发挥作用。

2、优化分析的流程排序。

3、在项目中,能够胜任项目经理。

4、积极采用有效优化成本效益解决方案。

换句话说,将业务问题转化为数据科学项目,并引导优化各种类型的风险和成果,使这些项目优先化。

那所谓的人工智能呢?

是的,我们最近在图像,文本和语音处理中使用卷积神经网络(CNNs)和递归神经网络(RNNs)的最新进展中,也正在促进迅速推广自动化无代码化的解决方案。它们发展的速度还不够快,是因为缺少具有深度学习技能的数据科学家,这个问题比普通的数据科学行业还要严重。

微软和谷歌都在去年推出了自动深度学习平台。这些平台从迁移学习起步,正朝向完整的AutoDL平台进发。详细请参阅微软 Custom Vision Services和Google的类似条目Cloud AutoML。

还有一些研究集成AutoDL平台的初创公司。我们今年早些时候关注了OneClick.AI。它们包括了完整的AutoML和AutoDL平台。 Gartner最近提名DimensionalMechanics称其拥有AutoDL平台的“5大炫酷公司”之一。

曾经有一段时间,我试图持续更新和整合无代码化AutoML和AutoDL的供应商列表,并提供有关其功能的更新。但因为该行业的快速发展,使得这个整合的工作量急速上升。

我希望Gartner或其他一些团队能够继续全面的对这个领域进行关注。在2017年,Gartner做了一个相当详细的报告,名为“未来数据和分析的深度分析技术”。这是一个非常棒的供应商总结报告,虽然有一些我留意的供应商并没有被囊括其中。

报告链接

https://www.gartner.com/doc/3773164/augmented-analytics-future-data-analytics

据我所知,当前没有全面整合所有完全自动化或基本全自动化功能平台供应商的统计表格。然而,Gartner的报告中,你可以看到,从IBM和SAS这些大企业,到小型的初创公司都在提供类似服务。

关于作者:Bill Vorhies是Data Science Central的编辑总监,自2001年以来一直从事数据科学工作。

原文链接

没有评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注