总结自快速机器学习算法基准测试的重要经验
技术文章 / 2017-11-30

根据KDNuggets网站的介绍,增强决策树正支撑着Kaggle机器学习挑战赛中超过半数的胜出解决方案。除了卓越的性能表现之外,这些算法亦拥有现实层面的吸引力——即最大程度降低调整需求。在今天的文章中,我们将评估两款高人气升级包:XGBoost与LightGBM,亦包括其GPU实现方案。如果您觉得文章太长而不想通读,那么我们会将对六套数据集进行测试所得出的结论总结如下: XGBoost与Light...

机器学习的最小可用产品:人工智能应用的敏捷开发
技术文章 / 2017-11-29

编者按:“范式大学”由第四范式发起,致力于成为培养工程师转型为数据科学家的“黄埔军校”。专栏专注于以人工智能解决具体商业问题。在这里你将会看到,企业如何通过可实施的方法完成 AI 转型;个人如何通过最新的科技工具,快速成为能解决问题的机器学习工程师。 本文是大数据杂谈 7 月 6 日社群公开课分享整理,也是第四范式主题月的第一堂公开课内容。 大家好,我是第四范式的联合创始人田枫,很高兴在这里和大家...

Cortana智能与机器学习博客 将人工智能引入商务智能——Azure Machine Learning中的文本分析
技术文章 / 2017-11-28

Azure Machine Learning Studio提供一款瑞士军刀般的出色工具,能够以强大且高效的方式对文本数据集进行操作。举例来说,其中的一套内置模块可应用于语言检测及文本预处理等较低级别任务,用于实现案例标准化、停止词删除、词干提取与词汇化等常见清理步骤。建立在此基础之上的则为更为完整的模块集合,能够通过散列或TF-IF等指标将预处理文本转换为N-gram,同时跳过其中的数字特征。在建...

Kafka数据可靠性深度解读
技术文章 / 2017-11-27

Kafka起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。 1 概述 Kafka与传统消息系统相比,有以下不同: 它被设计为一个分布式系统,易于向外扩展; 它同时为发布和订阅提供高吞吐量; 它...

数据可视化的艺术(The Art of Data Visualization)
技术文章 / 2017-11-27

我多次被炫目的数据可视化或信息可视化震惊,在我知道这些图片背后的数据来源和创造历程后,更是为之诧异不止。它涉足制图学、图形绘制设计、计算机视觉、数据采集、统计学、图解技术、数型结合以及动画、立体渲染、用户交互等。相关领域有影像学、视知觉。空间分析、科学建模等。 这是创造性设计美学和严谨的工程科学的卓越产物。用极美丽的形式呈现可能非常沉闷繁冗的数据,其表现和创作过程完全可以称之为艺术。所以我翻译了来...

iOS 11:人人可体验的机器学习
技术文章 / 2017-11-26

WWDC 2017向我们传达了这样的一个信号:苹果正在把机器学习带到移动设备上,并且希望开发者们能够轻松地加入到新的平台。 去年,苹果发布了Metal CNN和BNNS框架,用于创建基本的卷积神经网络。今年,Metal增加了很多新的特性,包括一个新的计算机视觉框架,以及Core ML——用于将机器学习模型集成到应用程序里。 在这篇文章里,我会分享并与你们一起体验iOS 11和macOS 10.13...

纽约时报Kafka架构实战
技术文章 / 2017-11-26

纽约时报有很多内容生成系统,我们使用第三方数据来编写故事。另外,我们有161年的新闻行业积累和21年的在线内容发布经验,所以大量的在线内容需要被搜索到,并提供给不同的服务和应用使用。 另一方面,有很多服务和应用需要访问到这些内容——搜索引擎、个性化定制服务、新闻种子生成器,以及其他各种前端应用,如网站和移动应用。一旦有新内容发布,就要在很短的时间内让这些服务访问到,而且不能有数据丢失——毕竟这些内...

基于Kafka Streams构建广告消耗预测系统
技术文章 / 2017-11-26

Pinterest 广告工程团队的宗旨是为我们的广告合作商提供最优质的服务体验,而广告超投,是我们极力要解决的问题之一。在Pinterest,我们使用了 Kafka Streams ,可以实现把广告消耗的预测数据在数秒钟的时间内发送给数千个广告投放服务。本文将会先解释什么是超投,然后分享一下我们是如何使用 Kafka Streams 构造预测系统来提供近实时的预测消耗数据、从而降低超投的。 关于超...

Kafka迎来1.0.0版本,正式告别四位数版本号
行业资讯 / 2017-11-26

Kafka从首次发布之日起,已经走过了七个年头。从最开始的大规模消息系统,发展成为功能完善的分布式流式处理平台,用于发布和订阅、存储及实时地处理大规模流数据。来自世界各地的数千家公司在使用Kafka,包括三分之一的500强公司。Kafka以稳健的步伐向前迈进,首先加入了复制功能和无边界的键值数据存储,接着推出了用于集成外部存储系统的Connect API,后又推出了为实时应用和事件驱动应用提供原生...

数据虚拟化:为AI与机器学习实现数据解锁
技术文章 / 2017-11-26

出于可靠性、准确性以及性能表现等方面的考量,AI与机器学习技术在很大程度上皆须依赖于大型设备。这是因为数据池越大,训练模型的质量也就越高。正因为如此,大数据平台才必须能够高效处理各类不同数据流与系统,且不对具体数据结构(或者缺少清晰结构)、数据速度或者数据量作出限定。 然而,这项任务实在是说来容易做来难。 如今,每一套大数据平台都面临着以下系统性挑战: 计算/存储重叠:从传统角度讲,计算与存储两类...