后台程序员转算法的参考秘籍:大规模机器学习框架的四重境界
技术文章 / 2017-11-08

如何利用相对廉价的机器搭建分布式超大规模机器学习集群是一件非常复杂的事情,对工程和算法都有极高的要求,从Spark到李沐的通用参数服务器,业界对此都进行过哪些尝试?本文尝试梳理一下这方面的历史和当前最佳实践。 1. 背景 自从 google 发表著名的 GFS、MapReduce、BigTable 三篇 paper 以后,互联网正式迎来了大数据时代。大数据的显著特点是大,哪里都大的大。本篇主要针对…

在生产环境使用Kafka构建和部署大规模机器学习
技术文章 / 2017-11-08

作者 Kai Waehner ,译者 薛命灯 发布于 2017年11月8日 智能实时应用为所有行业带来了革命性变化。机器学习及其分支深度学习正蓬勃发展,因为机器学习让计算机能够在无人指引的情况下挖掘深藏的洞见。这种能力正是多种领域所需要的,如非结构化数据分析、图像识别、语音识别和智能决策,这完全不同于传统的编程方式(如Java、.NET或Python)。 机器学习并非新生事物,大数据集的出现和处理…

哪些业务场景可以用到机器学习
技术文章 / 2017-11-06

人工智能(AI)如今再次成为热门话题,各行各业都在考虑如何将人工智能融合进来。AI究竟能为我们做什么?这个问题的想象空间巨大,但是回答起来却不是那么容易。下图中列举了部分使用机器学习对数据进行价值挖掘的场景,究竟算不算得上AI,还请各位读者去判断。  

21大领域,128篇论文,深度学习资源汇集
技术文章 / 2017-10-20

摘要:从全局到枝干、从经典到前沿、从理论到应用、还有最新的研究…,所有你不需要的需要的,现在不需要的未来需要的,你不需要的周边小伙伴需要的…反正全都在这了。对于大多数想上手深度学习的小伙… 从全局到枝干、从经典到前沿、从理论到应用、还有最新的研究…,所有你不需要的需要的,现在不需要的未来需要的,你不需要的周边小伙伴需要的…反正全都在这了。 对于大多数想上手深度学习的小伙伴来说,“我应当…

大规模大数据的有效利用,阿里巴巴参数服务器设计理念与实践
技术文章 / 2017-10-18

当今我们正处于一个大数据时代,Google每天产生30亿查询、300亿Served广告、30万亿indexed网页;FaceBook目前全球超过14亿用户,每天分享43亿内容;推特每天产生4.3万亿Tweets;Apple Store每天App下载量达到1亿左右。国内的互联网公司,阿里巴巴一年产生86亿包裹,平均每天2356万个;蚂蚁金服/支付宝在2015年双十一当天共产生7.1亿笔支付。 这么多…

腾讯大数据宣布开源第三代高性能计算平台Angel:支持十亿维度
技术文章 / 2017-10-17

12月18日,深圳 – 腾讯大数据宣布推出面向机器学习的第三代高性能计算平台——Angel,并预计于2017年一季度开放其源代码,鼓励业界工程师、学者和技术人员大规模学习使用,激发机器学习领域的更多创新应用与良好生态发展。 InfoQ采访了腾讯大数据负责人蒋杰,本文根据采访稿件以及姚星和蒋杰在腾讯大数据技术峰会暨 KDD China 技术峰会上的演讲内容整理而来。 研发背景 腾讯公司是…

轻量级大规模机器学习算法库Fregata开源:快速,无需调参
技术文章 / 2017-10-14

一. 大规模机器学习的挑战 随着互联网,移动互联网的兴起,可以获取的数据变得越来越多,也越来越丰富。数据资源的丰富,给机器学习带来了越来越多,越来越大创造价值的机会。 机器学习在计算广告,推荐系统这些价值上千亿美元的应用中起到的作用越来越大,创造的价值也越来越大。但是越来越大的数据规模也给机器学习带来了很多挑战。 最大的挑战就是庞大的数据量使得对计算资源的需求也急剧增长。首先经典的机器学习算法其计…

如何通过TensorFlow实现深度学习算法并运用到企业实践中
技术文章 / 2017-10-11

本文根据才云科技首席大数据科学家郑泽宇在QCon2016全球软件开发大会(上海站)上的演讲整理而成,希望大家可以了解如何通过TensorFlow实现深度学习算法,并将深度学习运用到企业实践中。 讲师介绍 郑泽宇,谷歌高级工程师。从 2013 年加入谷歌至今,郑泽宇作为主要技术人员参与并领导了多个大数据项目,拥有丰富机器学习、数据挖掘工业界及科研项目经验。2014 年,他提出产品聚类项目用于衔接谷歌…

Twitter机器学习平台的设计与搭建
技术文章 / 2017-10-10

本文整理自ArchSummit2016深圳大会演讲。 今天我会简单介绍一下Twitter机器学习平台的设计与搭建,也希望从规模化机器学习平台的角度来主要讲一些我们在这个过程中所遇到的各种坑,以及我们做的各种的努力,也希望能对大家有一点用处。 咱们今天下午的专题是“大数据”专题,机器学习和大数据是密不可分的。如果我们将数据比作一座金矿,机器学习就是挖掘金矿的工具。俗话说:顺势而为。那么机器学习在近些…

机器学习在电商搜索中的实战
技术文章 / 2017-10-08

背景 1号店的搜索Ranking Model一直在朝着精细化方向深化,我们希望在提升用户满意度的同时,也能提升网站的流量转化率。在实践机器排序学习之前,1号店网站的搜索Ranking Model已经经历了4个阶段:通用排序模型(Universal Ranking Model)、基于区域的排序模型(Region-based Ranking Model)、基于品类的排序模型(Category-base…