如何像专业人士一样挖掘大数据?
技术文章 / 2017-11-26

机器学习可以帮助企业做出更好的抉择。本文分析了使用机器学习的八种方法,有助于企业最大限度地提高成功几率。 图片来自网络 髋关节置换手术需要多长时间? 这对医院来说并不是学术问题。2015年,医院约有360亿美元的无偿保健费用,其中大部分来自患者未付的账单。 这个问题的一个解决方案是限制与手术相关的成本,但是如何才能达成呢?答案是机器学习。医院如今利用预测分析学来预测手术的平均时间和潜在问题,如髋关…

使用 Python 在 Linux 上实现一键回归测试
技术文章 / 2017-11-15

从代码库迁出代码 —- pexpect 的使用 测试人员从代码库(例如 CVS )迁出代码的过程中,需要手动输入访问密码,而 Python 提供了 Pexpect 模块则能够将手动输入密码这一过程自动化。当然 Pexpect 也可以用来和 ssh、ftp、passwd、telnet 等命令行进行自动化交互。这里我们以 CVS 为例展示如何利用 Pexpect 从代码库迁出代码。 清单 1. 用 p…

Python 最火,R 极具潜力:2017 机器学习调查报告
技术文章 / 2017-11-14

数据平台 Kaggle 近日发布了 2017 机器学习及数据科学调查报告,这也是 Kaggle 首次进行全行业调查。调查共收到超过 16000 份回复,受访内容包括最受欢迎的编程语言、不同国家数据科学家的平均年龄、不同国家的平均年薪等。 点此查阅完整报告 下面主要看看工具使用方面的结果。请注意,该报告包含多个国家的数据,可能存在收集不够全面的情况,仅供参考。 年龄 从全球范围来看,本次调查对象的平…

后台程序员转算法的参考秘籍:大规模机器学习框架的四重境界
技术文章 / 2017-11-08

如何利用相对廉价的机器搭建分布式超大规模机器学习集群是一件非常复杂的事情,对工程和算法都有极高的要求,从Spark到李沐的通用参数服务器,业界对此都进行过哪些尝试?本文尝试梳理一下这方面的历史和当前最佳实践。 1. 背景 自从 google 发表著名的 GFS、MapReduce、BigTable 三篇 paper 以后,互联网正式迎来了大数据时代。大数据的显著特点是大,哪里都大的大。本篇主要针对…

在生产环境使用Kafka构建和部署大规模机器学习
技术文章 / 2017-11-08

作者 Kai Waehner ,译者 薛命灯 发布于 2017年11月8日 智能实时应用为所有行业带来了革命性变化。机器学习及其分支深度学习正蓬勃发展,因为机器学习让计算机能够在无人指引的情况下挖掘深藏的洞见。这种能力正是多种领域所需要的,如非结构化数据分析、图像识别、语音识别和智能决策,这完全不同于传统的编程方式(如Java、.NET或Python)。 机器学习并非新生事物,大数据集的出现和处理…

哪些业务场景可以用到机器学习
技术文章 / 2017-11-06

人工智能(AI)如今再次成为热门话题,各行各业都在考虑如何将人工智能融合进来。AI究竟能为我们做什么?这个问题的想象空间巨大,但是回答起来却不是那么容易。下图中列举了部分使用机器学习对数据进行价值挖掘的场景,究竟算不算得上AI,还请各位读者去判断。  

21大领域,128篇论文,深度学习资源汇集
技术文章 / 2017-10-20

摘要:从全局到枝干、从经典到前沿、从理论到应用、还有最新的研究…,所有你不需要的需要的,现在不需要的未来需要的,你不需要的周边小伙伴需要的…反正全都在这了。对于大多数想上手深度学习的小伙… 从全局到枝干、从经典到前沿、从理论到应用、还有最新的研究…,所有你不需要的需要的,现在不需要的未来需要的,你不需要的周边小伙伴需要的…反正全都在这了。 对于大多数想上手深度学习的小伙伴来说,“我应当…

大规模大数据的有效利用,阿里巴巴参数服务器设计理念与实践
技术文章 / 2017-10-18

当今我们正处于一个大数据时代,Google每天产生30亿查询、300亿Served广告、30万亿indexed网页;FaceBook目前全球超过14亿用户,每天分享43亿内容;推特每天产生4.3万亿Tweets;Apple Store每天App下载量达到1亿左右。国内的互联网公司,阿里巴巴一年产生86亿包裹,平均每天2356万个;蚂蚁金服/支付宝在2015年双十一当天共产生7.1亿笔支付。 这么多…

腾讯大数据宣布开源第三代高性能计算平台Angel:支持十亿维度
技术文章 / 2017-10-17

12月18日,深圳 – 腾讯大数据宣布推出面向机器学习的第三代高性能计算平台——Angel,并预计于2017年一季度开放其源代码,鼓励业界工程师、学者和技术人员大规模学习使用,激发机器学习领域的更多创新应用与良好生态发展。 InfoQ采访了腾讯大数据负责人蒋杰,本文根据采访稿件以及姚星和蒋杰在腾讯大数据技术峰会暨 KDD China 技术峰会上的演讲内容整理而来。 研发背景 腾讯公司是…

轻量级大规模机器学习算法库Fregata开源:快速,无需调参
技术文章 / 2017-10-14

一. 大规模机器学习的挑战 随着互联网,移动互联网的兴起,可以获取的数据变得越来越多,也越来越丰富。数据资源的丰富,给机器学习带来了越来越多,越来越大创造价值的机会。 机器学习在计算广告,推荐系统这些价值上千亿美元的应用中起到的作用越来越大,创造的价值也越来越大。但是越来越大的数据规模也给机器学习带来了很多挑战。 最大的挑战就是庞大的数据量使得对计算资源的需求也急剧增长。首先经典的机器学习算法其计…