入门十大Python机器学习算法(附代码)
技术文章 / 2018-01-29

今天,给大家推荐最常用的10种机器学习算法,它们几乎可以用在所有的数据问题上: 1、线性回归 线性回归通常用于根据连续变量估计实际数值(房价、呼叫次数、总销售额等)。我们通过拟合最佳直线来建立自变量和因变量的关系。这条最佳直线叫做回归线,并且用 Y= a *X + b 这条线性等式来表示。 理解线性回归的最好办法是回顾一下童年。假设在不问对方体重的情况下,让一个五年级的孩子按体重从轻到重的顺序对班...

应用丨AI和机器学习如何改变美国政府决策方式
技术文章 / 2018-01-29

在每个联邦机构中,重要的见解都隐藏在多年来收集的大量数据集中。但是由于联邦政府数据科学家的短缺,从这些数据中提取价值是非常耗时的。然而,随着数据科学,人工智能(AI)和机器学习的进步,各机构现在可以使用先进的工具来转换信息分析和代理业务。 从预测恐怖威胁到检测税务欺诈,一种称为自动机器学习的新一类企业级工具,有能力通过预测建模来改变联邦决策的速度和准确性。像AI这样的技术正在改变联邦政府理解和决策...

链家大数据多维分析引擎实践
技术文章 / 2018-01-29

前言 大数据背景下,传统关系型多维分析 ROLAP 引擎遇到极大挑战,因而链家转向基于 Hadoop 生态的 MOLAP(Kylin)及 HOLAP (多引擎)。在架构师实践日北京站中,链家大数据集群架构组负责人邓钫元进行演讲,分享了链家在多维分析引擎方面的一些实践经验,主要从 OLAP 的背景和简介、链家多维分析架构演进和展望、OLAP 平台链路优化这三部分来介绍。 一、OLAP 的背景和简介&...

干货 :什么是数据科学?如何把数据变成产品?
技术文章 / 2018-01-25

本文转自:O’Reilly(www.oreilly.com.cn);作者:麦克.罗克德斯(Mike Loukides);   未来属于那些知道如何把数据变成产品的企业和个人。 –麦克.罗克德斯(Mike Loukides) 据哈尔•瓦里安(Hal Varian)说,统计学家是下一个性感的工作。五年前,在《什么是Web 2.0》里蒂姆•奥莱利(Tim O’Reilly)说“数据...

对比MPP计算框架和批处理计算框架
技术文章 / 2018-01-25

原文链接: https://content.pivotal.io/blog/apache-hawq-next-step-in-massively-parallel-processing MPP最开始的设计目的是为了消除共享资源的使用,即每个executor有独立的cpu、内存和磁盘等资源,每个executor一般不能访问其他executor的资源。但是有一种情况例外,那就是当数据必须要通过网络进行...

深入浅出人脸识别技术
技术文章 / 2018-01-24

在深度学习出现后,人脸识别技术才真正有了可用性。这是因为之前的机器学习技术中,难以从图片中取出合适的特征值。轮廓?颜色?眼睛?如此多的面孔,且随着年纪、光线、拍摄角度、气色、表情、化妆、佩饰挂件等等的不同,同一个人的面孔照片在照片象素层面上差别很大,凭借专家们的经验与试错难以取出准确率较高的特征值,自然也没法对这些特征值进一步分类。深度学习的最大优势在于由训练算法自行调整参数权重,构造出一个准确率...

Confluent:在Kafka上飞驰的数据交换者
技术文章 / 2018-01-20

今天我们要讲的大数据公司叫作Confluent,这个公司是前LinkedIn员工出来后联合创办的,而创业的基础是一款叫作Apache Kafka的开源软件。 Confluen联合创始人Jun Rao即将在QCon北京2018分享Apache Kafka的前世今生和未来的相关话题。 在整个Hadoop的生态圈里,Kafka是一款非常特殊的软件。它由LinkedIn于2011年开源,并在2012年底从...

Kafka设计解析(八)- Kafka事务机制与Exactly Once语义实现原理
技术文章 / 2018-01-19

写在前面的话 本文所有Kafka原理性的描述除特殊说明外均基于Kafka 1.0.0版本。 为什么要提供事务机制 Kafka事务机制的实现主要是为了支持 Exactly Once即正好一次语义 操作的原子性 有状态操作的可恢复性 Exactly Once 《Kafka背景及架构介绍》一文中有说明Kafka在0.11.0.0之前的版本中只支持At Least Once和At Most Once语义,...

Kafka设计解析(七)- 流式计算的新贵 Kafka Stream
技术文章 / 2018-01-19

Kafka Stream背景 Kafka Stream是什么 Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature。它是提供了对存储于Kafka内的数据进行流式处理和分析的功能。 Kafka Stream的特点如下: Kafka Stream提供了一个非常简单而轻量的Library,它可以非常方便地嵌入任意Java应用中,也可以任意方式打包和部署 除了Kafk...