Kafka之数据存储
技术文章 / 2018-02-01

本文主要讲述以下两部分内容: kafka数据的存储方式; kafka如何通过offset查找message。 1.前言 写介绍kafka的几个重要概念(可以参考之前的博文Kafka的简单介绍): Broker:消息中间件处理结点,一个Kafka节点就是一个broker,多个broker可以组成一个Kafka集群; Topic:一类消息,例如page view日志、click日志等都可以以topic...

Kafka消息生成,消费,存储机制
技术文章 / 2018-02-01

原文:https://my.oschina.net/manmao/blog/847397 摘要: http://kafka.apache.org/documentation/#semantics 设计文档 http://kafka.apache.org/documentation/#design  Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zooke...

【干货】–基于Python的文本情感分类
技术文章 / 2018-01-29

前言 在上一期《【干货】–手把手教你完成文本情感分类》中我们使用了R语言对酒店评论数据做了情感分类,基于网友的需求,这里再使用Python做一下复现。关于步骤、理论部分这里就不再赘述了,感兴趣的可以前往上面提到的文章查看。下面给出Python的具体代码。 Python代码 # 导入第三包 import jieba from sklearn.feature_extraction.text...

入门十大Python机器学习算法(附代码)
技术文章 / 2018-01-29

今天,给大家推荐最常用的10种机器学习算法,它们几乎可以用在所有的数据问题上: 1、线性回归 线性回归通常用于根据连续变量估计实际数值(房价、呼叫次数、总销售额等)。我们通过拟合最佳直线来建立自变量和因变量的关系。这条最佳直线叫做回归线,并且用 Y= a *X + b 这条线性等式来表示。 理解线性回归的最好办法是回顾一下童年。假设在不问对方体重的情况下,让一个五年级的孩子按体重从轻到重的顺序对班...

应用丨AI和机器学习如何改变美国政府决策方式
技术文章 / 2018-01-29

在每个联邦机构中,重要的见解都隐藏在多年来收集的大量数据集中。但是由于联邦政府数据科学家的短缺,从这些数据中提取价值是非常耗时的。然而,随着数据科学,人工智能(AI)和机器学习的进步,各机构现在可以使用先进的工具来转换信息分析和代理业务。 从预测恐怖威胁到检测税务欺诈,一种称为自动机器学习的新一类企业级工具,有能力通过预测建模来改变联邦决策的速度和准确性。像AI这样的技术正在改变联邦政府理解和决策...

链家大数据多维分析引擎实践
技术文章 / 2018-01-29

前言 大数据背景下,传统关系型多维分析 ROLAP 引擎遇到极大挑战,因而链家转向基于 Hadoop 生态的 MOLAP(Kylin)及 HOLAP (多引擎)。在架构师实践日北京站中,链家大数据集群架构组负责人邓钫元进行演讲,分享了链家在多维分析引擎方面的一些实践经验,主要从 OLAP 的背景和简介、链家多维分析架构演进和展望、OLAP 平台链路优化这三部分来介绍。 一、OLAP 的背景和简介&...

干货 :什么是数据科学?如何把数据变成产品?
技术文章 / 2018-01-25

本文转自:O’Reilly(www.oreilly.com.cn);作者:麦克.罗克德斯(Mike Loukides);   未来属于那些知道如何把数据变成产品的企业和个人。 –麦克.罗克德斯(Mike Loukides) 据哈尔•瓦里安(Hal Varian)说,统计学家是下一个性感的工作。五年前,在《什么是Web 2.0》里蒂姆•奥莱利(Tim O’Reilly)说“数据...

对比MPP计算框架和批处理计算框架
技术文章 / 2018-01-25

原文链接: https://content.pivotal.io/blog/apache-hawq-next-step-in-massively-parallel-processing MPP最开始的设计目的是为了消除共享资源的使用,即每个executor有独立的cpu、内存和磁盘等资源,每个executor一般不能访问其他executor的资源。但是有一种情况例外,那就是当数据必须要通过网络进行...

深入浅出人脸识别技术
技术文章 / 2018-01-24

在深度学习出现后,人脸识别技术才真正有了可用性。这是因为之前的机器学习技术中,难以从图片中取出合适的特征值。轮廓?颜色?眼睛?如此多的面孔,且随着年纪、光线、拍摄角度、气色、表情、化妆、佩饰挂件等等的不同,同一个人的面孔照片在照片象素层面上差别很大,凭借专家们的经验与试错难以取出准确率较高的特征值,自然也没法对这些特征值进一步分类。深度学习的最大优势在于由训练算法自行调整参数权重,构造出一个准确率...