微软洪小文:真正的AI不应基于大数据,而需从小数据、零数据着手
技术文章 / 2017-11-23

10 月 19 日,多位全球计算机科学和人工智能学术领域的大师级人物一齐亮相由微软亚洲研究院与哈尔滨工业大学联合主办的第十九届“二十一世纪的计算”大会,分享他们各自在人工智能领域的研究和观点,共同探索人工智能的未来之路。 获取演讲PPT,请在后台回复关键字“微软”。关注AI前线,获取更多优质AI内容。 大会举行的这一天凌晨,DeepMind 在 Nature 上发表了一篇关于 AlphaGo Ze…

对话PostgreSQL元老Bruce Momjian:开源社区需要中国开发者的声音
技术文章 / 2017-11-22

2017年10月21日PostgreSQL 2017中国技术大会于深圳科兴科学园国际会议中心圆满收官。“PostgreSQL大象汇”是由PostgreSQL中国用户会发起,一年一度的PG技术盛会,到2017年已经是第7届。正值PostgreSQL 10新版本发布之际,今年大会特意邀请到PostgreSQL开源社区创始人之一Bruce Momjian来到大会现场,与中国用户分享新版本的个中细节及后续…

为什么说SQL正在击败NoSQL,这对数据的未来意味着什么?
技术文章 / 2017-11-08

随着计算机的日益普及,各种应用每天产生的数据量呈指数级增长。如何存储这些数据,有效处理分析这些数据,并从中提取有价值的信息,是当下迫切需要解决的问题。在过去的十年里,NoSQL在软件工程师阵营里越来越受欢迎,其中最重要的实现是MapReduce ,Bigtable,Cassandra,MongoDB,等产品。 它主要用于解决SQL的可扩展性问题。 然而今天SQL开始回归。几乎所有的云计算服务提供商…

大数据框架对比:Hadoop、Storm、Samza、Spark和Flink
技术文章 / 2017-11-08

简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,以及各种专门术语,本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非…

Greenplum 源码安装教程
技术文章 / 2017-11-08

作者:Arthur_Qin 禾众 Greenplum 主体以及orca ( 新一代优化器 ) 的代码以可以从 Github 上下载。如果不打算查看代码,想下载编译好的二进制版可以访问其母公司 pivotal 官网 下载,具体配置安装流程可以参考《Greenplum 安装》。 正文由此开始: [TOC] 1 Greenplum 介绍 Greenplum is built on PostgreSQL …

大规模大数据的有效利用,阿里巴巴参数服务器设计理念与实践
技术文章 / 2017-10-18

当今我们正处于一个大数据时代,Google每天产生30亿查询、300亿Served广告、30万亿indexed网页;FaceBook目前全球超过14亿用户,每天分享43亿内容;推特每天产生4.3万亿Tweets;Apple Store每天App下载量达到1亿左右。国内的互联网公司,阿里巴巴一年产生86亿包裹,平均每天2356万个;蚂蚁金服/支付宝在2015年双十一当天共产生7.1亿笔支付。 这么多…

Apache Druid在Ubuntu 16.04下的安装和配置
技术文章 / 2017-09-22

Apache Druid在Ubuntu 16.04下的安装和配置   环境要求: Java 8 或以上 Linux,Mac OS X,或其他Unix类系统(Windows不支持) 8G 内存 2个vCPU   下载和安装Druid 在终端窗口执行下列命令:   下载druid安装包,(这里下载的是0.10.1版本): curl -O http://static.dru…

如何基于日志,同步实现数据的一致性和实时抽取?
数据展现 / 2017-09-21

转自:http://www.yunweipai.com/archives/10461.html 作者:王东 宜信技术研发中心架构师 目前就职于宜信技术研发中心,任架构师,负责流式计算和大数据业务产品解决方案。 曾任职于Naver china(韩国最大搜索引擎公司)中国研发中心资深工程师,多年从事CUBRID分布式数据库集群开发和CUBRID数据库引擎开发http://www.cubrid.org/…