深度 | 资深架构师教你一篇文看懂Hadoop
技术文章 / 2017-09-24

“昔我十年前,与君始相识。” 一瞬间Hadoop也到了要初中择校的年龄了。 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务。 2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表的是“核心”(即Core Ha...

《架构师特刊:Hadoop十年回顾》迷你书免费下载
技术文章 / 2017-09-24

《架构师》是InfoQ针对高级技术开发和管理人员所推出的电子月刊。本期大数据特刊搜集了Hadoop十年回顾专栏的精华文章,希望通过盘点这一系列热点文章,带你回顾技术圈的生态状况,回顾以前,激励当下! 自从2006年Hadoop的缔造者们提交第一行代码已经过去了整整十年。有人说近来Hadoop核心社区活跃度下降,又面临如Spark和Mesos的强大挑战。Hadoop的现状如何,未来又会怎样? 下载方...

关键七步,用Apache Spark构建实时分析Dashboard
技术文章 / 2017-09-24

本文原文作者:Abhinav 译者:王庆 摘要:本文我们将学习如何使用Apache Spark streaming,Kafka,Node.js,Socket.IO和Highcharts构建实时分析Dashboard。 问题描述 电子商务门户(http://www.aaaa.com)希望构建一个实时分析仪表盘,对每分钟发货的订单数量做到可视化,从而优化物流的效率。 解决方案 解决方案之前,先快速看看...

Spark在GrowingIO数据无埋点全量采集场景下的实践
技术文章 / 2017-09-24

本文根据2016年7月北京IBM Spark沙龙上的分享讲稿整理而成。 大家好,我是来自GrowingIO的数据工程师付旗,今天跟大家分享的是我们GrowingIO在使用Spark中的经验,遇见的一些问题,以及我们修复的方法。在来之前,昨天晚上我在跟我们组同事讨论的时候,我说我发给他们简要写的我是GrowingIO的大数据工程师,我们组的几个工程师都非常的不屑,说现在大数据已经烂大街了,所以他们对...

是时候了解一些Spark生态系统中的图数据分析知识了
技术文章 / 2017-09-24

图结构可有效表示稀疏矩阵,因而图数据分析可用于实现大数据分析。对于Spark生态系统中的图处理系统GraphX,《Spark GraphX in Action》一书给出了详细的教程和典型用例,将教会读者如何使用GraphX和GraphFrames进行图分析。本文是Info对该书作者的访谈,内容包括图数据及分析技术、GraphX高效程序开发、图数据分析的趋势等。 如何定义图数据? Michael M...

以Python为例,教你Spark 应用开发
技术文章 / 2017-09-24

Spark 这个诞生了7年的开源框架已经成为了今天大数据市场上最炙手可热的词汇。而即将到来的Spark 2.0 将会成为这个项目的一个重大的里程碑。也许你会感兴趣新的版本中那些激动人心的特性:DataFrame、SparkR、StreamingML 以及Dataset API,那么我将在这个议题里面与你一同展望。此外,作为开发者的你或许希望可以了解围绕Spark 应用开发的一切。 我将以Pytho...

Apache Kylin发布新版流处理引擎
技术文章 / 2017-09-24

Apache Kylin在 1.5.0 推出了从流数据进行准实时(Near Real Time)处理功能,可以直接从Apache Kafka的主题(Topic)中消费数据来构建Cube。Apache Kylin 1.5.0的流处理是一次实验性的探索,它打破了以往只能从Apache Hive表构建Cube的局限,将数据从产生到可查询的延迟从小时级降低到了分钟级,满足了一些对实时性要求比较高的场景;但...

使用超大规模数据分析技术支持大数据预测
技术文章 / 2017-09-24

今天我给大家带来的演讲内容是关于“使用超大规模数据分析技术支持大数据预测”这方面的。首先介绍一下我自己,我叫韩卿,很多人叫我Luke。我是Kyligence公司的联合创始人兼CEO,Apache Kylin开源项目的创始人,同时也是这个项目的项目管理委员会主席,以及Apache软件基金会会员。 一、超大规模数据分析的挑战 Hadoop 首先,我今天想和大家分享一下我们在大数据技术领域碰到的挑战,这...

Apache Kylin在电信运营商的实践和案例分享
技术文章 / 2017-09-24

本文根据2016年4月北京Apache Kylin Meetup上的分享讲稿整理而成。 大家好!我是来自北京移动网运中心的赵磊,今天我想分享一下我们在实践Apache Kylin 在一些心得体会。 我最近看了一篇文章,名为《开源项目的正确打开方式》,文章中把开源项目的研究分成了三个阶段:选、用、修改。 一是怎么选开源项目,包括满足业务需求,具备运维能力,项目基本成熟,团队靠谱,社区活跃等等; 二是...

Apache Kylin在美团数十亿数据OLAP场景下的实践
技术文章 / 2017-09-24

本文根据2016年4月北京Apache Kylin Meetup上的分享讲稿整理,略有删节。美团各业务线存在大量的OLAP分析场景,需要基于Hadoop数十亿级别的数据进行分析,直接响应分析师和城市BD等数千人的交互式访问请求,对OLAP服务的扩展性、稳定性、数据精确性和性能均有很高要求。本文主要介绍美团的具体OLAP需求,如何将Kylin应用到实际场景中,以及目前的使用方式和现状。同时也将Kyl...