Kafka数据可靠性深度解读
技术文章 / 2017-11-27

Kafka起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。 1 概述 Kafka与传统消息系统相比,有以下不同: 它被设计为一个分布式系统,易于向外扩展; 它同时为发布和订阅提供高吞吐量; 它…

纽约时报Kafka架构实战
技术文章 / 2017-11-26

纽约时报有很多内容生成系统,我们使用第三方数据来编写故事。另外,我们有161年的新闻行业积累和21年的在线内容发布经验,所以大量的在线内容需要被搜索到,并提供给不同的服务和应用使用。 另一方面,有很多服务和应用需要访问到这些内容——搜索引擎、个性化定制服务、新闻种子生成器,以及其他各种前端应用,如网站和移动应用。一旦有新内容发布,就要在很短的时间内让这些服务访问到,而且不能有数据丢失——毕竟这些内…

Kafka迎来1.0.0版本,正式告别四位数版本号
行业资讯 / 2017-11-26

Kafka从首次发布之日起,已经走过了七个年头。从最开始的大规模消息系统,发展成为功能完善的分布式流式处理平台,用于发布和订阅、存储及实时地处理大规模流数据。来自世界各地的数千家公司在使用Kafka,包括三分之一的500强公司。Kafka以稳健的步伐向前迈进,首先加入了复制功能和无边界的键值数据存储,接着推出了用于集成外部存储系统的Connect API,后又推出了为实时应用和事件驱动应用提供原生…

在生产环境使用Kafka构建和部署大规模机器学习
技术文章 / 2017-11-26

使用Apache Kafka在生产环境构建大规模机器学习 智能实时应用为所有行业带来了革命性变化。机器学习及其分支深度学习正蓬勃发展,因为机器学习让计算机能够在无人指引的情况下挖掘深藏的洞见。这种能力正是多种领域所需要的,如非结构化数据分析、图像识别、语音识别和智能决策,这完全不同于传统的编程方式(如Java、.NET或Python)。 机器学习并非新生事物,大数据集的出现和处理能力的进步让每一个…

如何在kafka-python和confluent-kafka之间做出选择?
技术文章 / 2017-11-20

在Data Syndrome,我们使用并喜爱Kafka。它使我们能够以最少的努力和复杂性将批处理变为实时处理。然而,在最近的一个项目中,我们学到了有关kafka-python软件包的惨痛教训,该软件包促使我思考该如何选择开源工具。本文将反思我们的开源决策过程,介绍两个用于Python的Kafka客户端、我们遇到的问题及我们将采用的解决方案。 kafka-python:蛮荒的西部 kafka-pyt…

Python KafkaProducer and KafkaConsumer的开发模块
技术文章 / 2017-11-20

1.在python中往kakfa写数据和读取数据,使用的是python-kafka库 2.消费者需持续写入数据,因groupid存在偏移量,才能看看到数据。 3.安装库的命令为pip install python-kafka -i https://pypi.douban.com/simple 4.其中返回的message为一个生成器,其中元素的type为<class ‘kafka…

实战Apache-Flume采集DB数据到kafka
技术文章 / 2017-11-17

Flume是一个优秀的数据采集组件,有些重量级,其本质也是根据SQL语句的查询结果组装成opencsv格式的数据,默认的分隔符号是逗号(,),可以重写opencsv某些类进行修改   1、下载 [root@hadoop0 bigdata]# wget  http://apache.fayea.com/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz &n…

在生产环境使用Kafka构建和部署大规模机器学习
技术文章 / 2017-11-08

作者 Kai Waehner ,译者 薛命灯 发布于 2017年11月8日 智能实时应用为所有行业带来了革命性变化。机器学习及其分支深度学习正蓬勃发展,因为机器学习让计算机能够在无人指引的情况下挖掘深藏的洞见。这种能力正是多种领域所需要的,如非结构化数据分析、图像识别、语音识别和智能决策,这完全不同于传统的编程方式(如Java、.NET或Python)。 机器学习并非新生事物,大数据集的出现和处理…

京东消息中间件JMQ:架构,与Kafka的对比,主要特性和应用场景
技术文章 / 2017-11-02

JMQ是京东自主研发的一款消息中间件系统,具有高可用、数据高可靠等特性。广泛应用于公司内部系统,包括订单、支付、库房等场景。 整体结构 系统包括服务端、客户端、管理端与其他支撑模块。 服务端 服务端提供了配置信息分发、重试消息管理和消息存储与分发这三大类功能。每个服务端实例都具备这三类功能的服务能力,但是在实际部署上这三类功能对应三个不同的集群,对应每一个实例功能不叠加。在测试环境和库房等资源有限…