玩转Flume+Kafka原来也就那点事儿 - 大数据 - dbaplus社群：围绕Data、Blockchain、AiOps的企业级专业社群。技术大咖、原创干货，每天精品原创文章推送，每周线上技术分享，每月线下技术沙龙。

玩转Flume+Kafka原来也就那点事儿

程超 2016-09-13 19:32:40

作者介绍

程超，易宝支付架构师，10年JAVA工作经验，擅长分布式和大数据技术领域，目前主要从事金融支付类方性能分析向。

一、Flume介绍

Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

设计目标：

(1) 可靠性

当节点出现故障时，日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障，从强到弱依次分别为：end-to-end（收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。），Store on failure（这也是scribe采用的策略，当数据接收方crash时，将数据写到本地，待恢复后，继续发送），Best effort（数据发送到接收方后，不会进行确认）。

(2) 可扩展性

Flume采用了三层架构，分别为agent，collector和storage，每一层均可以水平扩展。其中，所有agent和collector由master统一管理，这使得系统容易监控和维护，且master允许有多个（使用ZooKeeper进行管理和负载均衡），这就避免了单点故障问题。

(3) 可管理性

所有agent和colletor由master统一管理，这使得系统便于维护。多master情况，Flume利用ZooKeeper和gossip，保证动态配置数据的一致性。用户可以在master上查看各个数据源或者数据流执行情况，且可以对各个数据源配置和动态加载。Flume提供了web 和shell script command两种形式对数据流进行管理。

(4) 功能可扩展性

用户可以根据需要添加自己的agent，collector或者storage。此外，Flume自带了很多组件，包括各种agent（file， syslog等），collector和storage（file，HDFS等）。

二、Flume的一些核心概念

三、Flume的整体构成图

注意：

源将事件写到一个多或者多个通道中。
接收器只从一个通道接收事件。
代理可能会有多个源、通道与接收器。

四、Flume环境配置

在http://flume.apache.org/ 下载Flume安装包，我们选择最新的1.6.0版本。

安装包内容如下：

配置文件

常用配置模式一

扫描指定文件

常用配置模式二

常用配置模式三

我们今天重点使用第一种模式，因为要与Kafka相结合。

配置好参数以后，回到如下目录：

使用如下命令启动Flume：

./bin/flume-ng agent -n agent -c conf -f conf/hw.conf -Dflume.root.logger=INFO,console

最后一行显示Component type:SINK,name:k1 started表示启动成功。

在启动Flume之前，Zookeeper和Kafka要先启动成功，不然启动Flume会报连不上Kafka的错误。

1、使用./zkServer.sh start启动zookeeper。

2、使用如下命令启动Kafka，更详细的Kafka命令请参照我之前总结的http://www.jianshu.com/p/cfedb7122e38 (Kafka常用命令行总结）

3、使用Kafka默认提供的Consumer来接收消息

4、编写简单Shell脚本output.sh，并修改权限为可执行权限

循环向abc.log文件插入test文本消息。

5、执行output.sh。

整个过程流程如下：

至此简单的使用介绍已经讲完，关于Flume还有非常多的属性和配置技巧需要我们去挖掘，我们以此文章作为开篇为的是为以后源码分析作为铺垫。

相关专题：

精选专题（官网：dbaplus.cn）

◆ 近期热文 ◆

京东资深架构师：高性能高并发服务的瓶颈及突破思路

从菜鸟到技术经理，我的5年码工之路

扛住618过亿订单量，京东弹性云15万容器规模这样炼成！

一个SQL语句引发的ORA-00600错误排查

阿里、Facebook、Cloudera等巨头的数据收集框架全攻略

◆ 近期活动 ◆

Gdevops全球敏捷运维峰会广州站

峰会官网：www.gdevops.com

热门文章

最新评论

: 访客 2024年04月08日

如果字段的最大可能长度超过255字节，那么长度值可能…

: 访客 2024年03月04日

只能说作者太用心了，优秀

: 访客 2024年02月23日

感谢详解

: 访客 2024年02月20日

一般干个7-8年（即30岁左右），能做到年入40w-50w；有…

: 访客 2023年08月20日

230721

活动预告

即将开始

2026年XCOPS智能运维管理人年会-广州站报名开始啦

时间：2026-05-22形式：线下活动
已结束

直播预告丨AI驱动智能运维：从被动排障到主动风险防御

时间：2026-05-08形式：线上分享
已结束

别再去「龙虾会」了！这是只给 Agent Builder 的北上杭闭门局 | 2026 春季首发

时间：2026-04-24形式：线下活动
已结束

4月18日，与资深架构师共话AI研发变革，更有压轴技术辩论「开源vs闭源」如何选择？

时间：2026-04-18形式：线下活动
已结束

直播预告丨基于Kibana的数据可视化平台建设实践

时间：2026-03-25形式：线上活动
已结束

3 月 7 日深圳｜Data for AI Meetup：5 位开源专家聊 AI 数据基础设施实战

时间：2026-03-07形式：线下活动
已结束

OceanBase 社区年度社区嘉年华解锁！AI Coding、社区开放麦、开源集市、社区圆桌……1月31日等你共聚！

时间：2026-01-31形式：线下活动
已结束

1 月 24 日北京｜Data for AI Meetup：Agent 时代的数据基础设施正在如何重构？

时间：2026-01-24形式：线上活动
已结束

直播预告丨AIOps如何从Demo走向规模化落地

时间：2026-01-28形式：线上活动
已结束

AI新质生产力研讨会

时间：2026-01-24形式：线下活动
已结束

直播预告丨携程全链路压测体系建设：节日洪峰场景下的落地实践

时间：2026-01-14形式：线上活动
已结束

直播预告丨大模型在数据安全领域的应用探索

时间：2026-01-07形式：线上活动
已结束

北京开发者集结！12月21日，共话大模型推理与开源生态

时间：2025-12-21形式：线下活动
已结束

Data for AI Meetup @上海 12/20（周六）聚焦AI多模态湖仓

时间：2025-12-20形式：线下活动
已结束

ITCP联盟第五届技术大会【AI应用专场】报名火热开启！

时间：2025-12-13形式：线下活动
查看更多