容错机制
在分布式架构中,当某个节点出现故障,其他节点基本不受影响。这时只需要重启应用,恢复之前某个时间点的状态继续处理就可以了。这一切看似简单,可是在实时流处理中,我们不仅需要保证故障后能够重启继续运行,还要保证结果的正确性、故障恢复的速度、对处理性能的影响,这就需要在架构上做出更加精巧的设计。
在Flink中,有一套完整的容错机制( fault tolerance)来保证故障后的恢复,其中最重要的就是检查点( checkpoint)。在第九章中,我们已经介绍过检查点的基本概念和用途,接下来我 们就深入探讨一下检查点的原理和 Flink的容错机制。
# Related Post
1.任务生成和分配
2.任务槽 task slots
3.算子链
4.watermark(水位线)
5.时间语义(Notions of Time)
6.处理无界和有界数据
7.flink部署
8.Flink架构原理
1.任务生成和分配
2.任务槽 task slots
3.算子链
4.watermark(水位线)
5.时间语义(Notions of Time)
6.处理无界和有界数据
7.flink部署
8.Flink架构原理