系统设计面试讨论20240427【Mock Interview - Metrics Monitoring & Alerting】

作者: 闪光蘑菇2345分类: 职业职场 发布时间: 2024-04-28 09:36:01 浏览:4224 次

系统设计面试讨论20240427【Mock Interview - Metrics Monitoring & Alerting】

AI视频小助理:
一、如何准备系统设计面试,重点讨论了Matrix Monitoring系统的设计和实现,包括如何处理Spiky Load、如何查询和报警等方面的内容。 00:01 - 讨论会开始,没有提前公布题目,因为面试者要求不公布题目。 00:53 - 讨论会前15-20分钟,面试官分享对面试者的期望和今天主题的看法。 04:49 - 面试官认为面试者需要对系统有全面的认知,对重要点进行排序,特别重视系统的availability。 二、在面试过程中,应该如何展现自己的技术能力和思维高度,以及提出了一个关于monitoring system的问题。 08:20 - 讨论了monitor和alert的重要性,以及如何保证alert的delivery。 09:11 - 建议面试者关注哪些指标,并展现出来。 11:13 - 讨论了数据存储和availability的要求,以及如何保证系统不能挂。 三、面试过程中关于设计一个度量值货币和报警系统的讨论。面试者提出了一些关于机器性能和延迟的问题,并讨论了不同指标的类型和延迟要求。 18:54 - 面试者麦克风出现问题,建议换手机加入面试。 20:25 - 讨论关于指标类型和延迟要求的问题。 23:02 - 讨论指标的规模和机器每秒发布三个指标的可能性。 四、如何收集机器指标,有两种模式:拉模式和推模式。推模式更适合大规模机器集群,因为它不需要向每个机器发出请求,而是由机器主动推送指标。 25:01 - 需要解决如何从机器收集指标并将它们放入我们的系统 25:54 - 收集指标的模型有两种:拉取或推送模型 27:06 - 推送模型比拉取模型更好,因为它在可扩展性方面更轻量级 五、一个报警系统的工作原理,包括如何定义规则、收集数据、存储数据以及生成报警等。同时还探讨了如何优化系统性能和安全性。 33:23 - Aggregator stores alert rules and alarmed rule db 35:32 - Metrics produced by agent and consumed by expector in machine --本内容由AI视频小助理生成,关注解锁AI助理,由@闪光蘑菇2345 召唤发送

真理皆假理:
老师有个问题不太理解,说到push以及pull模型,如果是节点过多确实在colleor维护节点信息方面存在压力,但是pull模式本身对于colleor是防止它消费压力过大,引入mq我觉得也是这个道理,push直接推对于colleor是压力很大的,除非是引入mq来削峰

【回复】如果使用pull模型,比如15秒pull一次,这都是稳定的,波动大是指什么呢
【回复】回复 @明月天涯明月刀郎 :另外我感觉,这种系统监控存在一定延迟是无所谓的
【回复】回复 @明月天涯明月刀郎 :我公司是小公司,有205个agent点,每小时收集到4个亿的span,如果不用mq来削峰,当靠几台colleor不知道能不能扛得住
_猛龙过江:
@AI视频小助理 总结一下视频,30分钟到1小时30分钟的内容

设计 面试 系统设计

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!