系统设计面试讨论20240427【Mock Interview - Metrics Monitoring & Alerting】

作者: 闪光蘑菇2345分类: 职业职场发布时间: 2024-04-28 09:36:01 浏览:4224 次

AI视频小助理:
一、如何准备系统设计面试，重点讨论了Matrix Monitoring系统的设计和实现，包括如何处理Spiky Load、如何查询和报警等方面的内容。 00:01 - 讨论会开始，没有提前公布题目，因为面试者要求不公布题目。 00:53 - 讨论会前15-20分钟，面试官分享对面试者的期望和今天主题的看法。 04:49 - 面试官认为面试者需要对系统有全面的认知，对重要点进行排序，特别重视系统的availability。二、在面试过程中，应该如何展现自己的技术能力和思维高度，以及提出了一个关于monitoring system的问题。 08:20 - 讨论了monitor和alert的重要性，以及如何保证alert的delivery。 09:11 - 建议面试者关注哪些指标，并展现出来。 11:13 - 讨论了数据存储和availability的要求，以及如何保证系统不能挂。三、面试过程中关于设计一个度量值货币和报警系统的讨论。面试者提出了一些关于机器性能和延迟的问题，并讨论了不同指标的类型和延迟要求。 18:54 - 面试者麦克风出现问题，建议换手机加入面试。 20:25 - 讨论关于指标类型和延迟要求的问题。 23:02 - 讨论指标的规模和机器每秒发布三个指标的可能性。四、如何收集机器指标，有两种模式：拉模式和推模式。推模式更适合大规模机器集群，因为它不需要向每个机器发出请求，而是由机器主动推送指标。 25:01 - 需要解决如何从机器收集指标并将它们放入我们的系统 25:54 - 收集指标的模型有两种：拉取或推送模型 27:06 - 推送模型比拉取模型更好，因为它在可扩展性方面更轻量级五、一个报警系统的工作原理，包括如何定义规则、收集数据、存储数据以及生成报警等。同时还探讨了如何优化系统性能和安全性。 33:23 - Aggregator stores alert rules and alarmed rule db 35:32 - Metrics produced by agent and consumed by expector in machine --本内容由AI视频小助理生成，关注解锁AI助理，由@闪光蘑菇2345 召唤发送

真理皆假理:
老师有个问题不太理解，说到push以及pull模型，如果是节点过多确实在colleor维护节点信息方面存在压力，但是pull模式本身对于colleor是防止它消费压力过大，引入mq我觉得也是这个道理，push直接推对于colleor是压力很大的，除非是引入mq来削峰

【回复】如果使用pull模型，比如15秒pull一次，这都是稳定的，波动大是指什么呢
【回复】回复 @明月天涯明月刀郎 :另外我感觉，这种系统监控存在一定延迟是无所谓的
【回复】回复 @明月天涯明月刀郎 :我公司是小公司，有205个agent点，每小时收集到4个亿的span，如果不用mq来削峰，当靠几台colleor不知道能不能扛得住
_猛龙过江:
@AI视频小助理总结一下视频，30分钟到1小时30分钟的内容

设计面试系统设计

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！