高频面试题:亿级数据导入如何优化

作者: tojson分类: 计算机技术 发布时间: 2023-12-10 15:35:20 浏览:7686 次

高频面试题:亿级数据导入如何优化

nimo10050:
问题: 整个流程的 “事务” 问题如何保证? 换句话说, 在整个导入流程里, 需要写 redis、mysql、kafka、es, 任何一个环节都有可能失败, 最终会导致部分数据写入失败, 或者是数据不一致等情况. 从流程图里没看到异常处理的流程, 可能代码里有处理吧.

【回复】回复 @tojson :那要是服务器宕机没进异常呢?
【回复】记录异常 定时任务兜底[doge]
【回复】回复 @爱老虎油歪瑞麻趣 :是的,基本这思路
兰小主爱丽丝:
Json老师,又出干货视频了,赞赞赞[支持][支持][支持]

【回复】回复 @文氓兔 :私信我吧
【回复】回复 @长久时幕 :文档和代码花了很多时间呢,是收费的
kpop_菜鸟:
案例是假的,数据量吹了很多很多倍[doge](百度一下excel能存多少列就知道了[呲牙])

sdylag:
请问:用Spark操作亿级+数据,写入kafka,落盘ES不香么[doge][doge][doge]

【回复】想过,给大数据bg提需求没接
【回复】回复 @sdylag :这接需求的态度必须给满分
【回复】回复 @善良小m : 1. 【Source】 : BigData File 2. 【Channel】 SparkProject :Split File -> Spark操作(可异步处理)处理入Kafka 、 DB(PG或MPP) 3. 【Sink】 Kafka : 通过 Kafka Connector 自动处理入 ES ,这个步骤也可不用Connector组件 ,自己写服务实现
成神指路:
在 Excel 2003 及更早的版本中,行数上限是 65536 行。从 Excel 2007 开始,行数上限增加到了 1048576 行。这个上限是指 Excel 中可以包含的行数,不包括表头。

【回复】哈哈哈哈,真相了,杜撰的场景,不过整个流程看下来,也没有大问题吧。。。。。
四处察察:
是否可以另外搞一个服务和数据库呢,这样是无干扰的,即使是业务数据关联性比较强,也可以想办法解决吧

【回复】是单独的,客群是个底层服务,库也是独立的
善良小m:
为什么大数据平台生产的用户手机号,不直接入库,而是生成excel啊,这个亿级数据导出,又亿级数据上传,又亿级数据导入,怎么感觉有点离谱

【回复】两个原因: 1.大数据是我们单独另外的bg,跟我们bg不一样,bg之间的库表都是隔离的,目前他们也提供了kafka给我们订阅,但是不满足运营要求,提需求给他们响应慢,所以没用大数据能力,他们导出excel给我们。2.我们toc的业务,拿到他们给的excel客群后,运营要加工一下,然后通过我们系统导入,业务侧再处理这些数据
【回复】导入的形式应该是多样的;不一定excel导入;比如用户标签筛选用户,这时用户量肯定过百万,对其做业务处理,那就涉及到海量批处理…
概统王:
多线程生产消息会有消息积压的问题吗?如果有,怎么处理

【回复】回复 @概统王 :是的,容易积压,数据量比较大。
【回复】回复 @tojson :就是说这个模块是有可能消息积压的对吧,好的
【回复】之前有一期视频讲过,可以看下
睡20小时:
这种数据有必要放mysql吗?应用扩容对db的处理能力并没有提升,最终你要入库,就要影响正常业务

【回复】历史遗留原因,第一版放到mysql了,当时是有删除的需求,清理redis数据,所以要查明细,放mysql做持久化。
罐头的笔记:
这设计也太low了吧,一亿条数据直接excel导?有必要吗?再说运营怎么处理这么多数据的,在excel上处理?

【回复】这没啥奇怪的,看c用户体量,运营按需针对不同客群的人导入数据,也不是骚操作。
善良小m:
能不能出一期秒杀系统的设计思路啊[给心心]

bugoverman:
有一个技术叫大数据,一亿不过是很少的量[笑哭]

【回复】有个技术叫大数据??技术叫大数据?
Blank空空的:
运营看执行过程进度条没讲,有什么简单办法实现进度查看嘛?

【回复】一般是前端定时轮询实现
gill1111:
并发导入数据到数据库会不会有死锁问题?而且并发插入的话导致页分裂的情况也会相应增加。这里怎么优化?

【回复】可以看后面的优化方案,通过kafka削峰处理了,规避了并发写入

大数据量 亿级数据导入 实战 优化 面试 es mysql 性能优化 架构 高频面试题

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!