高频面试题：亿级数据导入如何优化

作者: tojson分类: 计算机技术发布时间: 2023-12-10 15:35:20 浏览:7686 次

高频面试题：亿级数据导入如何优化

nimo10050:
问题: 整个流程的 “事务” 问题如何保证? 换句话说, 在整个导入流程里, 需要写 redis、mysql、kafka、es, 任何一个环节都有可能失败, 最终会导致部分数据写入失败, 或者是数据不一致等情况. 从流程图里没看到异常处理的流程, 可能代码里有处理吧.

【回复】回复 @tojson :那要是服务器宕机没进异常呢？
【回复】记录异常定时任务兜底[doge]
【回复】回复 @爱老虎油歪瑞麻趣 :是的，基本这思路
兰小主爱丽丝:
Json老师，又出干货视频了，赞赞赞[支持][支持][支持]

【回复】回复 @文氓兔 :私信我吧
【回复】回复 @长久时幕 :文档和代码花了很多时间呢，是收费的
kpop_菜鸟:
案例是假的，数据量吹了很多很多倍[doge](百度一下excel能存多少列就知道了[呲牙])

sdylag:
请问：用Spark操作亿级+数据，写入kafka，落盘ES不香么[doge][doge][doge]

【回复】想过，给大数据bg提需求没接
【回复】回复 @sdylag :这接需求的态度必须给满分
【回复】回复 @善良小m : 1. 【Source】 : BigData File 2. 【Channel】 SparkProject ：Split File -> Spark操作(可异步处理)处理入Kafka 、 DB(PG或MPP) 3. 【Sink】 Kafka : 通过 Kafka Connector 自动处理入 ES ，这个步骤也可不用Connector组件，自己写服务实现
成神指路:
在 Excel 2003 及更早的版本中，行数上限是 65536 行。从 Excel 2007 开始，行数上限增加到了 1048576 行。这个上限是指 Excel 中可以包含的行数，不包括表头。

【回复】哈哈哈哈，真相了，杜撰的场景，不过整个流程看下来，也没有大问题吧。。。。。
四处察察:
是否可以另外搞一个服务和数据库呢，这样是无干扰的，即使是业务数据关联性比较强，也可以想办法解决吧

【回复】是单独的，客群是个底层服务，库也是独立的
善良小m:
为什么大数据平台生产的用户手机号，不直接入库，而是生成excel啊，这个亿级数据导出，又亿级数据上传，又亿级数据导入，怎么感觉有点离谱

【回复】两个原因: 1.大数据是我们单独另外的bg，跟我们bg不一样，bg之间的库表都是隔离的，目前他们也提供了kafka给我们订阅，但是不满足运营要求，提需求给他们响应慢，所以没用大数据能力，他们导出excel给我们。2.我们toc的业务，拿到他们给的excel客群后，运营要加工一下，然后通过我们系统导入，业务侧再处理这些数据
【回复】导入的形式应该是多样的；不一定excel导入；比如用户标签筛选用户，这时用户量肯定过百万，对其做业务处理，那就涉及到海量批处理…
概统王:
多线程生产消息会有消息积压的问题吗？如果有，怎么处理

【回复】回复 @概统王 :是的，容易积压，数据量比较大。
【回复】回复 @tojson :就是说这个模块是有可能消息积压的对吧，好的
【回复】之前有一期视频讲过，可以看下
睡20小时:
这种数据有必要放mysql吗？应用扩容对db的处理能力并没有提升，最终你要入库，就要影响正常业务

【回复】历史遗留原因，第一版放到mysql了，当时是有删除的需求，清理redis数据，所以要查明细，放mysql做持久化。
罐头的笔记:
这设计也太low了吧，一亿条数据直接excel导？有必要吗？再说运营怎么处理这么多数据的，在excel上处理？

【回复】这没啥奇怪的，看c用户体量，运营按需针对不同客群的人导入数据，也不是骚操作。
善良小m:
能不能出一期秒杀系统的设计思路啊[给心心]

bugoverman:
有一个技术叫大数据，一亿不过是很少的量[笑哭]

【回复】有个技术叫大数据？？技术叫大数据？
Blank空空的:
运营看执行过程进度条没讲，有什么简单办法实现进度查看嘛？

【回复】一般是前端定时轮询实现
gill1111:
并发导入数据到数据库会不会有死锁问题？而且并发插入的话导致页分裂的情况也会相应增加。这里怎么优化？

【回复】可以看后面的优化方案，通过kafka削峰处理了，规避了并发写入

大数据量亿级数据导入实战优化面试 es mysql 性能优化架构高频面试题

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！