阿里二面:百万数据如何快速导入导出?一波操作下来原来这么简单!!

作者: 程序员北边分类: 计算机技术 发布时间: 2023-12-26 14:12:39 浏览:13762 次

阿里二面:百万数据如何快速导入导出?一波操作下来原来这么简单!!

低调的大头蚂蚁:
这个我做过,就是纯导出excel。开多线程导出多个sheet就好,阿离的easyexcel挺好。但是有个悖论,为什么要一次性导出那么多数据,内存哪怕用了回收,调整了jvm还是有可能OOM的,应该从业务做限制啊,但是实际情况就是有的人就是想一下子都导出来[doge]

【回复】我公司做物联网的 我们产品一小时一传 客户要求导出一年的报表 真是百万数据
【回复】例如仓储系统,库房管理员去导出台账一般就会导出全部的台账,就是几十万上百万条的
【回复】回复 @随手插个眼 : 几十万还好,我做过18列100W的测试,只是导出占不了多少内存。
zhangzhanggame:
百万数据也叫数据量?百亿还值得讨论下

【回复】只是拿百万数据举个例子,总不能为了讲案例操作,来个百亿数据来操作吧。
【回复】也许明年就是千亿级别数据你会了吗
咔咔呀卡卡:
你们没有hadoop吗,数据库导出?阿里哪个团队问出来的,我帮你问问面试官老板?

钢笔水呲你一脸:
这种情况太简单了,举个现实的例子:导出一个系统的会员信息到另一个系统——会员表对应的会员卡表,会员分类表,会员标签表,会员档案表等,这些都是和会员id对应的(可能还有更复杂的id对应关系),导入的时候需要记录id的对应关系,但是需要导入的系统又有自己的会员,直接导入是不行的,id会冲突,这种情况的百万数据导入,该怎么办呢?

【回复】这是业务问题,谁能回答呢
容_时:
面试的时候会遇到这样的问题,但是这只是一个简单的demo,并没有考虑数据的准确性,也就是数据一边导入要一边做校验,看数据对不对;其次,多线程导入的时候发生异常,事务怎么去控制呢?

【回复】数据校验其实才是最耗性能的,单纯数据格式长度等校验没啥问题,就出在数该条数据是否与在库的某条记录重复了,有些要求重复的更新。我们的项目是用replace into,在sql中做
Pluto_sss:
已经三连,可以把代码和资料发一下给我吗

【回复】欧克啦 茶收一哈[热词系列_哇酷哇酷]

程序员 编程 百万数据导入导出 面试 java 性能优化 编程开发 百万数据 Java面试 程序员研究所

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!