简单理解spark中的rdd

作者: 安瑞哥是码农分类: 科学科普发布时间: 2022-06-25 22:15:59 浏览:6909 次

简单理解spark中的rdd

_不在今天_:
先收藏，下学期学spark的时候再看[妙啊]

不知道叫什么来白瞟:
rdd的弹性有存储的弹性（先存内存，放不下放磁盘），容错的弹性（数据丢失自动恢复，失败进行特定次数的重试），分片的弹性（根据需求分片），安瑞哥加油

爱是一场灾:
哥学好spark scala hive 这些能找到什么样的工作

【回复】回复 @爱是一场灾 :其实这些都是hadoop优化而来的，把hadoop原理搞懂，弄这些就容易懂了
【回复】回复 @孟蕉魂 :麻了 flink我是真一点不会 spark还是我们学校第一次开的课我学的都不咋行明天还要看视频自学
【回复】太卷了，现在好多小公司都用上flink了
superjmn:
rdd本身不含数据，是计算逻辑的集合吧？

【回复】实质就是计算逻辑，不信你看源码，spark按窄依赖划分阶段，逻辑划分之后将逻辑发送给其他work节点工作。数据都是本地化的。不知道这up在网上科普啥，照着百科念，我是大数据专业学习也比较了解，都发现几个他几个常识的错误。
【回复】回复 @零-雪鸦 :底层设计模式就是类似JAVA的IO，一层处理逻辑之后返回一个不可改变的rdd。每多一个计算逻辑包裹rdd一层再返回一个新的rdd。

SPARK 大数据 rdd 分布式计算引擎

如果觉得我的文章对您有用，请随意打赏。您的支持将鼓励我继续创作！