简单理解spark中的rdd

作者: 安瑞哥是码农分类: 科学科普 发布时间: 2022-06-25 22:15:59 浏览:6909 次

简单理解spark中的rdd

_不在今天_:
先收藏,下学期学spark的时候再看[妙啊]

不知道叫什么来白瞟:
rdd的弹性有存储的弹性(先存内存,放不下放磁盘),容错的弹性(数据丢失自动恢复,失败进行特定次数的重试),分片的弹性(根据需求分片),安瑞哥加油

爱是一场灾:
哥 学好spark scala hive 这些能找到什么样的工作

【回复】回复 @爱是一场灾 :其实这些都是hadoop优化而来的,把hadoop原理搞懂,弄这些就容易懂了
【回复】回复 @孟蕉魂 :麻了 flink我是真一点不会 spark还是我们学校第一次开的课 我学的都不咋行 明天还要看视频自学
【回复】太卷了,现在好多小公司都用上flink了
superjmn:
rdd本身不含数据,是计算逻辑的集合吧?

【回复】实质就是计算逻辑,不信你看源码,spark按窄依赖划分阶段,逻辑划分之后将逻辑发送给其他work节点工作。数据都是本地化的。不知道这up在网上科普啥,照着百科念,我是大数据专业学习也比较了解,都发现几个他几个常识的错误。
【回复】回复 @零-雪鸦 :底层设计模式就是类似JAVA的IO,一层处理逻辑之后返回一个不可改变的rdd。每多一个计算逻辑包裹rdd一层再返回一个新的rdd。

SPARK 大数据 rdd 分布式计算引擎

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!