实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

终身学习网

终身学习网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

热门搜索

北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名铁岭卫生职业学院排名沈阳北软信息职业技术学院排名吉林艺术学院排名吉林体育学院排名白城师范学院排名通化师范学院排名吉林农业大学排名长春电子科技学院排名吉林工业职业技术学院排名吉林司法警官职业学院排名

终身学习网 > IT > 前沿技术 > 大数据 > 大数据系统

SparkCore

大数据系统更新时间：2026-03-24 14:12:01发布时间：1577天前百科书网趣学号

1.RDD

1.1 什么是RDD
RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据（计算）抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算（分区同时计算）的集合。

1.2 RDD的属性
一组分区（Partition），即数据集的基本组成单位;

当读取文件很大时，文件需要切片，对应每个切片就对应一个Rdd的一个分区。

一个计算每个分区的函数;（每个分区都有一个计算函数）
RDD之间的依赖关系;（例如wordCount, 后一个Rdd依赖前一个Rdd的值）
一个Partitioner，即RDD的分片函数;（针对kv类型的rdd,我们可以给他指定分区函数，默认hash分区）
一个列表，存储存取每个Partition的优先位置（preferred location）。（处理Rdd每个分片计算时，原本数据在哪里，我们尽量在哪里计算，移动计算）

1.3 RDD特点
RDD表示只读的分区的数据集，对RDD进行改动，只能通过RDD的转换操作，由一个RDD得到一个新的RDD，新的RDD包含了从其他RDD衍生所必需的信息。RDDs之间存在依赖，RDD的执行是按照血缘关系延时计算的。如果血缘关系较长，可以通过持久化RDD来切断血缘关系。

2. RDD编程 2.1 RDD创建

转载请注明：文章转载自 www.051e.com

本文地址：http://www.051e.com/it/601139.html

上一篇单链表的实现

下一篇活动预告｜AICon全球人工智能与机器学习技术大会

大数据系统相关栏目本月热门文章

热门相关搜索

北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名铁岭卫生职业学院排名沈阳北软信息职业技术学院排名吉林艺术学院排名吉林体育学院排名白城师范学院排名通化师范学院排名吉林农业大学排名长春电子科技学院排名吉林工业职业技术学院排名吉林司法警官职业学院排名吉林警察学院排名长春健康职业学院排名吉林水利电力职业学院排名大庆师范学院排名黑龙江大学排名哈尔滨剑桥学院排名哈尔滨铁道职业技术学院排名哈尔滨应用职业技术学院排名黑龙江民族职业学院排名七台河职业学院排名黑龙江生态工程职业学院排名华东师范大学排名上海健康医学院排名华东理工大学排名上海交通大学排名同济大学排名复旦大学排名上海杉达学院排名上海戏剧学院排名上海音乐学院排名

关于我们文章归档网站地图联系我们

版权所有 ©2023-2025 051e.com

ICP备案号：京ICP备12030808号