栏目分类:
子分类:
返回
终身学习网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
终身学习网 > IT > 前沿技术 > 大数据 > 大数据系统

Spark分析(一)确定计划及项目分工

大数据系统 更新时间:发布时间: 百科书网 趣学号
2021SC@SDUSC 小组讨论 项目背景

        Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

项目计划

经过我们小组五人的讨论,我们初步确定了项目的实施计划。
项目分为四大核心模块,一是分析Spark core,二是分析Spark streaming,三是分析Spark SQL,四是分析Spark Graphx,四部分中core模块内容较多,经组内讨论该部分由两个人完成,其余部分均为一人完成分析。项目成员按照实施计划与分工稳步推进,迭代开发,在一学期内完成预期成果中的基础部分。

完成基本代码的分析。(第1 - 第8周)
设计样例用以分析。(第9周)
利用程序验证相关内容(第10 - 第13周)
对分析进行总结、准备结题答辩。(第14 - 第15周)


预期成果

完成对Spark四个核心模块的分析、提炼、评价。并能对Spark有深刻理解


分工


我在此项目中主要负责Spark streaming核心的代码分析。
配置环境:JDK1.8.0

语言环境:Scala3.0.2

软件环境:Spark3.1.2

转载请注明:文章转载自 www.051e.com
本文地址:http://www.051e.com/it/280885.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 ©2023-2025 051e.com

ICP备案号:京ICP备12030808号