栏目分类:
子分类:
返回
终身学习网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
终身学习网 > IT > 前沿技术 > 大数据 > 大数据系统

scala与spark应用

大数据系统 更新时间:发布时间: 百科书网 趣学号

一.Set

无序不可重复

无序:插入序不等于存储序

二.什么是多态

一个事物的多种表现形式。

实现条件

1、继承

2、重写

3、父类引用指向子类对象

三.乱码剖析

概念说明

看到的字符结果是不正常的,不符合人为正常阅读的需要。

产生原因

查看文件的编码和文件数据的编码是不兼容的。

解决方法

使查看和数据的真实编码相兼容即不会出现乱码。

乱码分类

1、真乱码

数据本身是乱的,自然怎么看都是乱的。

2、假乱码

四.如何对“请介绍一下某框架的架构设计”的问题

1、角色

2、角色作用

3、角色关联

4、角色竞品分析

举例分析spark的架构设计

1.角色

client,Driver Program,Cluster Manager ,worker Node ,Task,Exector

2.角色的作用

Client:用户提交Application代码的入口

Driver Program: 驱动代码main方法执行入口,以SparkContext为中心构建,用户转换为任务

Cluster Manager:集群资源管理器,统一资源管理与任务调度

Worker Node: 集群的实际工作节点,负责裕兴应用代码的机器节点

Executor:负责Task运行与管理的独立进程.

Task:并行的线程计算任务

3.角色的关联

六线程和进程的区别和联系

联系

均是计算机任务处理过程当中的重要组成部分

均代表了一部分资源和计算能力的抽象

区别

进程比线程的范围要更高一级,进程是由线程组成的。即进程比线程要更重量级。

进程是操作系统进行资源分配的最小单元。

线程是操作系统任务执行、使用CPU的最小执行单元。

insert overwrite table result1_table select edt.user_id,edt.item_id,edt_ferq,cdt_ferq from (select user_id,item_id,count(1) as edt_ferq from expo_detail_table group by user_id,item_id) edt left join (select user_id,item_id,count(1) as cdt_ferq from click_detail_table group by user_id,item_id) cdt on edt.user_id=cdt.user_id and edt.item_id = cdt.item_id);

 

转载请注明:文章转载自 www.051e.com
本文地址:http://www.051e.com/it/460567.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 ©2023-2025 051e.com

ICP备案号:京ICP备12030808号