
一.Set
无序不可重复
无序:插入序不等于存储序
二.什么是多态
一个事物的多种表现形式。
实现条件
1、继承
2、重写
3、父类引用指向子类对象
三.乱码剖析
概念说明
看到的字符结果是不正常的,不符合人为正常阅读的需要。
产生原因
查看文件的编码和文件数据的编码是不兼容的。
解决方法
使查看和数据的真实编码相兼容即不会出现乱码。
乱码分类
1、真乱码
数据本身是乱的,自然怎么看都是乱的。
2、假乱码
四.如何对“请介绍一下某框架的架构设计”的问题
1、角色
2、角色作用
3、角色关联
4、角色竞品分析
举例分析spark的架构设计
1.角色
client,Driver Program,Cluster Manager ,worker Node ,Task,Exector
2.角色的作用
Client:用户提交Application代码的入口
Driver Program: 驱动代码main方法执行入口,以SparkContext为中心构建,用户转换为任务
Cluster Manager:集群资源管理器,统一资源管理与任务调度
Worker Node: 集群的实际工作节点,负责裕兴应用代码的机器节点
Executor:负责Task运行与管理的独立进程.
Task:并行的线程计算任务
3.角色的关联
六线程和进程的区别和联系
联系
均是计算机任务处理过程当中的重要组成部分
均代表了一部分资源和计算能力的抽象
区别
进程比线程的范围要更高一级,进程是由线程组成的。即进程比线程要更重量级。
进程是操作系统进行资源分配的最小单元。
线程是操作系统任务执行、使用CPU的最小执行单元。
insert overwrite table result1_table select edt.user_id,edt.item_id,edt_ferq,cdt_ferq from (select user_id,item_id,count(1) as edt_ferq from expo_detail_table group by user_id,item_id) edt left join (select user_id,item_id,count(1) as cdt_ferq from click_detail_table group by user_id,item_id) cdt on edt.user_id=cdt.user_id and edt.item_id = cdt.item_id);