
杭州和盈教育诚信务实、以学员为中心、以满足企业需求为主要目标。
【杭州和盈教育】◆24小时咨询热线:400-888-5484 QQ:2638026967◆和盈教育专注于,大数据工程师实训,。在线预约可享受免费试听课程,更多优惠请电话咨询在线值班老师!!!
杭州和盈教育包括:JAVA工程师就业实训、安卓就业培训、IOS就业实训等方向的系列课程,其中JAVA培训是杭州目前*的JAVA培训。
以下是有关和盈教育大数据工程师实训课程相关介绍以及大数据工程师实训师资讯动态...
*阶段
|
第二阶段
|
第三阶段
|
Java语言基础数据库基础,JDBCSocket网络编程数据结构与算法Linux基础知识Linux管理Linux服务Linux Shell编程
|
Hadoop基础分布式文件系统HDFS并行计算框架MapReduce数据仓库HiveETL工具Sqoop工作流引擎Azkaban分布式协调系统Zookeeper列式数据库HBase
|
实时计算框架Storm消息订阅分发系统Kafka海量日志采集系统Flume函数式编程Scala交互式计算框架Spark数据挖掘与R语言集群运维与调优
|

数据库知识总结
一般命令:
(1)conn 连接
(2)passw 更改密码
(3)show users 查看当前用户
(4)start d:\a.sql; 执行指定的.sql文件
(5) select *from liu where name1='&name1'; 在查询中如果出现条件中加上&表示需要用户输入
二:
(6)创建新用户(密码必须以字母开头)
create user chuan identified by m123;
(7)修改用户的密码
password chuan
(8)删除用户
注意:如果要删除的用户已经创建了表,那么需要带一个参数cascade
三:
用户权限
(1) 付给用户登陆权限。(必须为sys或者system)
grant connect to chuan;
(2)权限的划分
《1》系统权限:用户对数据库的相关权限
《2》对象权限:用户对其他用户的数据对象的操作权限
(3)查看用户拥有的权限
常见的三个角色:connect,dba,resource(可以操作其他空间)
select * from user_role_privs;--用户所拥有的oracle角色
select * from user_sys_privs; --用户所用户的系统权限
<1>当前用户可以赋给别的用户一些对象权限(select,update,delete,insert,all)
grant select on emp to chuan (当前用户赋给chuan可以查看emp表的权限)
注意:当chuan这个用户查看emp表时,select *from sys.emp;
<2>当前用户收回赋给别的用户的权限。
revoke select on emp from chuan
<3> 赋给当前用户可以再赋给别的用户权限
grant select on emp to chuan with grant option(当收回这个权限时,别的用户也没有此权限)
一些可能会用到的数据库操作
1增加一个列:
ALTER TABLE 表名 ADD(列名 数据类型);
如:
ALTER TABLE emp ADD(license varchar2(256));
2修改一个列的数据类型(一般限于修改长度,修改为一个不同类型时有诸多限制)
ALTER TABLE 表名 MODIFY(列名 数据类型);
如:
ALTER TABLE emp MODIFY(weight NUMBER(3,0) NOT NULL);
3给列改名:
ALTER TABLE 表名 RENAME COLUMN 当前列名 TO 新列名;
如:
ALTER TABLE emp RENAME COLUMN abcTO abc_new;
4删除一个列:
ALTER TABLE 表名 DROP COLUMN 列名;
如:
ALTER TABLE emp DROP COLUMN memo;
5将一个表改名:
ALTER TABLE 当前表名 RENAME TO 新表名;
如:
ALTER TABLE client RENAME TO client_new
6 sql公式:
select name||':'||salay from emp

大数据工程师实训MapReduce处理过程
把销售记录分片,分配给多台机器。
每条销售记录被解析成键值对,其中值为销售记录的内容,键可忽略。
执行map任务,每条销售记录被转换为新的键值对,其中键为商品种类,值为该条记录中商品的销售额。
MapReduce把map任务生成的数据按商品种类排序。
待所有节点都完成排序后,MapReduce启动reduce任务。每个商品种类对应一个reduce任务。
执行reduce任务的进程*网络获取指定商品种类的各次销售额。
MapReduce把同一种商品下的各次销售额合并到列表中。
执行reduce任务,累加各次销售额,得到该种商品的总销售额。
上面的过程还有优化的空间。在传输各种商品每次的销售额数据前,可先在map端对各种商品的销售额进行小计,由此可大大减少网络传输的负荷。MapReduce*一个可选的combine任务支持该类型的优化。

大数据工程师实训Storm及Trident
在流计算框架中,目前人气*高,应用*广泛的要数Storm。这是由于Storm具有简单的编程模型,且支持Java、Ruby、Python等多种开发语言。Storm也具有良好的性能,在多节点集群上每秒可以处理上百万条消息。Storm在容错方面也设计得很优雅。下面介绍Storm确保消息可靠性的思路。
在DAG模型中,确保消息可靠的难点在于,原始数据被当前的计算节点成功处理后,还不能被丢弃,因为它生成的数据仍然可能在后续的计算节点上处理失败,需要由该消息重新生成。而如果要对消息在各个计算节点的处理情况都作跟踪记录的话,则会消耗大量资源。
Storm的解决思路,是为每条消息分派一个ID作为*性标识,并在消息中包含原始输入消息的ID。同时用一个响应中心(Acker)维护每条原始输入消息的状态,状态的初值为该原始输入消息的ID。每个计算节点成功执行后,则把输入和输出消息的ID进行异或,再异或对应的原始输入消息的状态。由于每条消息在生成和处理时分别被异或一次,则成功执行后所有消息均被异或两次,对应的原始输入消息的状态为0。因此当状态为0后可安全清除原始输入消息的内容,而如果超过指定时间间隔后状态仍不为0,则认为处理该消息的某个环节出了问题,需要重新执行。

大数据工程师QL引擎Calcite
对于交互式分析,SQL查询引擎的优劣对性能的影响举足轻重。Spark开发了自己的查询引擎Catalyst,而包括Hive、Drill、Kylin、Flink在内的很多交互式分析平台及数据仓库使用Calcite(原名optiq)作为SQL引擎。Calcite是一个Apache孵化项目,其创建者Julian Hyde曾是Oracle数据库SQL引擎的主要开发者。Calcite具有下列几个技术特点:
支持标准SQL语言。
支持OLAP。
支持对流数据的查询。
独立于编程语言和数据源,可以支持不同的前端和后端。
支持关系代数、可定制的逻辑规划规则和基于成本模型优化的查询引擎。
支持物化视图(materialized view)的管理。
由于分布式场景远比传统的数据存储环境更复杂,Calcite和Catalyst都还处于向Oracle、MySQL等经典关系数据库引擎学习的阶段,在性能优化的道路上还有很长的路要走。
|