数据库工程师

免费试听 快速找课

tel:020-87226924

您当前的位置:培训 > 广州培训 > 广州数据库工程师 > 广州大数据分析培训班

广州学到哪里数据库开发

详询

市场价:¥详询

开课学校 腾科IT教育

已有2000+人咨询

班制:周末班

上课地点:

广州市天河区棠安路188号(科韵路)

课程介绍Course Introduction

来看看,你拿不了高薪的原因到底是什么?


①学历一般,专科、普通本科毕业,没有研究生、博士学历
②刚毕业没有职称经验,企业一般不招学徒
③没有技术,学习的东西比较滞后,并且都是理论,职称用不上
④选错行业,现在是互联网时代,IT行业是高薪行业
⑤面试没有技巧,海投简历总算等来面试机会,却因为紧张没能拿到offer
⑥你没自己想象的重要,技术岗位一般无可代替,然后你做的是文职
⑦工作多年,却一直薪水上不去,那你可以考虑换行了
⑧不断的学习才能提升,技能培训相当重要


经过Cloudera公司的ApacheHadoop培训将您的知识提升到一个新的水平。

Cloudera大学提供的为期4天的数据分析培训课程专注于ApachePig、Hive和ClouderaImpala,将教会您如何将传统的数据分析和商业智能技术应用到大数据领域。Cloudera为数据专业人员提供了基于SQL和其它熟悉的脚本编程语言的工具,用来访问、操作、转换和分析复杂数据集。


学习掌握现代大数据分析工具

学员在本课程中将学习掌握以下现代大数据分析工具:

●  ApacheImpala(孵化项目)作为一个SQL运行环境提供对Hadoop里的数据进行即时交互式分析的能力。

●  ApacheHive为数据分析师、数据库管理员以及其他非Java编程人员提供了一个类-SQL的查询语言HiveQL来分析处理Hadoop数据。

●  ApachePig提供脚本编程工具来分析处理Hadoop数据。


一.培训内容

经过讲师在课堂上的讲解,以及实操练习,学员将熟悉Hadoop生态系统,学习主题包括:

●  使用Pig,Hive及Impala获取、存储及分析数据。

●  使用Hadoop工具执行基本的ETL工作(抽取-extract,转换-transform和加载-load)。

●  使用Pig、Hive及Impala改善典型分析任务的效率。

●  关联不同及丰富的数据源以获取全面和真实的商业价值。

●  对数据集进行交互式和复杂查询。


二.培训对象及学员基础

本课程是专为数据分析师、商业智能专家、开发人员、系统架构师和数据库管理员开发的。培训学员不需要具备ApacheHadoop知识。

●  需具备一定的SQL知识水平。

●  基本熟悉Linux命令行。

●  培训学员至少熟悉一种脚本语言知识(例如,Bash脚本编程、Perl、Python和Ruby)将会更有帮助,但不是必需的。


三.认证

结束本课程培训后,我们建议学员准备并注册参加ClouderaCCA数据分析师认证考试。经过并获得该证书是向公司及客户证明个人在Hadoop数据分析领域的技术和专长的有力依据。


四.课程大纲

1.  Hadoop基础知识

●  Hadoop动机

●  Hadoop概览

●  数据存储:HDFS

●  分布式数据处理:YARN、MapReduce和Spark

●  数据处理与分析:Pig、Hive和Impala

●  数据集成:Sqoop

●  其它的Hadoop数据工具

●  练习分析场景说明

2.  Pig简介

●  Pig是什么

●  Pig的特点

●  Pig使用案例

●  与Pig的交互

3.  Pig基本数据分析

●  PigLatin语法

●  加载数据

●  简单数据类型

●  字段定义

●  数据输出

●  架构查看

●  数据筛选和排序

●  常用函数

4.  使用Pig处理复杂的数据

●  数据存储格式

●  复合/嵌套数据类型

●&nnbsp; 数据分组

●  复杂数据内置函数

●  遍历分组数据

5.  Pig多数据集操作

●  数据集合并技术

●  在Pig中联接数据集

●  集合运算

●  拆分数据集

6.  Pig故障诊断和性能优化

●  Pig故障排除

●  日志

●  使用Hadoop的WebUI

●  数据采样及调试

●  性能概述

●  了解执行计划

●  提高Pig作业性能的技巧

7.  Hive和Impala简介

●  什么是Hive

●  什么是Impala

●  为什么使用Hive和Impala

●  架构和数据存储

●  Hive及Impala与传统数据库的比较

●  Hive使用案例

8.  使用Hive和Impala进行数据查询

●  数据库和表

●  基本的Hive和Impala查询语言语法

●  数据类型

●  使用Hue来执行查询

●  使用Beeline(HiveShell)

●  使用ImpalaShell

9.  Hive及Impala数据管理

●  数据存储

●  创建数据库和表

●  加载数据

●  修改数据库和表

●  使用视图简化查询

●  存储查询结果

10.  数据存储和性能

●  对表进行分区

●  分区表的数据加载

●  何时使用分区

●  文件格式的选取

●  使用Avro及Parquet文件格式

11.  使用Hive和Impala进行关系数据分析

●  连接数据集

●  常见的内置函数

●  聚合和窗口函数

12.  复杂数据类型

●  在Hive里使用复杂数据

●  在Impala里使用复杂数据

13.  使用Hive及Impala分析文本数据

●  在Hive及Impala里使用正则表达式

●  在Hive里经过SerDe加载处理文本

●  情感分析及n-gram

14.  Hive优化

●  了解查询性能

●  Bucketing(分桶)

●  索引数据

●  HiveonSpark

15.  Impala优化

●  Impala如何执行查询

●  改善Impala性能

16.  扩展Hive及Impala

●  使用SerDe加载特殊格式文件

●  经过定制脚本来转换数据

●  用户自定义函数

●  参数化查询

17.  选择zui佳工具

●  比较Pig、Hive、Impala和关系数据库该选择哪一个

18.  总结


Cloudera大数据课程体系




学校介绍University Profile

广州腾科网络技术有限公司是一家从事IT技能培训、IT技术外包服务的专业公司,是广东省计算机学会理事单位。紧贴客户需求,量身定制的尊贵服务,严谨细致的专业水平,全球领先的培训解决方案和技术服务,使腾科成为IT技术发展潮流的先驱者。腾科公司总部位于广州,在广州、上海、青岛等地设有共8个培训中心。 业务范围目前主要涉及Cisco、Java 、RedHat Linux、Oracle、EXIN、CIW、F5、CISSP等各种IT技能的培训。

020-87226924
߶IJվȨ,ת˵