首页 > 我的课程 > 大数据Hadoop介绍

“大数据Hadoop介绍”

课程方案

一、主讲老师:

顾翔

二、课程简介:
本课程培训周期为2

三、培训内容介绍:

对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

课程介绍

本课程介绍Hadoop 文件系统 HDFS,Hadoop 操作系统 Yarn,Hadoop访问接口,Hadoop 2.0大家族介绍四大内容结合案例与练习对Hadoop进行介绍。
培训对象

任何想了解大数据的人员

、学员基础

有一定计算机知识,了解软件,数据库,网络知识

、教学时间

2天,企业可以定制

课程内容

1,Hadoop 2.0介绍
    1.1Hadoop由来
    1.2MapReduce原理
    1.3Hadoop的部署
2,Hadoop 文件系统 HDFS
    2.1定位
    2.2结构
        2.2.1内部特性
        2.2.2拓扑结构
        2.2.3冗余备份
        2.2.4 副本存放
        2.2.5副本选择
        2.2.6 心跳检测
        2.2.7数据完整性
        2.2.8元数据磁盘失效
        2.2.9流式读写
        2.2.10 客户端缓存
        2.2.11 流水式复制
    2.3 外部特征
        2.3.1HDFS快照
        2.3.2NameNode高可靠性
        2.3.3安全性
        2.3.4其他特性
3,Hadoop 操作系统 Yarn
    3.1定位
    3.2体系架构
        3.2.1Yarn架构
        3.2.2 Yarn执行过程
        3.2.3 Yarn典型拓扑
4,Hadoop访问接口
    4.1 浏览器接口
        4.1.1 HDFS
        4.1.2 Yarn
    4.2 命令行接口
        4.2.1HDFS
        4.2.2Yarn
        4.2.3Hadoop
5,Hadoop 2.0大家族介绍
    5.1 ZooKeeper
    5.2Hbase
    5.3Pig
    5.4 Hive
    5.5Oozie
    5.6Flume
    5.7总结

软件测试咨询

  

   

投稿关闭窗口打印