• 售前

  • 售后

热门帖子
入门百科

大数据底子之Hadoop(一)—— Hadoop概述

[复制链接]
cslixiong 显示全部楼层 发表于 2021-11-6 06:00:20 |阅读模式 打印 上一主题 下一主题
Hadoop系列



  • 大数据底子之Hadoop(一)—— Hadoop概述
  • 大数据底子之Hadoop(二)—— HDFS
  • 大数据底子之Hadoop(三)—— MapReduce
  • 大数据底子之Hadoop(四)——Yarn
Hadoop是什么?


  • Hadoop是一个由Apache基金会所开发的分布式系统底子架构
  • 重要办理,海量数据的存储和海量数据的分析计算问题。
  • 广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈
Hadoop 发展汗青(了解)


  • Hadoop创始人Doug Cutting,为了实现与Google类似的全文搜索功能,他在Lucene框架底子上举行优化升级,查询引擎和索引引擎。
  • 2001年年底Lucene成为Apache基金会的一个子项目。
  • 对于海量数据的场景,Lucene框架面对与Google同样的困难,存储海量数据困难,检索海量速度慢
  • 学习和模仿Google办理这些问题的办法 :微型版Nutch。
  • 可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文)

    • GFS —>HDFS
    • Map-Reduce —>MR
    • BigTable —>HBase

  • 2003-2004年,Google公开了部分GFS和MapReduce思想的细节,以此为底子Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。
  • 2005 年Hadoop 作为Lucene的子项目Nutch的一部分正式引入Apache基金会。
  • 2006 年3 月份,Map-Reduce和Nutch Distributed File System (NDFS)分别被纳入到Hadoop 项目中,Hadoop就此正式诞生,标志着大数据时代到临。
  • 名字来源于Doug Cutting儿子的玩具大象
总结

  • 创始人:Doug Cutting
  • 名字由来:Doug Cutting儿子的玩具大象
  • 底子:Lucene框架
  • 背景:Lucene框架和Google面对的困难:存储海量数据困难,检索海量速度慢
  • 思想之源:谷歌三篇论文

    • GFS —>HDFS
    • Map-Reduce —>MR
    • BigTable —>HBase

Hadoop 三大发行版本(了解)

Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。


  • Apache 版本最原始(最底子)的版本,对于入门学习最好。2006
  • Cloudera 内部集成了很多大数据框架,对应产物 CDH。2008
  • Hortonworks 文档较好,对应产物 HDP。2011
  • Hortonworks 现在已经被 Cloudera 公司收购,推出新的品牌 CDP。 2018
  • 2021宣布全部版本收费
Hadoop 上风(4 高)

高可靠性:Hadoop底层维护多个数据副本,以是纵然Hadoop某个计算元
素或存储出现故障,也不会导致数据的丢失。

高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。可实现不绝机扩展节点。

高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处
理速度。

高容错性:能够主动将失败的任务重新分配。

Hadoop 组成(重点)


HDFS

什么是HDFS?

Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。 用于存储文件,通过目次树来定位文件;其次,它是分布式的,由很多服务器团结起来实现其功能,集群中的服务器有各自的角色。
  分布式文件系统产生的背景
  随着数据量越来越大,在一个操作系统存不下全部的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切必要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。
HDFS的利用场景

适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不必要改变。
HDFS的优缺点

优点



  • 高容错性

    • 数据主动生存多个副本。它通过增长副本的情势,进步容错性。
    • 某一个副本丢失以后,它可以主动规复。

  • 适合处置惩罚大数据

    • 数据规模:能够处置惩罚数据规模到达GB、TB、乃至PB级别的数据
    • 文件规模:能够处置惩罚百万规模以上的文件数目,数目相称之大。

  • 构建在廉价机器上,通过多副本机制,进步可靠性。
缺点



  • 不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。
  • 无法高效的对大量小文件举行存储

    • 存储大量小文件的话,它会占用NameNode大量的内存来存储文件目次和块信息。这样是不可取的,因为NameNode的内存总是有限的;
    • 小文件存储的寻址时间会超过读取时间,它违反了HDFS的操持目的。

  • 不支持并发写入、文件随机修改

    • 一个文件只能有一个写,不答应多个线程同时写
    • 仅支持数据append(追加),不支持文件的随机修改

Yarn

什么是Yarn?

Yarn是一个资源调度平台,负责为运算步伐提供服务器运算资源,相称于一个分布式的操作系统平台,而 MapReduce 等运算步伐则相称于运行于操作系统之上的应用步伐
Yarn重要办理的问题



  • 怎样管理集群资源?
  • 怎样给任务公道分配资源?
Yet Another Resource Negotiator 简称 YARN ,另一种资源协调者,是 Hadoop 的资源管理器
1)ResourceManager(RM):管理整个集群资源(内存、CPU等)
3)ApplicationMaster(AM):管理单个任务运行
2)NodeManager(NM):管理单个节点服务器资源
4)Container:容器,相称一台独立的服务器,里面封装了任务运行所必要的资源,如内存、CPU、磁盘、网络等。

说明1:客户端可以有多个
说明2:集群上可以运行多个ApplicationMaster
说明3:每个NodeManager上可以有多个Container
MapReduce

MapReduce

什么是MapReduce?

MapReduce 是一个分布式运算步伐的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的焦点框架。
MapReduce 焦点功能是 将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算步伐,并发运行在一个 Hadoop 集群上
MapReduce 将计算过程分为两个阶段:Map 和 Reduce
1)Map 阶段并行处置惩罚输入数据
2)Reduce 阶段对 Map 效果举行汇总

MapReduce 的利用场景

焦点思想:怎样把大问题分解成独立的小问题,再并行办理
范例场景:
计算URL的访问频率:搜索引擎的利用中,会遇到大量的URL的访问,以是,可以利用 MapReduce 来举行统计,得出(URL,次数)效果,在后续的分析中可以利用。
Top K 问题:在各种的文档分析,大概是差别的场景中,经常会遇到关于 Top K 的问题,比方输出这篇文章的出现前5个最多的词汇。这个时间也可以利用 MapReduce来举行统计。
MapReduce优缺点

优点

1、易于编程: 用户只关心业务逻辑。 实现框架的接口。
2、良好扩展性:可以动态增长服务器,办理计算资源不够问题。
3、高容错性:任何一台机器挂掉,可以将任务转移到其他节点。
4、适合海量数据计算:(TB/PB) 几千台服务器共同计算。
缺点

1、不善于及时计算。 Mysql(在毫秒大概秒级内返回效果)
2、**不善于流式计算。 Spark Streaming | flink 。**流式计算的输入数据是动态的,而 MapReduce 的输入数据集是静态的,不能动态厘革。
3、不善于DAG有向无环图计算。spark 。 多个应用步伐存在依赖关系,后一个应用步伐的输入为前一个的输出。在这种情况下,MapReduce 并不是不能做,而是利用后,每个 MapReduce 作业的输出效果都会写入到磁盘,会造成大量的磁盘 IO,导致性能非常的低下。
HDFS、YARN、MapReduce 三者关系


Hadoop的情况设置

win10 安装 Hadoop3.x

win10下安装Hadoop3.x参看:


  • Win10安装利用Hadoop3.0.0
  • win10下安装Hadoop快速搞定——亲测有用
启动:
管理员下令下运行
  1. hdfs namenode -format
  2. sbin/start-all.cmd
复制代码
测试:


  • hadoop的web界面:http://localhost:9870/
  • yarn的web界面:http://localhost:8088/cluster
问题:
1、win10安装hadoop启动全部历程后,发现resourcemanager报错:
  1. FATAL resourcemanager.Resourcelanager : Error starting ResourceManager
  2. java.lang.NoClassDefF oundBrror: org/apache/hadoop/yarn/server/timelineservice/col1ector/TimelineCol1ectoranager
复制代码
办理:
将hadoop安装目次下\share\hadoop\yarn\timelineservice\hadoop-yarn-server-timelineservice-3.1.1.jar
移动到hadoop安装目次下\share\hadoop\yarn\hadoop-yarn-server-timelineservice-3.1.1.jar
2、win10安装hadoop启动全部历程后,发现nodemanager报错:
  1. 2022021-10-06 16:39:15,916 ERROR nodemanager.NodelManager: Error starting Nodellanager
  2. b36org.apache. hadoop,yarn. exceptions. YarnfuntimeException: Failed to setup local dir /tmp/hadoup-rsw/m-1ocal-dir,which wa202s marked as good.
复制代码
办理:以管理员身份运行sbin/start-all.cmd即可。
在hadoop根目次测试:
  1. hadoop jar /D:\javaweb\bigdata\hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar /D:\javaweb\bigdata\hadoop-3.1.3\intput\word.txt /D:\javaweb\bigdata\hadoop-3.1.3\output
  2. hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount input/word.txt  output
  3. hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount input output
复制代码
设置汗青服务器

win10情况下

设置 mapred-site.xml
  1. <!-- 历史服务器端地址 -->
  2. <property>
  3.     <name>mapreduce.jobhistory.address</name>
  4.     <value>localhost:10020</value>
  5. </property>
  6. <!-- 历史服务器 web端地址 -->
  7. <property>
  8.     <name>mapreduce.jobhistory.webapp.address</name>
  9.     <value>localhost:19888</value>
  10. </property>
复制代码
在bin目次下,cmd运行下令:
  1. mapred historyserver
复制代码
检察 JobHistory
http://hadoop102:19888/jobhistory
设置日记的聚集

设置yarn-site.xml
  1. <!-- 开启日志聚集功能 -->
  2. <property>
  3.     <name>yarn.log-aggregation-enable</name>
  4.     <value>true</value>
  5. </property>
  6. <!-- 设置日志聚集服务器地址 -->
  7. <property>   
  8.     <name>yarn.log.server.url</name>   
  9.     <value>http://hadoop102:19888/jobhistory/logs</value>
  10. </property>
  11. <!-- 设置日志保留时间为 7天 -->
  12. <property>
  13.     <name>yarn.log-aggregation.retain-seconds</name>
  14.     <value>604800</value>
  15. </property>
复制代码
重启步伐。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

帖子地址: 

回复

使用道具 举报

分享
推广
火星云矿 | 预约S19Pro,享500抵1000!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

草根技术分享(草根吧)是全球知名中文IT技术交流平台,创建于2021年,包含原创博客、精品问答、职业培训、技术社区、资源下载等产品服务,提供原创、优质、完整内容的专业IT技术开发社区。
  • 官方手机版

  • 微信公众号

  • 商务合作