当前位置：文档之家› 01_尚硅谷大数据之Linux入门

01_尚硅谷大数据之Linux入门

hadoop学习课程介绍

云凡教育Hadoop网络培训第二期开课时间：2014年1月20日授课方式:YY在线教育+课程视频+资料、笔记+辅导+推荐就业 YY教育平台：20483828 课程咨询：1441562932 大胃云凡教育Hadoop交流群：306770165 费用：第二期优惠特价：999元；授课对象：对大数据领域有求知欲，想成为其中一员的人员想深入学习hadoop，而不只是只闻其名的人员基础技能要求: 具有linux操作一般知识（因为hadoop在linux下跑）有Java基础(因为hadoop是java写的并且编程也要用java语言) 课程特色 1，以企业实际应用为向导，进行知识点的深入浅出讲解； 2，从零起步，循序渐进，剖析每一个知识； 3，萃取出实际开发中最常用、最实用的内容并以深入浅出的方式把难点化于无形之中学习安排： Hadoop的起源与生态系统介绍(了解什么是大数据；Google的三篇论文；围绕Hadoop形成的一系列的生态系统；各个子项目简要介绍)

1_Linux系统环境搭建和基本命令使用针对很多同学对linux命令不熟悉，在课程的学习中，由于命令不熟悉导致很多错误产生，所以特意增加一节linux基础课程，讲解一些常用的命令，对接下来的学习中做好入门准备； 02_Hadoop本地（单机）模式和伪分布式模式安装本节是最基本的课程，属于入门级别，主要对Hadoop 介绍，集中安装模式，如何在linux上面单机（本地）和伪分布模式安装Hadoop，对HDFS 和MapReduce进行测试和初步认识。 03_HDFS的体系结构、Shell操作、Java API使用和应用案例本节是对hadoop核心之一——HDFS的讲解。HDFS是所有hadoop操作的基础，属于基本的内容。对本节内容的理解直接影响以后所有课程的学习。在本节学习中，我们会讲述hdfs的体系结构，以及使用shell、java不同方式对hdfs 的操作。在工作中，这两种方式都非常常用。学会了本节内容，就可以自己开发网盘应用了。在本节学习中，我们不仅对理论和操作进行讲解，也会讲解hdfs 的源代码，方便部分学员以后对hadoop源码进行修改。 04_MapReduce入门、框架原理、深入学习和相关MR面试题本节开始对hadoop核心之一——mapreduce的讲解。mapreduce是hadoop 的核心，是以后各种框架运行的基础，这是必须掌握的。在本次讲解中，掌握mapreduce执行的详细过程，以单词计数为例，讲解mapreduce的详细执行过程。还讲解hadoop的序列化机制和数据类型，并使用自定义类型实现电信日志信息的统计。最后，还要讲解hadoop的RPC机制，这是hadoop运行的基础，通过该节学习，我们就可以明白hadoop是怎么明白的了，就不必糊涂了，本节内容特别重要。 05_Hadoop集群安装管理、NameNode安全模式和Hadoop 1.x串讲复习 hadoop就业主要是两个方向：hadoop工程师和hadoop集群管理员。我们课程主要培养工程师。本节内容是面向集群管理员的，主要讲述集群管理的知

尚硅谷大数据技术之ELK

第1章 Elasticsearch 概述 1.1 什么是搜索？百度：我们比如说想找寻任何的信息的时候，就会上百度去搜索一下，比如说找一部自己喜欢的电影，或者说找一本喜欢的书，或者找一条感兴趣的新闻（提到搜索的第一印象）。百度 != 搜索 1）互联网的搜索：电商网站，招聘网站，新闻网站，各种app 2）IT 系统的搜索：OA 软件，办公自动化软件，会议管理，日程管理，项目管理。搜索，就是在任何场景下，找寻你想要的信息，这个时候，会输入一段你要搜索的关键字，然后就期望找到这个关键字相关的有些信息 1.2 如果用数据库做搜索会怎么样？如果用数据库做搜索会怎么样？ select * from products where product_name list “%牙膏%”商品id 商品名称商品描述 1高露洁牙膏2中华牙膏3 佳洁士牙膏4其他牙膏京东商城搜索框 5 …… 1万条京东商城后台商品表逐条遍历 1）比如说“商品描述”字段的长度，有长达数千个，甚至数万个字符，这个时候，每次都要对每条记录的所有文本进行扫描，判断包不包含我指定的这个关键词（比如说“牙膏”），效率非常低。 select * from products where product_name list “%生化机%” 2）还不能将搜索词拆分开来，尽可能去搜索更多的符合你的期望的结果，比如输入“生化机”，就搜索不出来“生化危机”。用数据库来实现搜索，是不太靠谱的。通常来说，性能会很差的。 1千字的商品描述 1千字的商品描述用数据库来实现搜索，是不太靠谱的。通常来说，性能会很差的。 1.3 什么是全文检索和Lucene ？ 1）全文检索，倒排索引全文检索是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文搜索搜索引擎数据库中的数据。

01_尚硅谷大数据之HBase简介

第1章HBase简介 1.1 什么是HBase HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE 技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBASE的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。 HBASE是Google Bigtable的开源实现，但是也有很多不同之处。比如：Google Bigtable 利用GFS作为其文件存储系统，HBASE利用Hadoop HDFS作为其文件存储系统；Google 运行MAPREDUCE来处理Bigtable中的海量数据，HBASE同样利用Hadoop MapReduce来处理HBASE中的海量数据；Google Bigtable利用Chubby作为协同服务，HBASE利用Zookeeper作为对应。 1.2 HBase中的角色 1.2.1 HMaster 功能： 1) 监控RegionServer 2) 处理RegionServer故障转移 3) 处理元数据的变更 4) 处理region的分配或移除 5) 在空闲时间进行数据的负载均衡 6) 通过Zookeeper发布自己的位置给客户端 1.2.2 RegionServer 功能： 1) 负责存储HBase的实际数据 2) 处理分配给它的Region 3) 刷新缓存到HDFS 4) 维护HLog 5) 执行压缩

6) 负责处理Region分片 1.2.3 其他组件： 1) Write-Ahead logs HBase的修改记录，当对HBase读写数据的时候，数据不是直接写进磁盘，它会在内存中保留一段时间（时间以及数据量阈值可以设定）。但把数据保存在内存中可能有更高的概率引起数据丢失，为了解决这个问题，数据会先写在一个叫做Write-Ahead logfile的文件中，然后再写入内存中。所以在系统出现故障的时候，数据可以通过这个日志文件重建。 2) HFile 这是在磁盘上保存原始数据的实际的物理文件，是实际的存储文件。 3) Store HFile存储在Store中，一个Store对应HBase表中的一个列族。 4) MemStore 顾名思义，就是内存存储，位于内存中，用来保存当前的数据操作，所以当数据保存在WAL 中之后，RegsionServer会在内存中存储键值对。 5) Region Hbase表的分片，HBase表会根据RowKey值被切分成不同的region存储在RegionServer中，在一个RegionServer中可以有多个不同的region。 1.3 HBase架构

Hadoop快速入门

?项目 ?维基 ?Hadoop 0.18文档 Last Published: 07/01/2009 00:38:20 文档概述快速入门集群搭建 HDFS构架设计 HDFS使用指南 HDFS权限指南 HDFS配额管理指南命令手册 FS Shell使用指南 DistCp使用指南 Map-Reduce教程 Hadoop本地库 Streaming Hadoop Archives Hadoop On Demand API参考 API Changes 维基常见问题邮件列表发行说明变更日志 PDF Hadoop快速入门 ?目的 ?先决条件 o支持平台 o所需软件 o安装软件 ?下载 ?运行Hadoop集群的准备工作 ?单机模式的操作方法 ?伪分布式模式的操作方法

o配置 o免密码ssh设置 o执行 ?完全分布式模式的操作方法目的这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop 分布式文件系统(HDFS)和Map-Reduce框架有所体会，比如在HDFS上运行示例程序或简单作业等。先决条件支持平台 ?GNU/Linux是产品开发和运行的平台。 Hadoop已在有2000个节点的GNU/Linux主机组成的集群系统上得到验证。 ?Win32平台是作为开发平台支持的。由于分布式操作尚未在Win32平台上充分测试，所以还不作为一个生产平台被支持。所需软件 Linux和Windows所需软件包括: 1.Java TM1.5.x，必须安装，建议选择Sun公司发行的Java版本。 2.ssh必须安装并且保证sshd一直运行，以便用Hadoop 脚本管理远端 Hadoop守护进程。 Windows下的附加软件需求 1.Cygwin - 提供上述软件之外的shell支持。安装软件如果你的集群尚未安装所需软件，你得首先安装它们。以Ubuntu Linux为例: $ sudo apt-get install ssh $ sudo apt-get install rsync

01_尚硅谷大数据之Hive基本概念

第1章Hive基本概念 1.1 什么是Hive Hive：由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序 1）Hive处理的数据存储在HDFS 2）Hive分析数据底层的实现是MapReduce 3）执行程序运行在Yarn上 1.2 Hive的优缺点 1.2.1 优点 1）操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手） 2）避免了去写MapReduce，减少开发人员的学习成本。 3）Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合； 4）Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高。5）Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。 1.2.2 缺点 1）Hive的HQL表达能力有限（1）迭代式算法无法表达（2）数据挖掘方面不擅长 2）Hive的效率比较低（1）Hive自动生成的MapReduce作业，通常情况下不够智能化（2）Hive调优比较困难，粒度较粗

1.3 Hive架构原理 HDFS MapReduce Meta store SQL Parser 解析器 Physical Plan 编译器Execution 执行器 Query Optimizer 优化器 Driver CLI JDBC Client Hive 架构如图中所示，Hive通过给用户提供的一系列交互接口，接收到用户的指令(SQL)，使用自己的Driver，结合元数据(MetaStore)，将这些指令翻译成MapReduce，提交到Hadoop中执行，最后，将执行返回的结果输出到用户交互接口。 1）用户接口：Client CLI（hive shell）、JDBC/ODBC(java访问hive)、WEBUI（浏览器访问hive） 2）元数据：Metastore 元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；默认存储在自带的derby数据库中，推荐使用MySQL存储Metastore 3）Hadoop 使用HDFS进行存储，使用MapReduce进行计算。 4）驱动器：Driver （1）解析器（SQL Parser）：将SQL字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr；对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误。（2）编译器（Physical Plan）：将AST编译生成逻辑执行计划。

hadoop入门学习资料大全

Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。 Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性（fault-tolerent）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。搜索了一些WatchStor存储论坛关于hadoop入门的一些资料分享给大家希望对大家有帮助 jackrabbit封装hadoop的设计与实现 https://www.doczj.com/doc/6a14276311.html,/thread-60444-1-1.html 用Hadoop进行分布式数据处理 https://www.doczj.com/doc/6a14276311.html,/thread-60447-1-1.html

Hadoop源代码eclipse编译教程 https://www.doczj.com/doc/6a14276311.html,/thread-60448-1-2.html Hadoop技术讲解 https://www.doczj.com/doc/6a14276311.html,/thread-60449-1-2.html Hadoop权威指南(原版) https://www.doczj.com/doc/6a14276311.html,/thread-60450-1-2.html Hadoop源代码分析完整版 https://www.doczj.com/doc/6a14276311.html,/thread-60451-1-2.html 基于Hadoop的Map_Reduce框架研究报告 https://www.doczj.com/doc/6a14276311.html,/thread-60452-1-2.html Hadoop任务调度 https://www.doczj.com/doc/6a14276311.html,/thread-60453-1-2.html Hadoop使用常见问题以及解决方法 https://www.doczj.com/doc/6a14276311.html,/thread-60454-1-2.html HBase：权威指南

尚硅谷大数据技术之数仓开发规范

1.背景为了避免底层业务变动对上层需求影响过大，屏蔽底层复杂的业务逻辑，尽可能简单、完整的在接口层呈现业务数据，建设高内聚松耦合的数据组织，使数据从业务角度可分割，显得尤为重要。从整个集团业务条线出发，形成数据仓库总体概念框架，并对整个系统所需要的功能模块进行划分，明确各模块技术细节，建设一套完整的开发规范。 2.分层规范 ODS（原始数据层）：ODS层是数据仓库准备区，为DWD层提供基础原始数据。 DWD（明细数据层）：和ODS粒度一致的明细数据，对数据进行去重，脏数据过滤，空处理，保证数据质量。 DWS（服务数据层）：轻度汇总数据及建宽表(按主题)存放数据。 ADS（应用数据层）：存放应用类表数据。 3.表规范 3.1 命名维表命名形式：dim_描述事实表命名形式：fact_描述_[AB] 临时表命名形式：tmp_ 正式表名_ [C自定义序号] 宽表命名形式：dws_主题_描述_[AB] 备份表命名形式：正式表名_bak_yyyymmdd 表命名解释： 1）表名使用英文小写字母，单词之间用下划线分开，长度不超过40个字符，命名一般控制在小于等于6级。 2）其中ABC第一位"A"时间粒度：使用"c"代表当前数据，"h"代表小时数据，"d"代表天

数据，"w"代表周数据，"m"代表月数据，"q"代表季度数据， "y"代表年数据。 3）其中ABC的第二位"B"表示对象属性，用"t"表示表，用"v"表示视图。 4）其中ABC的第三位"C"自定义序号用于标识多个临时表的跑数顺序。 3.2 注释注释要结合表的英文名，要求注释简洁明了，体现出表的业务出处、主题和用途。3.3 存储格式所谓的存储格式就是在Hive建表的时候指定的将表中的数据按照什么样子的存储方式，如果指定了方式，那么在向表中插入数据的时候，将会使用该方式向HDFS中添加相应的数据类型。在数仓中建表默认用的都是PARQUET存储格式，相关语句如下所示：STORED AS INPUTFORMAT ‘org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat’ OUTPUTFORMAT ‘org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat’ 3.5 字符集 Hadoop和hive 都是用utf-8编码的，在建表时可能涉及到中文乱码问题，所以导入的文件的字符编码统一为utf-8格式。 3.6 约定理论上在数仓落地的表不应该出现null未知类型，对于可能出现null的字段，如果为字符型统一为空字符串，如果是数值则给0。 4.字段规范 4.1 命名

(完整word版)hadoop安装教程

1、VMware安装我们使用Vmware 14的版本，傻瓜式安装即可。（只要）双击如过 2.安装xshell 双击 3.安装镜像：解压centos6.5-empty解压双击打开CentOS6.5.vmx 如果打不开，在cmd窗口中输入：netsh winsock reset 然后重启电脑。进入登录界面，点击other 用户名：root 密码：root 然后右键open in terminal 输入ifconfig 回车查看ip地址

打开xshell

点击链接如果有提示，则接受输入用户名：root 输入密码：root 4.xshell连接虚拟机打开虚拟机，通过ifconfig查看ip

5.安装jkd 1.解压Linux版本的JDK压缩包 mkdir：创建目录的命令 rm -rf 目录/文件删除目录命令 cd 目录进入指定目录 rz 可以上传本地文件到当前的linux目录中（也可以直接将安装包拖到xshell窗口） ls 可以查看当前目录中的所有文件 tar 解压压缩包（Tab键可以自动补齐文件名）

pwd 可以查看当前路径文档编辑命令: vim 文件编辑命令 i:进入编辑状态 Esc（左上角）：退出编辑状态 :wq 保存并退出 :q! 不保存退出 mkdir /home/software #按习惯用户自己安装的软件存放到/home/software目录下 cd /home/software #进入刚刚创建的目录 rz 上传jdk tar包 #利用xshell的rz命令上传文件(如果rz命令不能用，先执行yum install lrzsz -y ，需要联网) tar -xvf jdk-7u51-linux-x64.tar.gz #解压压缩包 2.配置环境变量 1）vim /etc/profile 2）在尾行添加 #set java environment JAVA_HOME=/home/software/jdk1.8.0_65 JAVA_BIN=/home/software/jdk1.8.0_65/bin PATH=$JAVA_HOME/bin:$PATH CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export JAVA_HOME JAVA_BIN PATH CLASSPATH Esc 退出编辑状态 :wq #保存退出注意JAVA_HOME要和自己系统中的jdk目录保持一致，如果是使用的rpm包安

尚硅谷大数据项目之实时项目2(日活需求)

第1章实时处理模块 1.1 模块搭建添加scala框架 1.2 代码思路 1）消费kafka中的数据； 2）利用redis过滤当日已经计入的日活设备； 3）把每批次新增的当日日活信息保存到HBASE或ES中；

4）从ES中查询出数据，发布成数据接口，通可视化化工程调用。 1.3 代码开发1 ---消费Kafka 1.3.1 配置 1）config.properties # Kafka配置 kafka.broker.list=hadoop102:9092,hadoop103:9092,hadoop104:9092 # Redis配置 redis.host=hadoop102 rdis.port=6379 2）pom.xml com.atguigu.gmall2019.dw dw-common 1.0-SNAPSHOT org.apache.spark spark-core_2.11 org.apache.spark spark-streaming_2.11 org.apache.kafka kafka-clients 0.11.0.2 org.apache.spark spark-streaming-kafka-0-8_2.11 redis.clients jedis 2.9.0 io.searchbox

linux基础知识总结

linux基础知识总结 1 linux 概述 1.1 linux 结构 1.1.1 linux的四部分可以把Linux系统看作由四部分构成：内核、用户界面、文件结构和实用工具 /bin 普通用户的可执行文件，系统的任何用户都可以执行该目录中的命令 /boot 存放Linux操作系统启动时所需要的文件 /dev 系统中所有设备文件 /etc 系统中的配置文件 /home 普通用户的宿主目录，每个用户在该目下都有一个于用户名同名的目录。 /mnt 中的子目录用于系统中可移动设备的挂载点 /root 超级用户root的宿主目录 /sbin 系统中的管理命令，普通用户不能执行 /tmp 系统的临时目录 /usr 系统应用程序的相关文件 /var 系统中经常变化的文件如日志文件和用户邮件 / / \ / \ etc home

/ / / / profilexiaoming / \ 配置系统 .bash_profile 环境变量配置用户的环境变量环境变量：配置.bashrc文件可以指定某些程序在用户登录的时候就自动启动系统环境变量设置：在root目录下 Vi .bash_profile 修改PATH=$PATH:$HOME/bin :/安装目录/bin 需要退出（quit），重新登陆当希望临时加入某个环境变量：用export PATH =$PATH : $HOME /bin:/root/test/t1 已定义好的环境变量： SHELL:默认的shell PATH:路径 USER：当前登录用户的用户名显示变量内容：echo $PATH echo $USER echo $SHELL 也可以使用env命令显示环境变量通配符： * 代表多个字母或数字？一个别名：命令：alias显示系统当前定义的所有alias aliascp ='cp-i' aliasll='ls -l --color = tty' 2. linux 基本命令 2.0 重启 shutdown - h now 立刻关机 shutdown - r now 重启 reboot 重启 2.1 文件查看和连接命令 cat cat[选项] …

Hadoop大数据开发基础教学进度表

学院课程教学进度计划表（20 ～20 学年第二学期）课程名称Hadoop大数据开发基础授课学时48 主讲（责任）教师参与教学教师授课班级/人数专业（教研室）填表时间专业（教研室）主任教务处编印年月

一、课程教学目的通过本课程的学习，使学生了解Hadoop集群的基本框架，Hadoop的基本理论，以及Hadoop的核心组件HDFS和MapReduce的原理和使用。为学生今后使用大数据技术挖掘、学习其他大数据技术奠定基础。同时，本课程将紧密结合实际，不仅通过大量的实践操作和练习提高学生的动手实践能力；而且会提供实际的案例，讲解实际项目的开发流程，通过案例讲解启发学生思维，并通过学生的实际操作来增强学生对于实际案例的思考以及实现，为学生毕业后能更快地适应工作环境创造条件。二、教学方法及手段本课程将采用理论与实践相结合的教学方法。在理论上，通过任务引入概念、原理和方法。在实践上，对于安装配置的内容，先有教师讲解与演练，再将安装教程发给学生，由学生自主完成；教学过程中的任务、实践操作、练习，可由教师提供简单思路，学生自主完成。要求学生自己动手搭建Hadoop集群、分析实例，学习基本理论和方法，结合已有的知识，适当布置练习、实践题，组织一些讨论，充分调动学生的主观能动性，提高学生的动手实践能力，以达到本课程的教学目的。三、课程考核方法突出学生解决实际问题的能力，加强过程性考核。课程考核的成绩构成= 平时作业（20%）+ 课堂参与（10%）+ 期末考核（70%），期末考试建议采用开卷形式，试题应包括基本概念、基本理论、程序设计、综合应用等部分，题型可采用判断题、选择、简答、应用题等方式。

linux基础知识与基本命令

Linux基本命令与操作一:linux基本知识与命令操作二:linux下的实践(操作系统的安装以及oracle数据库的安装) 三:linux下关于产品的操作(产品环境的部署,备份与恢复) 四:linux服务器的安全配置以及oracle数据库的调优. 一:linux基本知识 1:Linux是由一个芬兰Helsinki大学的学生Linus Torvalds开发的UNIX的克隆。在Linus上大学的时候，由于AT&T与加州大学伯克莱分校在BSD版权问题上发生了法律纠纷，导致BSD的源代码还不能自由使用，所以Linus写了他自己的UNIX版本. 2:Linux只是一个内核，是由Linus Torvalds个人维护的。作为一个完整的系统，Linux中还加入了许多GNU的东西。所以Linux更确切的称呼应该是GNU/Linux。 Linux有很多发行商，像Redhat，SuSe，Caldera，Debian，Slackware等等，它们互相之间是不兼容的，各个厂商都加入了很多自己的东西。所以说Linux正在像当年的UNIX一样走向分裂。不过，幸运的是已经有权威人士意识到了这一点。 3:Linux与UNIX有什么不同？ Linux也是属于UNIX家族的一员，它有许多特性是与UNIX相同的，它们之间的最大区别在于以下两点： 1）UNIX系统大多是与硬件配套的，而Linux则可运行在多种硬件平台上； 2）UNIX是商业软件，而Linux是自由软件，免费、公开源代码的。常见的unix系统有sun solairs IBM AIX,hp hp-unix. 经过咱们产品测试的unix系统有sun solairs, hp-unix,产品可以在这两种unix系统上运行,理论上产品也可以在IBM AIX上面运行,但是没有经过测试. 4:RedHat Linux有哪些特点？ RedHat Linux是最成熟的一种Linux发行版，其无论在销售还是装机量上都是市场上的老大。在中国老一辈Linux爱好者中几乎都是RedHat的使用者。市场上有大量的文章是针对RedHat 来说的。RedHat Linux朴实、简洁、稳定，是作为商业应用、钻研Linux的好平台。 5: RedHat Linux分类 Red Hat linux: (1)Red Hat linux 个人版 (2)Red Hat Enterprise Linux 企业版 Red Hat linux 个人版 linux6.1 7.0 7.3 8.0 9.0 关于7.3(最稳定的版本)

hadoop平台搭建-入门详细教程(含视频)

Hadoop平台搭建说明 1.Hadoop节点规划本次安装规划使用三个节点，每个节点都使用centos系统。三个节点的hostname分别规划为：centoshadoop1、centoshadoop2、centoshadoop3（此处为本教程参数，可根据实际环境情况修改）三个节点的ip地址分别规划为：192.168.65.57、192.168.65.58、192.168.65.59（此处为本教程参数，根据实际环境情况修改） 2.平台搭建使用的软件下载如下软件操作系统安装包：Centos6.3_x64 Jdk安装包：jdk-6u37-linux-x64.bin Hadoop安装包：hadoop-1.1.2.tar.gz 3.安装centos操作系统安装三个节点的操作系统，安装过程省略。 4.配置centoshadoop1节点 4.1.修改节点hostname [root@localhost ~]# vi /etc/sysconfig/network HOSTNAME=centoshadoop1 [root@localhost ~]# vi /etc/hosts …… 192.168.65.57 centoshadoop1 192.168.65.58 centoshadoop2 192.168.65.59 centoshadoop3 [root@localhost ~]#reboot

4.2.关闭iptables防火墙 [root@centoshadoop1~]#service iptables stop 注意每次操作系统重启后都要操作 4.3.建立无ssh密码登陆生成签名文件 [root@centoshadoop1~]#cd /root [root@centoshadoop1~]#ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa [root@centoshadoop1~]#cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys [root@centoshadoop1~]# 测试本地SSH无密码登录 [root@centoshadoop1~]#sshcentoshadoop1 4.4.安装jdk 上传jdk-6u37-linux-x64.bin到/root目录下 [root@centoshadoop1~]#chmod 777 jdk-6u37-linux-x64.bin [root@centoshadoop1~]#./jdk-6u37-linux-x64.bin [root@centoshadoop1~]#ll 查看生成jdk-6u37-linux-x64目录 4.5.安装hadoop软件上传hadoop-1.1.2.tar.gz到/root目录下 [root@centoshadoop1~]#tar -zvxfhadoop-1.1.2.tar.gz [root@centoshadoop1~]#ll 查看生成hadoop-1.1.2目录 [root@centoshadoop1~]#vi/conf/core-site.xml https://www.doczj.com/doc/6a14276311.html, hdfs://192.168.65.57:9000

大数据技术之MySQL高级

尚硅谷大数据技术之MySQL高级版本V3.0 第1章MySQL简介 1.1 什么是MySQL （1）MySQL是一个关系型数据库管理系统，由瑞典MySQL AB公司开发，目前属于Oracle 公司。（2）Mysql是开源的，可以定制的，采用了GPL协议，你可以修改源码来开发自己的Mysql系统。（3）MySQL使用标准的SQL数据语言形式。（4）MySQL可以允许于多个系统上，并且支持多种语言。这些编程语言包括C、C++、Python、Java、Perl、PHP、Eiffel、Ruby和Tcl等。（5）MySQL支持大型数据库，支持5000万条记录的数据仓库，32位系统表文件最大可支持4GB，64位系统支持最大的表文件为8TB。 1.2 在Linux上安装MySQL 1.2.1 检查当前系统是否安装过MySQL CentOS 6命令：rpm -qa|grep mysql 默认Linux在安装的时候，自带了mysql相关的组件。先卸载系统自带的mysql，执行卸载命令rpm -e --nodeps mysql-libs 1

CentOS 7命令：rpm -qa|grep mariadb 不检查依赖卸载检查/tmp目录的权限是否是满的 1.2.2 Mysql的安装安装的版本是mysql 5.7，官网下载地址：https://www.doczj.com/doc/6a14276311.html,/downloads/mysql/ 1）通过Xft5文件传输工具将rpm安装包传输到opt目录下 2）执行rpm安装，必须按照下面的顺序安装 1)rpm -ivh mysql-community-common-5.7.16-1.el7.x86_64.rpm 2)rpm -ivh mysql-community-libs-5.7.16-1.el7.x86_64.rpm 3)rpm -ivh mysql-community-client-5.7.16-1.el7.x86_64.rpm 4)rpm -ivh mysql-community-server-5.7.16-1.el7.x86_64.rpm 2

Hadoop基础知识面试题大汇总

1.Hadoop集群可以运行的3个模式分别是什么, 都有哪些注意点？ ?单机（本地）模式：这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。在单机模式（standalone）中不会存在守护进程，所有东西都运行在一个JVM上。这里同样没有DFS，使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序，这也是最少使用的一个模式。 ?伪分布式模式：也是在一台单机上运行，但用不同的Java进程模仿分布式运行中的各类结点 (NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode)，伪分布式（Pseudo）适用于开发和测试环境，在这个模式中，所有守护进程都在同一台机器上运行。 ?全分布式模式：全分布模式通常被用于生产环境，使用N台主机组成一个Hadoop集群，Hadoop守护进程运行在每台主机之上。这里会存在Namenode 运行的主机，Datanode运行的主机，以及task tracker运行的主机。在分布式环境下，主节点和从节点会分开。 2. VM是否可以称为Pseudo？不是，两个事物，同时Pseudo只针对Hadoop。 3. 当Job Tracker宕掉时，Namenode会发生什么？当Job Tracker失败时，集群仍然可以正常工作，只要Namenode没问题。 4. 是客户端还是Namenode决定输入的分片？这并不是客户端决定的，在配置文件中以及决定分片细则。 5. 是否可以在Windows上运行Hadoop？可以，但是最好不要这么做，Red Hat Linux或者是Ubuntu才是Hadoop的最佳操作系统。 6. Hadoop是否遵循UNIX模式？是的，在UNIX用例下，Hadoop还拥有“conf”目录。 7. Hadoop安装在什么目录下？ Cloudera和Apache使用相同的目录结构，Hadoop被安装在 cd/usr/lib/hadoop-0.20/。 8. Namenode、Job tracker和task tracker的端口号是？ Namenode，70；Job tracker，30；Task tracker，60。

07_尚硅谷大数据之HBase优化

第7章HBase优化 7.1 高可用在HBase中Hmaster负责监控RegionServer的生命周期，均衡RegionServer的负载，如果Hmaster挂掉了，那么整个HBase集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。 1）关闭HBase集群（如果没有开启则跳过此步） [atguigu@hadoop102 hbase]$ bin/stop-hbase.sh 2）在conf目录下创建backup-masters文件 [atguigu@hadoop102 hbase]$ touch conf/backup-masters 3）在backup-masters文件中配置高可用HMaster节点 [atguigu@hadoop102 hbase]$ echo hadoop103 > conf/backup-masters 4）将整个conf目录scp到其他节点 [atguigu@hadoop102 hbase]$ scp -r conf/ hadoop103:/opt/modules/cdh/hbase-0.98.6-cdh5.3.6/ [atguigu@hadoop102 hbase]$ scp -r conf/ hadoop104:/opt/modules/cdh/hbase-0.98.6-cdh5.3.6/ 5）打开页面测试查看 0.98版本之前：http://hadooo102:60010 0.98版本及之后：http://hadooo102:16010 7.2 预分区每一个region维护着startRow与endRowKey，如果加入的数据符合某个region维护的rowKey 范围，则该数据交给这个region维护。那么依照这个原则，我们可以将数据索要投放的分区提前大致的规划好，以提高HBase性能。 1）手动设定预分区 hbase> create 'staff','info','partition1',SPLITS => ['1000','2000','3000','4000'] 2）生成16进制序列预分区 create 'staff2','info','partition2',{NUMREGIONS => 15, SPLITALGO => 'HexStringSplit'} 3）按照文件中设置的规则预分区创建splits.txt文件内容如下： create 'staff3','partition3',SPLITS_FILE => 'splits.txt' 4）使用JavaAPI创建预分区

linux基础知识

Linux基础知识 ?什么是Linux ?–简单地说，Linux是一套免费使用和自由传播的类Unix操作系统，它主要用于基于Intel x86系列CPU的计算机上。其目的是建立不受任何商品化软件的版权制约的、全世界都能自由使用的Unix兼容产品。 –Linux操作系统是可以运行在许多不同类型的计算机上的一种操作系统的“内核”。它是提供命令行或者程序与计算机硬件之间接口的软件的核心部分。 ?Linux操作系统遵从GNU公共许可证（GNU Public License，简称GPL）的规定。Linux对外的一个重要的特点就是”Free”，自由和免费。Linux之所以受到广大计算机爱好者的喜爱，主要原因有两个，一是它属于自由软件，用户不用支付任何费用就可以获得它和它的源代码，并且可以根据自己的需要对它进行必要的修改和无约束地继续传播。另一个原因是，它具有Unix的全部功能，任何使用Unix操作系统或想要学习Unix操作系统的人都可以从Linux中获益。目录一、虚拟机搭建linux学习环境 (2) 二、Linux目录结构介绍 (5) 三、Linux文件类型介绍 (8) 四、文件权限管理 (16) 五、vim介绍与使用 (19) 六、压缩解压管理.................. .... ..24 2010-6-301

一、虚拟机搭建linux学习环境介绍使用虚拟机搭建linux学习环境 1.为什么要选择Linux作为学习平台？ 2.Linux发行版本介绍 3.虚拟机软件VMWare介绍 4.利用虚拟机安装Linux操作系统（Centos 安装文档） .为什么要选择Linux作为学习平台？ 1.1windows: 全自动洗衣机。设计哲学：让普通人都可以方便的使用计算机 1.2linux/unix:手动洗衣机。设计哲学：制作一个稳定的操作系统。概念简单，设计可靠2010-6-302

02_尚硅谷大数据之Hive安装

第2章Hive安装 2.1 Hive安装地址 1）Hive官网地址： https://www.doczj.com/doc/6a14276311.html,/ 2）文档查看地址： https://https://www.doczj.com/doc/6a14276311.html,/confluence/display/Hive/GettingStarted 3）下载地址： https://www.doczj.com/doc/6a14276311.html,/dist/hive/ 4）github地址： https://https://www.doczj.com/doc/6a14276311.html,/apache/hive 2.2 Hive安装部署 1）Hive安装及配置（1）把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下（2）解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面 [atguigu@hadoop102 software]$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/ （3）修改apache-hive-1.2.1-bin.tar.gz的名称为hive [atguigu@hadoop102 module]$ mv apache-hive-1.2.1-bin/ hive （4）修改/opt/module/hive/conf目录下的hive-env.sh.template名称为hive-env.sh [atguigu@hadoop102 conf]$ mv hive-env.sh.template hive-env.sh （5）配置hive-env.sh文件（a）配置HADOOP_HOME路径 export HADOOP_HOME=/opt/module/hadoop-2.7.2 （b）配置HIVE_CONF_DIR路径 export HIVE_CONF_DIR=/opt/module/hive/conf 2）Hadoop集群配置（1）必须启动hdfs和yarn [atguigu@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh [atguigu@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh