当前位置：文档之家› hadoop学习笔记整理

hadoop学习笔记整理

Hadoop题库

1. 以下哪一项不属于Hadoop可以运行的模式___C___。 A. 单机（本地）模式 B. 伪分布式模式 C. 互联模式 D. 分布式模式 2. Hadoop的作者是下面哪一位__B____。 A. Martin Fowler B. Doug cutting C. Kent Beck D. Grace Hopper 3. 下列哪个程序通常与 NameNode 在同一个节点启动__D___。 A. TaskTracker B. DataNode C. SecondaryNameNode D. Jobtracker 4. HDFS 默认 Block Size的大小是___B___。 5. 下列哪项通常是集群的最主要瓶颈____C__。 A. CPU B. 网络

C. 磁盘IO D. 内存 6. 下列关于MapReduce说法不正确的是_____C_。 A. MapReduce是一种计算框架 B. MapReduce来源于google的学术论文 C. MapReduce程序只能用java语言编写 D. MapReduce隐藏了并行计算的细节，方便使用 8. HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是 __D____。 A．一次写入，少次读 B．多次写入，少次读 C．多次写入，多次读 D．一次写入，多次读 9. HBase依靠__A____存储底层数据。 A. HDFS B. Hadoop C. Memory D. MapReduce 10. HBase依赖___D___提供强大的计算能力。 A. Zookeeper B. Chubby C. RPC D. MapReduce

运维面试题含答案

运维工程师面试题姓名: 答题时间: 1.新安装MYSQL后怎样提升MYSQL的安全级别？ A.修改mysql默认端口下可以通过iptables来限制访问mysql端口的IP地址 C.对所有用户设置较复杂密码并严格指定对应账号的访问IP（可在mysql库中user表中指定用户的访问可访问IP地址）特权账号的处理（建议给root账号设置强密码，并指定只允许本地登录） E.开启二进制查询日志和慢查询日志安装目录及数据存储目录权限控制：给mysql安装目录读取权限，给mysql日志和数据所在目录读取和写入权限 G.删除无用mysql账号和删除无用的数据库（安装好的mysql默认会有个test库，可将其删除） 2.MYSQL的主从原理，怎么配置文件？整体上来说，复制有3个步骤：将改变记录到二进制日志(binary log)中（这些记录叫做二进制日志事件，binary log events）；将master的binary log events拷贝到它的中继日志(relay log)；重做中继日志中的事件，将改变反映它自己的数据。 3.mysql主从复制的优点 <1> 如果主服务器出现问题，可以快速切换到从服务器提供的服务； <2> 可以在从服务器上执行查询操作，降低主服务器的访问压力；

<3> 可以在从服务器上执行备份，以避免备份期间影响主服务器的服务。 4.Mysql复制的基本原理过程（1）Slave上面的IO线程连接上Master，并请求从指定日志文件的指定位置（或者从最开始的日志）之后的日志内容；（2）Master接收到来自Slave的IO线程的请求后，通过负责复制的IO线程根据请求信息读取指定日志指定位置之后的日志信息，返回给Slave端的IO线程。返回信息中除了日志所包含的信息之外，还包括本次返回的信息在Master端binary log文件的名称以及在Binary log中的位置；（3）Slave的IO线程收到信息后，将接收到的日志内容依次写入到Slave端的RelayLog 文件（）的最末端，并将读取到的Master端的bin-log的文件名和位置记录到master-info文件中，以便在下一次读取的时候能够清楚的告诉master“我需要从某个bin-log的哪个位置开始往后的日志内容，请发给我” （4）Slave的SQL线程检测到Relay Log中新增加了内容后，会马上解析该Log文件中的内容成为在Master端真实执行时候的那些可执行的查询或操作语句，并在自身执行那些查询或操作语句，这样，实际上就是在master端和Slave端执行了同样的查询或操作语句，所以两端的数据是完全一样的。 5.为MYSQL添加一个用户？ mysql> grant select,insert,update,delete on book.* to test2@localhost identified by “abc”;? ? #增加test2用户，密码为abc。并只能在localhost这台主机上登录，并且只能访问book这个库中的表，具有查询，插入，更新，删除权限；语法：mysql> GRANT <权限> ON <库>.<表> TO ‘用户’@’主机名’ identified by “密码”; 6.写一个脚本将数据库备份并打包至远程服务器/backup目录下。 mount /mnt cd /mnt /usr/local/mysql/bin/mysqldump -hlocalhost -uroot test > tar czf rm -f

hadoop集群完整配置过程详细笔记

本文为笔者安装配置过程中详细记录的笔记 1．下载hadoop hadoop-2.7.1.tar.gz hadoop-2.7.1-src.tar.gz 64位linux需要重新编译本地库 2．准备环境 Centos6.4 64位，3台 hadoop0 192.168.1.151namenode hadoop1 192.168.1.152 datanode1 Hadoop2 192.168.1.153 datanode2 1）安装虚拟机： vmware WorkStation 10，创建三台虚拟机，创建时，直接建立用户ha,密码111111.同时为root密码。网卡使用桥接方式。安装盘、 2). 配置IP.创建完成后，设置IP,可以直接进入桌面，在如下菜单下配置IP,配置好后，PING 确认好用。 3)更改三台机器主机名切换到root用户，更改主机名。 [ha@hadoop0 ~]$ su - root Password: [root@hadoop0 ~]# hostname hadoop0 [root@hadoop0 ~]# vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop0 以上两步后重启服务器。三台机器都需要修改。 4）创建hadoop用户由于在创建虚拟机时，已自动创建，可以省略。否则用命令创建。

5）修改hosts文件 [root@hadoop0 ~]# vi /etc/hosts 127.0.0.1 localhostlocalhost.localdomain localhost4 localhost4.localdomain4 ::1localhostlocalhost.localdomain localhost6 localhost6.localdomain6 192.168.1.151 hadoop0 192.168.1.152 hadoop1 192.168.1.153 hadoop2 此步骤需要三台机器都修改。 3．建立三台机器间，无密码SSH登录。 1）三台机器生成密钥，使用hadoop用户操作 [root@hadoop0 ~]# su– ha [ha@hadoop0 ~]$ ssh -keygen -t rsa 所有选项直接回车，完成。以上步骤三台机器上都做。 2）在namenode机器上，导入公钥到本机认证文件 [ha@hadoop0 ~]$ cat ~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys 3）将hadoop1和hadoop2打开/home/ha/.ssh/ id_rsa.pub文件中的内容都拷贝到hadoop0的/home/ha /.ssh/authorized_keys文件中。如下： 4）将namenode上的/home/ha /.ssh/authorized_keys文件拷贝到hadoop1和hadoop2的/home/ha/.ssh文件夹下。同时在三台机器上将authorized_keys授予600权限。 [ha@hadoop1 .ssh]$ chmod 600 authorized_keys 5）验证任意两台机器是否可以无密码登录，如下状态说明成功，第一次访问时需要输入密码。此后即不再需要。 [ha@hadoop0 ~]$ ssh hadoop1 Last login: Tue Aug 11 00:58:10 2015 from hadoop2 4．安装JDK1.7 1）下载JDK（32或64位），解压 [ha@hadoop0 tools]$ tar -zxvf jdk-7u67-linux-x64.tar.gz 2）设置环境变量（修改/etx/profile文件）， export JAVA_HOME=/usr/jdk1.7.0_67 export CLASSPATH=:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin 3）使环境变量生效，然后验证JDK是否安装成功。

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS 本教程讲述如何配置Hadoop 集群，默认读者已经掌握了Hadoop 的单机伪分布式配置，否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。本教程由厦门大学数据库实验室出品，转载请注明。本教程适合于原生Hadoop 2，包括Hadoop 2.6.0, Hadoop 2.7.1 等版本，主要参考了官方安装教程，步骤详细，辅以适当说明，保证按照步骤来，都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。为了方便新手入门，我们准备了两篇不同系统的Hadoop 伪分布式配置教程。但其他Hadoop 教程我们将不再区分，可同时适用于Ubuntu 和CentOS/RedHat 系统。例如本教程以Ubuntu 系统为主要演示环境，但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。环境本教程使用Ubuntu 14.04 64位作为系统环境，基于原生Hadoop 2，在Hadoop 2.6.0 (stable)版本下验证通过，可适合任何Hadoop 2.x.y 版本，例如Hadoop 2.7.1，Hadoop 2.4.1 等。本教程简单的使用两个节点作为集群环境: 一个作为Master 节点，局域网IP 为192.168.1.121；另一个作为Slave 节点，局域网IP 为192.168.1.122。准备工作 Hadoop 集群的安装配置大致为如下流程: 1.选定一台机器作为Master 2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境 3.在Master 节点上安装Hadoop，并完成配置 4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境 5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上 6.在Master 节点上开启Hadoop 配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍，请前往查看，不再重复叙述。继续下一步配置前，请先完成上述流程的前 4 个步骤。网络配置假设集群所用的节点都位于同一个局域网。如果使用的是虚拟机安装的系统，那么需要更改网络连接方式为桥接（Bridge）模式，才能实现多个节点互连，例如在VirturalBox 中的设置如下图。此外，如果节点的系统是在虚拟机中直接复制的，要确保各个节点的Mac 地址不同（可以点右边的按钮随机生成MAC 地址，否则IP 会冲突）：

大数据工程师面试题

大数据工程师面试题大数据工程师面试，对于很多人来说应该都不陌生了吧，虽说大数据就业前景很好，但想要成功进入名企，并不是一件容易的事情，不仅仅需要专业的技能，还需要你在面试的时候认真准备一下。面试的时候，我们会遇到各种各样的问题，千锋讲师今天就先讲解一下面试经常会遇到的问题，Hadoop是如何工作的？ Hadoop是一个分布式文件系统（Hadoop Distributed File System），简称HDFS。Hadoop是一个能够对大量数据进行分布式处理的软件框架，以一种可靠、高效、可伸缩的方式进行数据处理。所以说Hadoop解决了大数据如何存储的问题，因而在大数据培训机构中是必须学习的课程，也是面试中面试官非常注重的一个技术点。 Hadoop是如何工作的？ Hadoop是从Google文件系统发源而来，并且他是一个用Java开发的跨平台的应用。核心组件有: Hadoop Common，拥有其他模块所依赖的库和基础

工具，Hadoop分布式文件系统(HDFS)，负责存储，Hadoop YARN，管理计算资源，和Hadoop MapReduce，负责处理的过程。 Hadoop把文件拆成小块并且把他们分发给集群中的节点。然后，它使用打包的代码分发到节点上并行处理数据。这意味着可以处理数据的速度会比使用传统的体系结构的更快。一个典型的Hadoop集群都会有主节点和从节点或者叫工作节点。主节点有一个任务跟踪器，任务调度，名字节点和数据节点组成。从节点通常作为一个数据节点和任务调度器，不过特殊的场景下程序可能只有数据节点然后在其他的从节点进行处理计算。在大的Hadoop集群中，通常会使用一个专用的名字节点来管理HDFS节点的文件系统索引信息，这防止了文件系统的数据丢失和损坏。千锋教育拥有一支的强师队伍，在教学研究方面，我们老师不断的推陈出新，探索更新的教学方式，结合时代所需不断更新课程大纲，加强学生对于知识的理解和运用。千锋讲师对于大数据行业时刻保持一定的敏感性和前瞻性，定期与各大企业的技术官交流分析，掌握大数据的发展动向，不仅仅可以帮助同学们更好的学习大数据技术，还会预测一些大数据工程师面试题，为同学们的就业之路披荆斩棘。关键词：大数据工程师面试题

hadoop练习题--带答案资料

h a d o o p练习题--带答案

Hadoop 练习题姓名：分数：单项选择题 1.下面哪个程序负责HDFS数据存储。 a)NameNode b)Jobtracker c)Datanode √ d)secondaryNameNode e)tasktracker 2.HDfS中的block默认保存几份？ a)3份√ b)2份 c)1份 d)不确定 3.下列哪个程序通常与NameNode在一个节点启动？ a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker√ 4.Hadoop作者 a)Martin Fowler b)Kent Beck c)Doug cutting√ 5.HDFS默认Block Size a)32MB b)64MB√ c)128MB 6.下列哪项通常是集群的最主要的性能瓶颈 a)CPU b)网络 c)磁盘√ d)内存

7.关于SecondaryNameNode哪项是正确的？ a)它是NameNode的热备 b)它对内存没有要求 c)它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间√ d)SecondaryNameNode应与NameNode部署到一个节点 8.一个gzip文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？ a) 1 b)2√ c) 3 d) 4 9.HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce 任务读取该文件时input split大小为？ a)64MB b)75MB√ c)一个map读取64MB，另外一个map读取11MB 10.HDFS有一个LZO（with index）文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为？ a)64MB b)75MB c)一个map读取64MB，另外一个map读取11MB√ 多选题： 11.下列哪项可以作为集群的管理工具 a)Puppet√ b)Pdsh√ c)Cloudera Manager√ d)Rsync + ssh + scp√ 12.配置机架感知的下面哪项正确 a)如果一个机架出问题，不会影响数据读写√ b)写入数据的时候会写到不同机架的DataNode中√ c)MapReduce会根据机架获取离自己比较近的网络数据√ 13.Client端上传文件的时候下列哪项正确 a)数据经过NameNode传递给DataNode b)Client端将文件以Block为单位，管道方式依次传到DataNode√ c)Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作 d)当某个DataNode失败，客户端会继续传给其它DataNode √

Hadoop-0.20.2详细安装及疑难问题

安装 2011年4月4日 10:13 Hadoop-0.20.2安装使用 1、Cygwin 安装 ssh 2、按照以下的文档配置ssh 在Windows上安装Ha doop教程.pdf 3、几个配置文件的配置 3.1、conf/core-site.xml https://www.doczj.com/doc/002825922.html, hdfs://localhost:9000 true hadoop.tmp.dir /workspace/temp/hadoop/tmp/hadoop- ${https://www.doczj.com/doc/002825922.html,} true 3.2、conf/hdfs-site.xml dfs.replication 1 true https://www.doczj.com/doc/002825922.html,.dir /workspace/temp/hadoop/data/hadoop/name true

dfs.data.dir /workspace/temp/hadoop/data/hadoop/data true 3.3、conf/mapred-site.xml mapred.job.tracker localhost:9001 true 3.4、conf/hadoop-env.sh export JAVA_HOME=D:/workspace/tools/jdk1.6 4、解决启动的时候 ClassNotFound： org.apache.hadoop.util.PlatformName 将 %hadoop_home%\bin\hadoop-config.sh中的第190行修改为如下： JAVA_PLATFORM=`CLASSPATH=${CLASSPATH} ${JAVA} -Xmx32m -classpath ${HADOOP_COMMON_HOME}/hadoop-common-0.21.0.jar org.apache.hadoop.util.PlatformName | sed -e "s/ /_/g"` 5、命令

Hadoop最全面试题整理(附目录)

Hadoop面试题目及答案(附目录) 选择题 1.下面哪个程序负责HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 答案C datanode 2. HDfS 中的block 默认保存几份？ a)3 份b)2 份c)1 份d)不确定答案A 默认3 份 3.下列哪个程序通常与NameNode 在一个节点启动？ a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 答案D 分析：hadoop 的集群是基于master/slave 模式，namenode 和jobtracker 属于master，datanode 和tasktracker 属于slave，master 只有一个，而slave 有多个SecondaryNameNode 内存需求和NameNode 在一个数量级上，所以通常secondaryNameNode（运行在单独的物理机器上）和NameNode 运行在不同的机器上。 JobTracker 和TaskTracker JobTracker 对应于NameNode，TaskTracker 对应于DataNode，DataNode 和NameNode 是针对数据存放来而言的，JobTracker 和TaskTracker 是对于MapReduce 执行而言的。mapreduce 中几个主要概念，mapreduce 整体上可以分为这么几条执行线索：jobclient，JobTracker 与TaskTracker。 1、JobClient 会在用户端通过JobClient 类将应用已经配置参数打包成jar 文件存储到hdfs，并把路径提交到Jobtracker,然后由JobTracker 创建每一个Task（即MapTask 和ReduceTask）并将它们分发到各个TaskTracker 服务中去执行。 2、JobTracker 是一个master 服务，软件启动之后JobTracker 接收Job，负责调度Job 的每一个子任务task 运行于TaskTracker 上，并监控它们，如果发现有失败的task 就重新运行它。一般情况应该把JobTracker 部署在单独的机器上。 3、TaskTracker 是运行在多个节点上的slaver 服务。TaskTracker 主动与JobTracker 通信，接收作业，并负责直接执行每一个任务。TaskTracker 都需要运行在HDFS 的DataNode 上。 4. Hadoop 作者 a)Martin Fowler b)Kent Beck c)Doug cutting 答案C Doug cutting 5. HDFS 默认Block Size a)32MB b)64MB c)128MB 答案：B 6. 下列哪项通常是集群的最主要瓶颈 a)CPU b)网络c)磁盘IO d)内存答案：C 磁盘首先集群的目的是为了节省成本，用廉价的pc 机，取代小型机及大型机。小型机和大型机

(完整版)hadoop常见笔试题答案

Hadoop测试题一．填空题，1分（41空），2分（42空）共125分 1.(每空1分) datanode 负责HDFS数据存储。 2.(每空1分)HDFS中的block默认保存 3 份。 3.(每空1分)ResourceManager 程序通常与NameNode 在一个节点启动。 4.(每空1分)hadoop运行的模式有：单机模式、伪分布模式、完全分布式。 5.(每空1分)Hadoop集群搭建中常用的4个配置文件为：core-site.xml 、hdfs-site.xml 、mapred-site.xml 、yarn-site.xml 。 6.(每空2分)HDFS将要存储的大文件进行分割，分割后存放在既定的存储块中，并通过预先设定的优化处理，模式对存储的数据进行预处理，从而解决了大文件储存与计算的需求。 7.(每空2分)一个HDFS集群包括两大部分，即namenode 与datanode 。一般来说，一个集群中会有一个namenode 和多个datanode 共同工作。 8.(每空2分) namenode 是集群的主服务器，主要是用于对HDFS中所有的文件及内容数据进行维护，并不断读取记录集群中datanode 主机情况与工作状态，并通过读取与写入镜像日志文件的方式进行存储。 9.(每空2分) datanode 在HDFS集群中担任任务具体执行角色，是集群的工作节点。文件被分成若干个相同大小的数据块，分别存储在若干个datanode 上，datanode 会定期向集群内namenode 发送自己的运行状态与存储内容，并根据namnode 发送的指令进行工作。 10.(每空2分) namenode 负责接受客户端发送过来的信息，然后将文件存储位置信息发送给client ，由client 直接与datanode 进行联系，从而进行部分文件的运算与操作。 11.(每空1分) block 是HDFS的基本存储单元，默认大小是128M 。 12.(每空1分)HDFS还可以对已经存储的Block进行多副本备份，将每个Block至少复制到 3 个相互独立的硬件上，这样可以快速恢复损坏的数据。 13.(每空2分)当客户端的读取操作发生错误的时候，客户端会向namenode 报告错误，并请求namenode 排除错误的datanode 后，重新根据距离排序，从而获得一个新的的读取路径。如果所有的datanode 都报告读取失败，那么整个任务就读取失败。14.(每空2分)对于写出操作过程中出现的问题，FSDataOutputStream 并不会立即关闭。客户端向Namenode报告错误信息，并直接向提供备份的datanode 中写入数据。备份datanode 被升级为首选datanode ，并在其余2个datanode 中备份复制数据。 NameNode对错误的DataNode进行标记以便后续对其进行处理。 15.(每空1分)格式化HDFS系统的命令为：hdfs namenode –format 。 16.(每空1分)启动hdfs的shell脚本为：start-dfs.sh 。 17.(每空1分)启动yarn的shell脚本为：start-yarn.sh 。 18.(每空1分)停止hdfs的shell脚本为：stop-dfs.sh 。 19.(每空1分)hadoop创建多级目录（如：/a/b/c）的命令为：hadoop fs –mkdir –p /a/b/c 。 20.(每空1分)hadoop显示根目录命令为：hadoop fs –lsr 。 21.(每空1分)hadoop包含的四大模块分别是：Hadoop common 、HDFS 、

hadoop3安装和配置

hadoop3.0.0安装和配置1.安装环境硬件：虚拟机操作系统：Centos 7 64位 IP：192.168.0.101 主机名：dbp JDK：jdk-8u144-linux-x64.tar.gz Hadoop：hadoop-3.0.0-beta1.tar.gz 2.关闭防火墙并配置主机名 [root@dbp]#systemctl stop firewalld #临时关闭防火墙 [root@dbp]#systemctl disable firewalld #关闭防火墙开机自启动 [root@dbp]#hostnamectl set-hostname dbp 同时修改/etc/hosts和/etc/sysconfig/network配置信息 3.配置SSH无密码登陆 [root@dbp]# ssh-keygen -t rsa #直接回车 [root@dbp]# ll ~/.ssh [root@dbp .ssh]# cp id_rsa.pub authorized_keys [root@dbp .ssh]# ssh localhost #验证不需要输入密码即可登录

4.安装JDK 1、准备jdk到指定目录 2、解压 [root@dbp software]# tar–xzvf jdk-8u144-linux-x64.tar.gz [root@dbp software]# mv jdk1.8.0_144/usr/local/jdk #重命名4、设置环境变量 [root@dbp software]# vim ~/.bash_profile 5、使环境变量生效并验证 5.安装Hadoop3.0.0 1、准备hadoop到指定目录 2、解压

centos下hadoop2.6.0配置

Hadoop-2.6.0配置前面的部分跟配置Hadoop-1.2.1的一样就可以，什么都不用变，完全参考文档1即可。下面的部分就按照下面的做就可以了。 hadoop-2.6.0的版本用张老师的。下面的配置Hadoop hadoop-2.6.0的部分 1.修改hadoop- 2.6.0/etc/hadoop/hadoop-env.sh，添加JDK支持： export JAVA_HOME=/usr/java/jdk1.6.0_45 如果不知道你的JDK目录，使用命令echo $JAVA_HOME查看。 2.修改hadoop-2.6.0/etc/hadoop/core-site.xml 注意：必须加在节点内 hadoop.tmp.dir /home/hadoop/hadoop-2.6.0/tmp Abase for other temporary directories. https://www.doczj.com/doc/002825922.html, hdfs://master:9000 3.修改hadoop-2.6.0/etc/hadoop/hdfs-site.xml https://www.doczj.com/doc/002825922.html,.dir /home/hadoop/hadoop-2.6.0/dfs/name Path on the local filesystem where the NameNode stores the namespace and transactions logs persistently. dfs.data.dir /home/hadoop/hadoop-2.6.0/dfs/data Comma separated list of paths on the local filesystem of a DataNode where it should store its blocks. dfs.replication 1 4.修改hadoop-2.6.0/etc/hadoop/mapred-site.xml

大数据技术Hadoop面试题

大数据技术Hadoop面试题,看看你能答对多少？单项选择题 1. 下面哪个程序负责HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2. HDfS 中的block 默认保存几份？ a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与NameNode 在一个节点启动？ a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 4. Hadoop 作者 a)Martin Fowler b)Kent Beck c)Doug cutting 5. HDFS 默认Block Size a)32MB b)64MB c)128MB 6. 下列哪项通常是集群的最主要瓶颈 a)CPU b)网络 c)磁盘 d)内存 7. 关于SecondaryNameNode 哪项是正确的？ a)它是NameNode 的热备 b)它对内存没有要求 c)它的目的是帮助NameNode 合并编辑日志，减少NameNode 启动时间 d)SecondaryNameNode 应与NameNode 部署到一个节点多选题： 8. 下列哪项可以作为集群的管理工具 a)Puppet b)Pdsh c)Cloudera Manager d)d)Zookeeper

9. 配置机架感知的下面哪项正确 a)如果一个机架出问题，不会影响数据读写 b)写入数据的时候会写到不同机架的DataNode 中 c)MapReduce 会根据机架获取离自己比较近的网络数据 10. Client 端上传文件的时候下列哪项正确 a)数据经过NameNode 传递给DataNode b)Client 端将文件切分为Block，依次上传 c)Client 只上传数据到一台DataNode，然后由NameNode 负责Block 复制工作 11. 下列哪个是Hadoop 运行的模式 a)单机版 b)伪分布式 c)分布式 12. Cloudera 提供哪几种安装CDH 的方法 a)Cloudera manager b)Tar ball c)Yum d)Rpm 判断题： 13. Ganglia 不仅可以进行监控，也可以进行告警。（） 14. Block Size 是不可以修改的。（） 15. Nagios 不可以监控Hadoop 集群，因为它不提供Hadoop 支持。（） 16. 如果NameNode 意外终止，SecondaryNameNode 会接替它使集群继续工作。（） 17. Cloudera CDH 是需要付费使用的。（） 18. Hadoop 是Java 开发的，所以MapReduce 只支持Java 语言编写。（） 19. Hadoop 支持数据的随机读写。（） 20. NameNode 负责管理metadata，client 端每次读写请求，它都会从磁盘中读取或则会写入metadata 信息并反馈client 端。（） 21. NameNode 本地磁盘保存了Block 的位置信息。（） 22. DataNode 通过长连接与NameNode 保持通信。（） 23. Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。（） 24. Slave 节点要存储数据，所以它的磁盘越大越好。（） 25. hadoop dfsadmin –report 命令用于检测HDFS 损坏块。（） 26. Hadoop 默认调度器策略为FIFO（） 27. 集群内每个节点都应该配RAID，这样避免单磁盘损坏，影响整个节点运行。（） 28. 因为HDFS 有多个副本，所以NameNode 是不存在单点问题的。（） 29. 每个map 槽就是一个线程。（） 30. Mapreduce 的input split 就是一个block。（） 31. NameNode 的Web UI 端口是50030，它通过jetty 启动的Web 服务。（） 32. Hadoop 环境变量中的HADOOP_HEAPSIZE 用于设置所有Hadoop 守护线程的内存。它默认是200 GB。（） 33. DataNode 首次加入cluster 的时候，如果log 中报告不兼容文件版本，那需要NameNode执行“Hadoop namenode -format”操作格式化磁盘。（）【编辑推荐】没有数据分析大数据什么也不是...... 大数据告诉你，真正的白富美的生活是怎样的呢？

(完整word版)hadoop安装教程

1、VMware安装我们使用Vmware 14的版本，傻瓜式安装即可。（只要）双击如过 2.安装xshell 双击 3.安装镜像：解压centos6.5-empty解压双击打开CentOS6.5.vmx 如果打不开，在cmd窗口中输入：netsh winsock reset 然后重启电脑。进入登录界面，点击other 用户名：root 密码：root 然后右键open in terminal 输入ifconfig 回车查看ip地址

打开xshell

点击链接如果有提示，则接受输入用户名：root 输入密码：root 4.xshell连接虚拟机打开虚拟机，通过ifconfig查看ip

5.安装jkd 1.解压Linux版本的JDK压缩包 mkdir：创建目录的命令 rm -rf 目录/文件删除目录命令 cd 目录进入指定目录 rz 可以上传本地文件到当前的linux目录中（也可以直接将安装包拖到xshell窗口） ls 可以查看当前目录中的所有文件 tar 解压压缩包（Tab键可以自动补齐文件名）

pwd 可以查看当前路径文档编辑命令: vim 文件编辑命令 i:进入编辑状态 Esc（左上角）：退出编辑状态 :wq 保存并退出 :q! 不保存退出 mkdir /home/software #按习惯用户自己安装的软件存放到/home/software目录下 cd /home/software #进入刚刚创建的目录 rz 上传jdk tar包 #利用xshell的rz命令上传文件(如果rz命令不能用，先执行yum install lrzsz -y ，需要联网) tar -xvf jdk-7u51-linux-x64.tar.gz #解压压缩包 2.配置环境变量 1）vim /etc/profile 2）在尾行添加 #set java environment JAVA_HOME=/home/software/jdk1.8.0_65 JAVA_BIN=/home/software/jdk1.8.0_65/bin PATH=$JAVA_HOME/bin:$PATH CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export JAVA_HOME JAVA_BIN PATH CLASSPATH Esc 退出编辑状态 :wq #保存退出注意JAVA_HOME要和自己系统中的jdk目录保持一致，如果是使用的rpm包安

hadoop2.6基于yarn安装配置详解

Hadoop2.6配置详解在hadoop2.0中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步active namenode的状态，以便能够在它失败时快速进行切换。这里还配置了一个zookeeper集群，用于ZKFC（DFSZKFailoverController）故障转移，当Active NameNode挂掉了，会自动切换Standby NameNode为standby状态hadoop-2.2.0中依然存在一个问题，就是ResourceManager只有一个，存在单点故障，hadoop-2.6解决了这个问题，有两个ResourceManager，一个是Active，一个是Standby，状态由zookeeper进行协调 hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS，另一种是QJM（由cloudra提出，原理类似zookeeper）。这里我使用QJM完成。主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode 1安装前准备 1.1示例机器 192.168.0.10 hadoop1 192.168.0.20 hadoop2 192.168.0.30 hadoop3 192.168.0.40 hadoop4 每台机器都有一个hadoop用户，密码是hadoop 所有机器上安装jdk1.7。在hadoop2，hadoop3，hadoop4上安装Zookeeper3.4集群。 1.2配置ip与hostname 用root用户修改每台机器的hosts

(完整版)hadoop习题册

第一章大数据概述 1.互联网的发展分为______个阶段。 A．一 B.三 C.二 D.四 2.下列不属于大数据特点的是（）。 A.种类和来源多样化 B.数据量巨大 C.分析处理速度快 D.价值密度高 3.互联网发展的第_____个时代为智能互联网。 A.3.0 B.4.0 C.1.0 D.2.0 4.关于大数据叙述不正确的一项是（）。 A.大数据=“海量数据”+“复杂类型的数据” B.大数据是指在一定时间对内容抓取、管理和处理的数据集合 C.大数据可以及时有效的分析海量的数据 D.数据包括结构化数据、半结构化数据、结构化数据。 5.下列数据换算正确的一项为（）。 A.1YB=1024EB B.1TB=1024MB C.1PB==1024EB D.1024ZB=1EB 6.结构化数据的表现形式为______。 A.文本 B.视图 C.二维表 D.查询 7.结构化的数据，先有________,再有_________. A.数据结构 B.结构数据 C.内容结构 D.结构内容 8.结构化的数据，先有________,再有_________. A.数据结构 B.结构数据 C.内容结构 D.结构内容 9.软件是大数据的_________。 A.核心 B.部件 C.引擎 D.集合 10.大数据技术不包括( )。 A.数据计算 B.数据存储 C.数据冗余 D.数据采集 11.大数据的特点不包括（）。 A.数量大 B.类型少 C.速度快 D.价值高第二章Hadoop简介 1.下列对云栈架构层数不正确的一项为________。 A.三层云栈架构 B.四层云栈架构 C.五层云栈架构 D.六层云栈架构 2.下列______不是云计算三层架构的概括。

文档之家