WHCSRL 技术网

“洪崖杯”-大数据环境建设与数据采集技巧线上专项赛题

系列文章目录

集群安装搭建赛题解析

构建数据仓库赛题解析​​​​​​​

目录

“红亚杯”-大数据环境搭建与数据采集技能线上专题赛赛题

前言

在此鸣谢

资料链接

一、 集群安装搭建(70 / 70分)

1.比赛框架

2.比赛内容

3.版本说明

core-site.xml参数配置详情

hdfs-site.xml参数配置详情

yarn-site.xml参数配置详情

mapred-site.xml参数配置详情

二、构建数据仓库(30 / 30分)

1.比赛框架

2.比赛内容

3.版本说明


 “红亚杯”-大数据环境搭建与数据采集技能线上专题赛赛题

前言

根据“红亚杯”-大数据环境搭建与数据采集技能线上专题赛以及鈴音.博主文章结合整理,附上资料链接。

在此鸣谢

鈴音.

资料链接

链接:https://pan.baidu.com/s/1ytGL3cLGQxGltl5bHrSBQQ 
提取码:yikm 

一、 集群安装搭建(70 / 70分)

1.比赛框架

本次比赛为分布式集群搭建,共三台节点,其中master作为主节点,slave1、salve2为从节点;

2.比赛内容

  • 基础配置:修改主机名、主机映射、时区修改、时间同步、定时任务、免密访问;
  • JDK安装:环境变量;
  • Zookeeper部署:环境变量、配置文件zoo.cfg、myid;
  • Hadoop部署:环境变量、配置文件修改、设置节点文件、格式化、开启集群;
  • Hive部署:Mysql数据库配置、服务器端配置、客户端配置。

3.版本说明

内置安装/依赖包(/usr/package)已安装服务系统版本
hadoop-2.7.3.tar.gzntpCentOS Linux release 7.3.1611 (Core)
zookeeper-3.4.10.tar.gzmysql-community-server
apache-hive-2.1.1-bin.tar.gz
jdk-8u171-linux-x64.tar.gz
mysql-connector-java-5.1.47-bin.jar

core-site.xml参数配置详情

官方文档:http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/core-default.xml

core-default.xml与core-site.xml的功能是一样的,如果在core-site.xml里没有配置的属性,则会自动会获取core-default.xml里的相同属性的值

属性说明
fs.default.namehdfs://????定义master的URI和端口
hadoop.tmp.dir/????临时文件夹,指定后需将使用到的所有子级文件夹都要手动创建出来,否则无法正常启动服务。

hdfs-site.xml参数配置详情

属性说明
dfs.replication???hdfs数据块的复制份数,默认3,理论上份数越多跑数速度越快,但是需要的存储空间也更多。
dfs.namenode.name.dirfile:/usr/hadoop/hadoop-2.7.3/hdfs/????NN所使用的元数据保存
dfs.datanode.data.dirfile:/usr/hadoop/hadoop-2.7.3/hdfs/????真正的datanode数据保存路径,可以写多块硬盘,逗号分隔

yarn-site.xml参数配置详情

属性说明
yarn.resourcemanager.admin.address${yarn.resourcemanager.hostname}:18141ResourceManager 对管理员暴露的访问地址。管理员通过该地址向RM发送管理命令等。
yarn.nodemanager.aux-servicesmapreduce_shuffleNodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序

mapred-site.xml参数配置详情

属性说明
mapreduce.framework.nameyarn指定MR运行框架,默认为local

二、构建数据仓库(30 / 30分)

1.比赛框架

本次比赛为分布式集群搭建,共三台节点,其中master作为主节点,slave1、salve2为从节点;

2.比赛内容

  • 基础配置:修改主机名、主机映射、时区修改、时间同步、定时任务、免密访问;
  • JDK安装:环境变量;
  • Zookeeper部署:环境变量、配置文件zoo.cfg、myid;
  • Hadoop部署:环境变量、配置文件修改、设置节点文件、格式化、开启集群;
  • Hive部署:Mysql数据库配置、服务器端配置、客户端配置。

3.版本说明

内置安装/依赖包(/usr/package)已安装服务系统版本
hadoop-2.7.3.tar.gzntpCentOS Linux release 7.3.1611 (Core)
zookeeper-3.4.10.tar.gzmysql-community-server
apache-hive-2.1.1-bin.tar.gz
jdk-8u171-linux-x64.tar.gz
mysql-connector-java-5.1.47-bin.jar

4.数据仓库架构说明
集群中使用远程模式,使用外部数据库MySQL用于存储元数据,使用client/thrift server的连接方式进行访问。其中slave2节mysql数据库,slave1作为hive服务器端,master作为hive客户端。

推荐阅读