Hadoop/HDFS 虚拟机集群部署及 MapReduce 实验
大数据软件生态分为三方面: 数据存储:Hadoop HDFS, HBase, KUDU, 阿里云 OSS, AWS S3 数据计算:Hadoop MapReduce, Hive, Spark, Flink 数据传输:Kafka, Pulsar, Flume, Sqoop Hadoop 是一个大数据整体解决方案,包括三大组件:分布式数据存储 HDFS,分布式数据计算 MapReduce 和分布式资源调度 YARN。本科的时候就做过 Hadoop 实验,几年之后对 Hadoop 是啥都几乎没概念了,刚好又需要做个实验,就记录一下实验过程,从简单的 URLs 统计看 Hadoop 和 HDFS 的基本功能。 本实验在虚拟机 VirtualBox 中完成,系统镜像为 Ubuntu。 虚拟机集群部署 准备虚拟机 首先准备三台虚拟机,主机名和配置如下。 节点 CPU Mem ubuntu-server-0 1 4GB ubuntu-server-1 1 2GB ubuntu-server-2 1 2GB 在 Vbox 中将虚拟机网络都配制成桥接模式,以便相互之间可以连通。 设置虚拟机固定 IP,免得重启后发生变动。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 # 1....