Bigdata

大数据软件生态分为三方面：数据存储：Hadoop HDFS, HBase, KUDU, 阿里云 OSS, AWS S3 数据计算：Hadoop MapReduce, Hive, Spark, Flink 数据传输：Kafka, Pulsar, Flume, Sqoop Hadoop 是一个大数据整体解决方案，包括三大组件：分布式数据存储 HDFS，分布式数据计算 MapReduce 和分布式资源调度 YARN。本科的时候就做过 Hadoop 实验，几年之后对 Hadoop 是啥都几乎没概念了，刚好又需要做个实验，就记录一下实验过程，从简单的 URLs 统计看 Hadoop 和 HDFS 的基本功能。本实验在虚拟机 VirtualBox 中完成，系统镜像为 Ubuntu。虚拟机集群部署准备虚拟机首先准备三台虚拟机，主机名和配置如下。节点 CPU Mem ubuntu-server-0 1 4GB ubuntu-server-1 1 2GB ubuntu-server-2 1 2GB 在 Vbox 中将虚拟机网络都配制成桥接模式，以便相互之间可以连通。设置虚拟机固定 IP，免得重启后发生变动。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 # 1....