MapReduce
MapReduce 概述
MapReduce定义
- MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架
- MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上
MapReduce优缺点
优点
- MapReduce 易于编程
- 简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序,和写一个简单的串行程序是一摸一样的。因为这个特点使得MapReduce编程变得非常流行
- 良好的扩展性
- 计算资源不能得到满足的时候,可以通过简单的增加机器来扩展它的计算能力
- 高容错性
- 适合PB级以上海量数据的离线处理
- 实现上千台服务器集群并发工作,提供数据处理能力
缺点
- 不擅长实时计算
- MapReduce 无法像 MySQL一样,在毫秒或者秒级内返回结果
- 不擅长流式计算
- 流式计算的输入数据是动态的,而MapReduce的输入数据是静态的,不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态的
- 不擅长DAG(有向无环图)计算
- 多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。在这种情况下,MapReduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘,会造成大量的磁盘IO,导致性能非常低下
MapReduce核心思想
- 分布式的运算程序往往需要分成至少2个阶段
- 第一个阶段的MapTask并发实例,完全并发运行,互不相干
- 第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出
- MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序,串行运行
MapReduce进程
- 一个完整的MapReduce程序在分布式运行时有三类实例进程
- MrAppMaster:负责整个程序的过程调度及状态协调
- MapTask:负责Map阶段的整个数据处理流程
- ReduceTask:负责Reduce阶段的整个数据处理流程
常用数据序列化类型
Java类型 | Hadoop Writable类型 |
---|---|
Boolean | BooleanWritable |
Byte | ByteWritable |
Int | IntWritable |
Float | FloatWritable |
Long | LongWritable |
Double | DoubleWritable |
String | Text |
Map | MapWritable |
Array | ArrayWritable |
Null | NullWritable |
MapReduce编程规范
- 用户编写的程序分成三个部分:Mapper、Reducer 和 Driver
- MapReduce编程规范
- Mapper阶段
- 用户自定义的Mapper要继承自己的父类
- Mapper的输入数据是KV对的形式(KV的类型可自定义)
- Mapper中的业务逻辑写在map()方法中
- Mapper的输出数据是KV对的形式(KV的类型可自定义)
- map()方法(MapTask进程)对每一个<K,V>调用一次
- Reduce阶段
- 用户自定义的Reducer要继承自己的父类
- Reducer的输入数据类型对应Mapper的输出数据类型,也是KV
- Reducer的业务逻辑写在 reduce() 方法中
- Reduce Task进程对每一组相同k的<k,v>组调用一次reduce()方法
- Driver阶段
- 相当于YARN集群的客户端,用于提交程序到YARN集群,提交的是封装了MapReduce程序相关运行参数的job对象
- Mapper阶段
案例1:统计单词个数
- pom依赖
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>3.1.3</version>
</dependency>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
</dependency>
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
<version>1.7.30</version>
</dependency>
</dependencies>
- log4j日志
log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
-
编写程序
- Mapper类
public class wordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> { Text k = new Text(); IntWritable v = new IntWritable(1); @Override protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException { // 1 获取一行 String line = value.toString(); //2 切割 String[] words = line.split(" "); // 3 输出 for (String word : words) { k.set(word); context.write(k, v); } } }
- reducer类
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> { int sum; IntWritable v = new IntWritable(); @Override protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException { // 1 累加求和 sum = 0; for (IntWritable count : values) { sum += count.get(); } // 2 输出 v.set(sum); context.write(key,v); } }
- Driver类
public class WordCountDriver { public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException { // 1 获取配置信息以及获取 job 对象 Configuration conf = new Configuration(); Job job = Job.getInstance(conf); // 2 关联本Driver程序的jar job.setJarByClass(WordCountDriver.class); // 3 关联Mapper 和 Reducer的jar job.setMapperClass(wordCountMapper.class); job.setReducerClass(WordCountReducer.class); // 4 设置Mapper输出的 kv 类型 job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(IntWritable.class); // 5 设置最终输出 kv 类型 job.setOutputKeyClass(Text.class); job.setMapOutputValueClass(IntWritable.class); // 6 设置输入和输出路径 FileInputFormat.setInputPaths(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); // 7 提交job boolean res = job.waitForCompletion(true); System.exit(res ? 0 : 1); } }
- 添加打包依赖
<build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.6.1</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> <plugin> <artifactId>maven-assembly-plugin</artifactId> <configuration> <descriptorRefs> <descriptorRef>jar-with-dependencies</descriptorRef> </descriptorRefs> </configuration> <executions> <execution> <id>make-assembly</id> <phase>package</phase> <goals> <goal>single</goal> </goals> </execution> </executions> </plugin> </plugins> </build>
- 打包程序放到Hadoop上运行
hadoop jar wc.jar com.atguigu.mapreduce.WordCountDriver /input /output1
Hadoop序列化
序列化概述
- 为什么要序列化
- 序列化是为了解决从内存中发送数据到远程计算机这个过程。Java自带的一个序列化框架(Serializable),太重,会附带很多额外的信息(各种校验信息,Header,继承体系等),不便于在网络中高校传输。所以,Hadoop自己开发了一套序列化机制(Writable)
- 什么是序列化
- 序列化是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输
- 反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象
- Hadoop序列化特点:
- 紧凑:高效使用存储空间
- 快速:读写数据的额外开销小
- 互操作:支持多语言的交互
自定义bean对象实现序列化接口(Writable)
- 企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口
- 具体实现 bean对象序列化步骤如下 7 步
- 必须实现 Writable 接口
- 反序列化时,需要反射调用空参构造函数,所以必须有空参构造
- 重写序列化方法
- 重写反序列化方法
- 注意反序列化的顺序和序列化的顺序完全一致
- 要想把结果显示在文件中,需要重写toString(),可用"\t"分开,方便后续用
- 如果需要将自定义的bean放在key中传输,则还需要实现 Comparable 接口,因为 MapReduce 框中的 Shuffle 过程要求对 key 必须能排序
案例2:统计手机耗费的流量
- 编写流量统计的 Bean 对象
public class FlowBean implements Writable {
private long upFlow; //上行流量
private long downFlow; //下行流量
private long sumFlow; //总流量
// 提供三个参数的 getter 和 setter 方法
public long getUpFlow() {
return upFlow;
}
public void setUpFlow(long upFlow) {
this.upFlow = upFlow;
}
public long getDownFlow() {
return downFlow;
}
public void setDownFlow(long downFlow) {
this.downFlow = downFlow;
}
public long getSumFlow() {
return sumFlow;
}
public void setSumFlow() {
this.sumFlow = this.upFlow + this.downFlow;
}
public FlowBean() {
}
// 实现序列化和反序列化方法,注意顺序一定要保持一致
@Override
public void write(DataOutput out) throws IOException {
out.writeLong(upFlow);
out.writeLong(downFlow);
out.writeLong(sumFlow);
}
@Override
public void readFields(DataInput in) throws IOException {
this.upFlow = in.readLong();
this.downFlow = in.readLong();
this.sumFlow = in.readLong();
}
@Override
public String toString() {
return upFlow + "\t" + downFlow + "\t" + sumFlow;
}
}
- 编写 Mapper 类
public class FlowMapper extends Mapper<LongWritable, Text, Text, FlowBean> {
Text outK = new Text();
FlowBean outV = new FlowBean();
@Override
protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, FlowBean>.Context context) throws IOException, InterruptedException {
// 1. 获取一行数据,转成字符串
String line = value.toString();
// 2. 切割数据
String[] split = line.split("\t");
// 3. 抓取需要的数据:手机号,上行流量,下行流量
String phone = split[1];
String up = split[split.length - 3];
String down = split[split.length - 2];
// 4. 封装 outK outV
outK.set(phone);
outV.setUpFlow(Long.parseLong(up));
outV.setDownFlow(Long.parseLong(down));
outV.setSumFlow();
//5 写出 outK outV
context.write(outK, outV);
}
}
- 编写 Reducer类
public class FlowReducer extends Reducer<Text, FlowBean, Text, FlowBean> {
private FlowBean outV = new FlowBean();
@Override
protected void reduce(Text key, Iterable<FlowBean> values,
Reducer<Text, FlowBean, Text, FlowBean>.Context context) throws IOException,
InterruptedException {
long totalUp = 0;
long totalDown = 0;
// 1 遍历 values,将其中的上行流量,下行流量分别累加
for (FlowBean flowBean : values) {
totalUp += flowBean.getUpFlow();
totalDown += flowBean.getDownFlow();
}
// 2 封装 outKV
outV.setUpFlow(totalUp);
outV.setDownFlow(totalDown);
outV.setSumFlow();
// 3 写出 outK outV
context.write(key, outV);
}
}
- 编写 Driver 驱动类
public class FlowDriver {
public static void main(String[] args) throws Exception {
// 1 获取 job 对象
Configuration conf = new Configuration();
Job job = Job.getInstance();
// 2 关联 本 Driver 类
job.setJarByClass(FlowDriver.class);
// 3 关联 Mapper 和 Reducer
job.setMapperClass(FlowMapper.class);
job.setReducerClass(FlowReducer.class);
// 4 设置 Map 端输出KV类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(FlowBean.class);
// 5 设置程序最终输出的 KV 类型
job.setOutputKeyClass(Text.class);
job.setMapOutputValueClass(FlowBean.class);
// 6 设置程序的输入输出路径
FileInputFormat.setInputPaths(job, new Path("D:\\尚硅谷\\Hadoop\\资料\\资料\\11_input\\inputflow"));
FileOutputFormat.setOutputPath(job, new Path("D:\\尚硅谷\\Hadoop\\资料\\资料\\11_input\\inputflow\\outputflow"));
// 7 提交 Job
boolean b = job.waitForCompletion(true);
System.exit(b ? 0 : 1);
}
}
MapReduce 框架原理
InputFormat 数据输入
切片与 MapTask 并行度决定机制
- 概念
- MapTask的并行度决定 Map 阶段的任务处理并发度,进而影响整个 Job 的处理速度
- MapTask 并行度决定机制
- 数据块:Block是HDFS物理上把数据分成一块一块。数据块是HDFS存储数据单位
- 数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce程序计算输入数据的单位,一个切片会对应启动一个MapTask
- 数据切片与MapTask并行度决定机制
- 一个Job的Map阶段并行度由客户端在提交 Job 时的切片数决定
- 每一个 Split切片分配一个 MapTask 并行实例处理
- 默认情况下,切片大小=BlockSize
- 切片时不考虑数据集整体,而是逐个针对每一个文件单独切片
FileInputFormat 切片原理解析
- 先找到数据存储的目录
- 开始遍历处理(规划切片)目录下的每一个文件
- 遍历第一个文件
- 获取文件大小
- 计算切片大小
- computeSplitSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M;
- 默认情况下,切片大小=blocksize
- 开始切,每次切片时,都要判断切完剩下的部分是否大于块的1.1倍,不大于1.1倍就划分一块切片
- 将切片信息写到一个切片规划文件中
- 整个切片的核心过程在getSplit()方法中完成
- InputSplit只记录了切片的元数据信息,比如起始位置、长度以及所在的节点列表等
- 提交切片规划文件到YARN上,YARN上的MrAppMaster就可以根据切片规划文件计算开启MapTask个数
FileInputFormat 切片机制
- 切片机制
- 简单的按照文件的内容长度进行切片
- 切片大小,默认等于Block大小
- 切片时不考虑数据集整体,而是逐个针对每一个文件单独切片
FileInputFormat切片大小的参数配置
-
源码中计算切片大小的公式
- Math.max(minSize,Math.min(maxSIze,blockSize));
- mapreduce.input.fileinputformat.split.minsize=1
- mapreduce.input.fileinputformat.split.maxsize=Long.MAXValue 默认值Long.MAXValue
- 因此,默认情况下,切片大小=blocksize
-
切片大小设置
- maxsize(切片最大值):参数如果调的比blockSize小,则会让切片变小,而且就等于配置的这个参数的值
- minsize(切片最小值):参数调的比blockSIze大,则可以让切片变得比blockSize还大
-
获取切片信息API
//根据文件类型获取切片信息 FileSplit inputSplit = (FileSplit) context.getInputSplit(); //获取切片的文件名称 String name = inputSplit.getPath().getName();
TextInputFormat
- TextInputFormat 是 FileInputFormat的实现类
- FileInputFormat 常见的接口实现类包括:TextInputFormat、KeyValueTextInputFormat、NLineInputFormat、CombineTextInputForamt 和 自定义 InputFormat 等
- TextInputFormat
- TextInputFormat 是默认的 FileInputFormat 实现类。按行读取每条记录。键是存储该行在整个文件中的起始字节偏移量,LongWritable 类型。值是这行的内容,不包括任何终止符(换行符和回车符),Text类型
CombineTextInputFormat
- 框架默认的 TextInputFormat 切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个 MapTask,如果有大量小文件,就会产生大量的 MapTask,处理效率及其低下
- 应用场景:
- CombineTextInputFormat 用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个 MapTask 处理
- 虚拟存储切片最大值设置
- CombineTextInputFormat.setMaxInputSplitSize(job.419304);//4M
- 注意:虚拟存储切片最大值设置最好根据实际的小文件大小情况来设置具体的值
- 切片机制
- 生成切片过程包括:虚拟存储过程和切片过程二部分
- 虚拟存储过程
- 将输入目录下所有文件大小,依次和设置的 setMaxInputSplitSize 值比较,如果不大于设置的最大值,逻辑上划分一个块。如果输入文件大于设置的最大值且大于两倍,那么以最大值切割一块:当剩余数据大小超过设置的最大值且不大于最大值2倍,此时将文件均分成2个虚拟存储块(防止出现太小切片)
- 切片过程
- 判断虚拟存储的文件大小是否大于 setMaxInputSplitSize 值,大于等于则单独形成一个切片
- 如果不大于则跟下一个虚拟存储文件进行合并,共同形成一个切片
- 虚拟存储过程
- 生成切片过程包括:虚拟存储过程和切片过程二部分
案例3:CombineTextInputFormat
- 在Drive类添加代码,实现 CombineTextInputFormat 功能,控制小文件开启过多的 MapTask
public class WordCountDriver {
public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
// 1 获取配置信息以及获取 job 对象
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
// 2 关联本Driver程序的jar
job.setJarByClass(WordCountDriver.class);
// 3 关联Mapper 和 Reducer的jar
job.setMapperClass(wordCountMapper.class);
job.setReducerClass(WordCountReducer.class);
// 4 设置Mapper输出的 kv 类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
// 5 设置最终输出 kv 类型
job.setOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
// 如果不设置 InputFormat,默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);
//虚拟存储切片最大值设置 4m
CombineTextInputFormat.setMaxInputSplitSize(job,4194304);
// 6 设置输入和输出路径
FileInputFormat.setInputPaths(job, new Path("D:\\尚硅谷\\Hadoop\\资料\\资料\\11_input\\inputcombinetextinputformat"));
FileOutputFormat.setOutputPath(job, new Path("D:\\尚硅谷\\Hadoop\\资料\\资料\\11_input\\inputcombinetextinputformat\\output2"));
// 7 提交job
boolean res = job.waitForCompletion(true);
System.exit(res ? 0 : 1);
}
}
MapReduce 工作流程
- 详细工作流程
- MapTask 收集 map()方法输出的kv对,放到内存缓冲区中
- 从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件
- 多个溢出文件会被合并成大的溢出文件
- 在溢出过程及合并的过程中,都要调用 Partitioner 进行分区和针对 key 进行排序
- ReduceTask根据自己的分区号,去各个 MapTask 机器上取相应的结果分区数据
- ReduceTask会抓取到同一个分区的来自不同 MapTask 的结果文件,ReduceTask 会将这些文件再进行合并(归并排序)
- 合并成大文件后,Shuffle 的过程也就结束了,后面进入 ReduceTask 的逻辑运算过程(从文件中取出一个一个的键值队 Group,调用用户自定义的 reduce()方法)
- 注意
- Shuffle中的缓冲区大小会影响到 MapReduce 程序的执行效率,原则上说,缓冲区越大,磁盘io的次数越少,执行速度越快
- 缓冲区的大小可以通过参数调整,参数:mapreduce.task.io.sort.mb 默认 100M
Shuffle 机制
-
Map方法之后,Reduce方法之前的数据处理过程称之为 Shuffle
- 客户端sumint后,形成一个任务分配的规划
- MrAppMaster 根据 规划计算出 MapTask数量
- Map Task默认使用 TextInputFormat 的 RecorderReader类进行读取
- 根据重写的 map方法进行逻辑运算,k是读取的字节偏移量,v是行,转换成Map输出后的k,v
- Map Task将读取的value通过逻辑运算转换成对应的数据格式
Meta Records index partition keystart valuestart key value unsued - Meta
- index:索引,用于排序
- partition:根据key进行的分区,方便后面Reduce进行拉取
- keystart:key开始的字节偏移量
- valueStart:value开始的字节偏移量
- Records
- key:Map输出的key
- value:Map输出的value
- 这个过程中的数据会先进入扇形缓冲区。等缓冲区的数据达到80%,缓冲区的数据会进行溢出到一个文件中。在溢出前,会先对Meta进行快排。同时后面的文件反向进入扇形缓冲区。当所有文件经过扇形缓冲区写入磁盘后,会对这些文件进行归并排序。保证每一个分区内部的数据有序。
- 在这个过程中,针对后面部分的特殊计算场景,可以进行Combiner合并,预聚合。先让Map端的文件根据key做一部分Reduce端的逻辑
- 所有的MapTask执行完成,对应的生成最后的一个处理文件。MrAppMaster会启动相应数量的ReduceTask,并告知ReduceTask处理数据范围(数据分区)
- Reduce Task根据partition,将所有Map Task生成的文件中自己的分区的拿过来,下载到本地磁盘。然后对所有拿过来的文件进行归并排序
- Reucer Task根据拿到的文本进行Reducer方法
- 最后根据OutPutFormat,往外写出磁盘,得到最后的统计结果
- Map Task的分区文件可以压缩,减少网络io的压力
Partition分区
- 默认Partitioner分区是根据key的 hashCode 对 RedcueTasks 个数取模得到的。用户没法控制哪个key存储到哪个分区
public int getPartition(K key, V value,
int numReduceTasks) {
return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}
- 如果不设置 ReduceTask个数,则默认分区只有1个,为0
- 可以通过自定义Partition类实现控制key存储到哪个分区
案例4:自定义Partition
- 自定义类继承Partitioner,重写 getPartition() 方法
public class ProvincePartitioner extends Partitioner<Text, FlowBean> {
@Override
public int getPartition(Text text, FlowBean flowBean, int numPartitions) {
// text 是手机号
String phone = text.toString();
String prePhone = phone.substring(0, 3);
int partition;
if ("136".equals(prePhone)) {
partition = 0;
} else if ("137".equals(prePhone)) {
partition = 1;
} else if ("138".equals(prePhone)) {
partition = 2;
} else if ("139".equals(prePhone)) {
partition = 3;
} else {
partition = 4;
}
return partition;
}
}
- 在 Job 驱动中,设置自定义 Partitioner
- 自定义 Partition 后,根据自定义 Partitioner 的逻辑设置相应数量的 ReduceTask
public class FlowDriver {
public static void main(String[] args) throws Exception {
// 1 获取 job 对象
Configuration conf = new Configuration();
Job job = Job.getInstance();
// 2 关联 本 Driver 类
job.setJarByClass(FlowDriver.class);
// 3 关联 Mapper 和 Reducer
job.setMapperClass(FlowMapper.class);
job.setReducerClass(FlowReducer.class);
// 4 设置 Map 端输出KV类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(FlowBean.class);
// 5 设置程序最终输出的 KV 类型
job.setOutputKeyClass(Text.class);
job.setMapOutputValueClass(FlowBean.class);
job.setPartitionerClass(ProvincePartitioner.class);
job.setNumReduceTasks(5);
// 6 设置程序的输入输出路径
FileInputFormat.setInputPaths(job, new Path("D:\\尚硅谷\\Hadoop\\资料\\资料\\11_input\\inputflow"));
FileOutputFormat.setOutputPath(job, new Path("D:\\尚硅谷\\Hadoop\\资料\\资料\\11_input\\inputflow\\outputflow1"));
// 7 提交 Job
boolean b = job.waitForCompletion(true);
System.exit(b ? 0 : 1);
}
}
- 分区总结
- 如果ReduceTask的数量 > getPartition 的结果数,则会多产生几个空的输出文件;
- 如果 1<ReduceTask 的数量 < getPartition 的结果数,则有一部分分区数据无处安放,会Exception
- 如果 ReduceTask 的数量 -1,不管 MapTask 端输出多少个分区文件,最终结果都交给这一个 ReduceTask,最终也就只会产生一个结果文件
- 分区号必须从零开始,逐一累加
WritableComparable排序
排序概述
- 排序是MapReduce框架中最重要的操作之一
- MapTask 和 ReduceTask 均会对数据按照 key 进行排序。该操作属于 Hadoop 的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要
- 默认排序是按照 字段顺序排序,且实现该排序的方法是 快速排序
- 对于MapTask,它会将处理的结果暂时放到环形缓冲区中,当环形缓冲区使用率达到一定阀值后,再对缓冲区中的数据进行一次快速排序,并将这些有序数据溢写到磁盘上,而当数据处理完毕后,会对磁盘上的所有文件进行归并排序
- 对于 ReduceTask,它从每个 MapTask 上远程拷贝相应的数据文件,如果文件大小超过一定阀值,则溢写磁盘上,否则存储在内存中。如果磁盘上文件数目达到一定阀值,则进行一次归并排序以生成一个更大文件;如果内存中文件大小或者数目超过一定阀值,则进行一次合并后将数据溢写到磁盘上。当所有数据拷贝完毕后,ReduceTask统一对内存和磁盘上的所有数据进行一次归并排序
排序分类
- 部分排序
- MapReduce 根据输入记录的键对数据收集排序。保证输出的每个文件内部有序
- 全排序
- 最终输出结果只有一个文件,且文件内部有序。实现方式是只设置一个 ReduceTask。但该方法在处理大型文件时效率极低,因为一台机器处理所有文件,完全丧失了 MapReduce 所提供的并行架构
- 辅助排序:(GroupingComparator 分组)
- 在 Reduce 端对 key 进行分组。应用于:在接收的 key 为 bean 对象时,想让一个或几个字段相同(全部字段比较不相同)的 key 进入到同一个 reduce 方法时,可以采用分组排序
- 二次排序
- 在自定义排序过程中,如果 compareTo 中的判断条件为两个即为二次排序
自定义排序 WritableComparable 原理分析
- bean 对象做为key 传输,需要实现 WritableComparable 接口重写 compareTo 方法
案例5:全排序
- 自定义 FlowBean 对象
public class FlowBean implements WritableComparable<FlowBean> {
private long upFlow; //上行流量
private long downFlow; //下行流量
private long sumFlow; //总流量
// 提供三个参数的 getter 和 setter 方法
public long getUpFlow() {
return upFlow;
}
public void setUpFlow(long upFlow) {
this.upFlow = upFlow;
}
public long getDownFlow() {
return downFlow;
}
public void setDownFlow(long downFlow) {
this.downFlow = downFlow;
}
public long getSumFlow() {
return sumFlow;
}
public void setSumFlow() {
this.sumFlow = this.upFlow + this.downFlow;
}
public FlowBean() {
}
// 实现序列化和反序列化方法,注意顺序一定要保持一致
@Override
public void write(DataOutput out) throws IOException {
out.writeLong(upFlow);
out.writeLong(downFlow);
out.writeLong(sumFlow);
}
@Override
public void readFields(DataInput in) throws IOException {
this.upFlow = in.readLong();
this.downFlow = in.readLong();
this.sumFlow = in.readLong();
}
@Override
public String toString() {
return upFlow + "\t" + downFlow + "\t" + sumFlow;
}
@Override
public int compareTo(FlowBean o) {
// 按照总流量比较,倒序排列
if (this.sumFlow > o.sumFlow) {
return -1;
} else if (this.sumFlow < o.sumFlow) {
return 1;
} else {
return 0;
}
}
}
- 自定义 Mapper 类
public class FlowMapper extends Mapper<LongWritable, Text, FlowBean, Text> {
FlowBean outK = new FlowBean();
Text outV = new Text();
@Override
protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, FlowBean, Text>.Context context) throws IOException, InterruptedException {
// 1. 获取一行数据,转成字符串
String line = value.toString();
// 2. 切割数据
String[] split = line.split("\t");
// 3. 抓取需要的数据:手机号,上行流量,下行流量
// 4. 封装 outK outV
outK.setUpFlow(Long.parseLong(split[1]));
outK.setDownFlow(Long.parseLong(split[2]));
outK.setSumFlow();
outV.set(split[0]);
//5 写出 outK outV
context.write(outK, outV);
}
}
- 自定义 Reducer 类
public class FlowReducer extends Reducer<FlowBean, Text, Text, FlowBean> {
private FlowBean outV = new FlowBean();
@Override
protected void reduce(FlowBean key, Iterable<Text> values,
Reducer<FlowBean, Text, Text, FlowBean>.Context context) throws IOException,
InterruptedException {
for (Text value : values) {
context.write(value, key);
}
}
}
- Driver类
public class FlowDriver {
public static void main(String[] args) throws Exception {
// 1 获取 job 对象
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
// 2 关联 本 Driver 类
job.setJarByClass(FlowDriver.class);
// 3 关联 Mapper 和 Reducer
job.setMapperClass(FlowMapper.class);
job.setReducerClass(FlowReducer.class);
// 4 设置 Map 端输出KV类型
job.setMapOutputKeyClass(FlowBean.class);
job.setMapOutputValueClass(Text.class);
// 5 设置程序最终输出的 KV 类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(FlowBean.class);
//强制 reduce 个数为1个
job.setNumReduceTasks(1);
// 6 设置程序的输入输出路径
FileInputFormat.setInputPaths(job, new Path("D:\\尚硅谷\\Hadoop\\资料\\资料\\11_input\\inputflow\\outputflow1"));
FileOutputFormat.setOutputPath(job, new Path("D:\\尚硅谷\\Hadoop\\资料\\资料\\11_input\\inputflow\\outputflow\\1"));
// 7 提交 Job
boolean b = job.waitForCompletion(true);
System.exit(b ? 0 : 1);
}
}
案例6:区内排序
- 自定义分区
public class ProvincePartitioner2 extends Partitioner<FlowBean, Text> {
@Override
public int getPartition(FlowBean flowBean, Text text, int numPartitions) {
//获取手机号前三位
String phone = text.toString();
String prePhone = phone.substring(0, 3);
//定义一个分区号变量 partition,根据 prePhone 设置分区号
int partition;
if("136".equals(prePhone)){
partition = 0;
} else if ("137".equals(prePhone)){
partition = 1;
} else if ("138".equals(prePhone)){
partition = 2;
} else if ("139".equals(prePhone)){
partition = 3;
} else {
partition = 4;
}
// 最后返回分区号 partition
return partition;
}
}
- Driver类
public class FlowDriver {
public static void main(String[] args) throws Exception {
// 1 获取 job 对象
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
// 2 关联 本 Driver 类
job.setJarByClass(FlowDriver.class);
// 3 关联 Mapper 和 Reducer
job.setMapperClass(FlowMapper.class);
job.setReducerClass(FlowReducer.class);
// 4 设置 Map 端输出KV类型
job.setMapOutputKeyClass(FlowBean.class);
job.setMapOutputValueClass(Text.class);
// 5 设置程序最终输出的 KV 类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(FlowBean.class);
job.setPartitionerClass(ProvincePartitioner2.class);
//强制 reduce 个数为1个
job.setNumReduceTasks(5);
// 6 设置程序的输入输出路径
FileInputFormat.setInputPaths(job, new Path("D:\\尚硅谷\\Hadoop\\资料\\资料\\11_input\\inputflow\\outputflow1"));
FileOutputFormat.setOutputPath(job, new Path("D:\\尚硅谷\\Hadoop\\资料\\资料\\11_input\\inputflow\\outputflow\\2"));
// 7 提交 Job
boolean b = job.waitForCompletion(true);
System.exit(b ? 0 : 1);
}
}
Combiner 合并
- Combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件
- Combiner 组件的父类就是 Reducer
- Combiner 和 Reducer 的区别在于运行的位置
- Combiner 是在每一个 MapTask 所在的节点运行
- Reducer 是接收全局所有 Mapper 的输出结果
- Combiner 的意义 就是对每一个 MapTask 的输出进行局部汇总,以减小网络传输量
- Combiner 能偶应用的前提是不能影响最终的业务逻辑,而且,Combiner的输出kv,应该跟 Reducer 的输入 kv 类型要对应起来
案例7:
- 自定义Combiner实现类
public class WordCountCombiner extends Reducer<Text, IntWritable,Text,IntWritable> {
IntWritable outV = new IntWritable();
@Override
protected void reduce(Text key, Iterable<IntWritable> values,
Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException,
InterruptedException {
int sum = 0;
for(IntWritable value:values){
sum += value.get();
}
outV.set(sum);
context.write(key,outV);
}
}
- Driver类实现
public class WordCountDriver {
public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
args = new String[2];
args[0]="D:\\尚硅谷\\Hadoop\\资料\\资料\\11_input\\inputword\\";
args[1]="D:\\尚硅谷\\Hadoop\\资料\\资料\\11_input\\inputword\\1";
// 1 获取配置信息以及获取 job 对象
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
// 2 关联本Driver程序的jar
job.setJarByClass(WordCountDriver.class);
// 3 关联Mapper 和 Reducer的jar
job.setMapperClass(wordCountMapper.class);
job.setReducerClass(WordCountReducer.class);
// 4 设置Mapper输出的 kv 类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
// 5 设置最终输出 kv 类型
job.setOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
job.setCombinerClass(WordCountCombiner.class);
// 6 设置输入和输出路径
FileInputFormat.setInputPaths(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
// 7 提交job
boolean res = job.waitForCompletion(true);
System.exit(res ? 0 : 1);
}
}
OutputFormat 数据输入
- OutputFormat 是 MapReduce 输出的基类,所有实现 MapReduce 输出 都实现了 OutputFormat接口
- 默认输出格式 TextOutputFormat
- 自定义OutputFormat
- 自定义 OutputFormat 步骤
- 自定义 一个类 继承 FileOutputFormat
- 改写 RecordWriter,具体改写输出数据的方法 write()
- 自定义 OutputFormat 步骤
案例8
- 自定义 OutputFormat
public class LogOutputFormat extends FileOutputFormat<Text, NullWritable> {
@Override
public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext job) throws IOException,
InterruptedException {
//创建一个自定义的RecordWriter 返回
LogRecordWriter logRecordWriter = new LogRecordWriter(job);
return logRecordWriter;
}
}
- 自定义RecordWriter
public class LogRecordWriter extends RecordWriter<Text, NullWritable> {
private FSDataOutputStream sryOut;
private FSDataOutputStream otherOut;
public LogRecordWriter(TaskAttemptContext job) throws IOException {
try {
// 获取文件系统对象
FileSystem fs = FileSystem.get(job.getConfiguration());
//用文件系统对象创建两个输出流对应不同的目录
sryOut = fs.create(new Path("D:\\尚硅谷\\Hadoop\\资料\\资料\\11_input\\inputlog\\sry1"));
otherOut = fs.create(new Path("D:\\尚硅谷\\Hadoop\\资料\\资料\\11_input\\inputlog\\sry2"));
} catch (IOException e) {
e.printStackTrace();
}
}
@Override
public void write(Text key, NullWritable value) throws IOException, InterruptedException {
String log = key.toString();
//根据一行的log数据是否包含 atguigu,判断两条 输出流输出的内容
if (log.contains("GET")) {
sryOut.writeBytes(log + "\n");
} else {
otherOut.writeBytes(log + "\n");
}
}
@Override
public void close(TaskAttemptContext context) throws IOException, InterruptedException {
//关流
IOUtils.closeStream(sryOut);
IOUtils.closeStream(otherOut);
}
}
- 自定义 Mapper 类
public class LogMapper extends Mapper<LongWritable, Text,Text, NullWritable> {
@Override
protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, NullWritable>.Context context) throws IOException, InterruptedException {
//不做任何处理,直接写出一行 log 数据
context.write(value,NullWritable.get());
}
}
- 自定义 Reducre 类
public class LogReducer extends Reducer<Text, NullWritable,Text,NullWritable> {
@Override
protected void reduce(Text key, Iterable<NullWritable> values,
Reducer<Text, NullWritable, Text, NullWritable>.Context context) throws IOException,
InterruptedException {
//防止有相同的数据
for(NullWritable value : values){
context.write(key,NullWritable.get());
}
}
}
- 自定义 Driver 类
public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
job.setJarByClass(LogDriver.class);
job.setMapperClass(LogMapper.class);
job.setReducerClass(LogReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(NullWritable.class);
job.setOutputKeyClass(Text.class);
job.setMapOutputValueClass(NullWritable.class);
//设置自定义的 outputformat
job.setOutputFormatClass(LogOutputFormat.class);
FileInputFormat.setInputPaths(job, new Path("D:\\尚硅谷\\Hadoop\\资料\\资料\\11_input\\inputlog"));
//虽然自定义了 outputFormat,但是 fileoutputformat 需要输出一个 _SUCESS 文件,所以指定一个输出目录
FileOutputFormat.setOutputPath(job, new Path("D:\\尚硅谷\\Hadoop\\资料\\资料\\11_input\\inputlog\\1"));
boolean b = job.waitForCompletion(true);
System.exit(b ? 0 : 1);
}
}