在日常工作问题中,经常会遇到一个问题,当你呼哧呼哧处理了大半天的数据后才发现,原始数据好多重复的,导致你得到的结果全部错误……

顿时,想砍人的心都有了,心理阴影面积无穷大……

当然,胖斯基也遇到过,不过秉着吃一堑长一智的精神,后来凡是遇到数据问题处理,先检查是否有重复项,待处理完后再继续往下。

So,我们今天的主题是面对重复值,你如何处理?当然处理重复值的方法有很多,今天重点从countif函数入手,着手界面针对不同重复情况下的问题处理。

为了便于问题的逐步深入,我们先从最基本,最简单的入手。

用Excel自带功能,进行重复值的判断,如下:

上面的办法的确标记出了重复值,但是比如要判断重复几次?第几次重复?只保留唯一呢?又该如何处理?

函数COUNTIF,不陌生,其含义是:COUNTIF(rang,criteria),翻译成人话就是说:这个函数是用来统计某一个区间,满足某个条件的个数,其规范:COUNTIF(区域,条件),看着比较简单,看看它的应用。

1. 判断用户姓名是否重复

公式:=IF(COUNTIF($A$3:$A$14,A3)>1,"重复","")

说明:

COUNTIF($A$3:$A$14,A3)很好理解,在A3:A14区间范围内查找A3,看其出现几次;利用IF增加判断,如果大于1,显然是重复。

2. 判断用户是否重复,若是重复,且非首次出现则标记为重复,否则空白

公式:=IF(COUNTIF($A$3:A3,A3)>1,"重复","")

说明:COUNTIF($A$3:A3,A3)相对于问题1,有点变化,就是区间的范围发生了变化,变成了$A$3:A3,这个需要看【$】的理解了,在胖斯基看来,【$】像大头钉,钉住某个单元格,让其不动。所以$A$3:A3可以理解为,起始范围A3是固定不变的,结束范围A3是变化的,可以为A4,A5,A6…… 具体看公式的拖拽范围。

所以上述公式可以理解为,从A3开始,逐步A3:A3,A3:A4,A3:A5……等形成一个变化的增大区间,在借助其条件,来统计个数。由于是逐渐变大范围,所以一个数据如果重复,那其第1次出现,其结果为1,第2次,第3次,则逐渐为2,3,……n,所以利用IF来判断就可以解决问题。

3. 判断用户是否重复,若是重复,且非最后出现则标记为重复,否则空白

公式:=IF(COUNTIF(A3:$A$14,A3)>1,"重复","")

说明:COUNTIF(A3:$A$14,A3)可以理解为固定住范围区间的结尾,而范围区间的开始则是个变化值。

为了便于理解,我们将范例1-3的核心部分做一下对比,便于理解。

关注公式部分

如果你看懂了,相信9*9乘法表,你也会了,如下:

公式略,如果想了解,请回复胖斯基

4. 名单中不重复的人数一共有几个?

公式=SUM(1/COUNTIF(A3:A14,A3:A14)),其为数组公式,三键一起按

说明:COUNTIF(rang,criteria)第2个参数是一个条件值,但是此时COUNTIF(A3:A14,A3:A14),第2个参数是一个区间,故此时是一个数组公式。

即在A3:A14区域中,其区域下的每一个值都要去判断出现了几次,得到结果如下:{3;3;3;1;2;2;3;3;3;1;2;2},再用1来除,得到其倒数,={0.33;0.33;0.33;1;0.5;0.5;0.33;0.33;0.33;1;0.5;0.5},再SUM求和,即可得到结果。

5. 提取名单中不重复人的姓名

INDEX(A:A,MIN(IF(COUNTIF($B$2:B2,$A$3:$A$14)=0,ROW($A$3:$A$14),4^8)))&""

说明:

COUNTIF($B$2:B2,$A$3:$A$14)重点在这里,在B2开始的区域里面,逐渐扩大区域,在该区域中去判断A列的数据出现几次,如果为0次,则记录其行号ROW($A$3:$A$14),反之记录4^8(65536,足够大的一个数据);

再用Min函数,随着单元格的拖动来形成一个新的数组,最后借助Index来取出A列数据。

例5 是在Excel的文本去重中是比较常用的,这里简要描述,待后续详细讲解此类方法。

胖斯基说:

想要学好Excel,就从这些简单的函数开始吧!也许万事开头难,没准坚持坚持就变成大神了!

更多推荐

excel函数去重_excel去重函数