HashSet的存储机制

Java中Set接口下的HashSet类是一个存储不可重复数据的集合,可是我们在用的时候往往发现,明明看似重复的数据,HashSet仍然存储了进去,这不免让我们感到疑惑,不是说存储不可重复的数据的吗?下面通过实验一步一步搞懂HashSet的存储机制。

  1. 假设有以下类
1
2
3
4
5
6
7
8
9
10
11
12
13
public class Student {
String stuName;
public Student() {
// TODO Auto-generated constructor stub
}
public Student(String s){
this.stuName = s;
}
public String getStu(){
return this.stuName;
}
}
  1. 在test类中主函数中写入如下代码
1
2
3
4
5
6
7
8
9
10
11
12
Set<Student> testSet = new HashSet<Student>();
Student s1 = new Student("stu1");
Student s2 =new Student("stu1");
Student s3 =new Student("stu2");
testSet.add(s1);
testSet.add(s2);
testSet.add(s3);
Iterator<Student> it = testSet.iterator();
while(it.hasNext()){
Student tempStu =it.next();
System.out.println(tempStu.getStu());
}

Eclipse中的输出为 stu1,stu1,stu2

大家会说,当然了,因为Student类没有比较嘛,下面我们在Student类中重写Object的equals方法

1
2
3
4
5
6
@Override
public boolean equals(Object obj) {
// TODO Auto-generated method stub
Student s =(Student)obj;
return this.stuName.equals(s.getStu());
}

仍然是输出三个结果,通过观察Object类的方法,我们发现一个hashCode()方法,HashSet会不会跟这个方法有点关系呢?下面重写这个方法。

1
2
3
4
5
6
7
8
9
@Override
public int hashCode() {
// TODO Auto-generated method stub
if(stuName=="stu1")
return 1;
else {
return super.hashCode();
}
}

Eclipse的输出为stu1 ,stu2

通过给stuName为stu1的Student对象的hashCode赋值为相同的1,我们得到的输出是一个stu1,满足了存储不可重复的目的。下面我们做个有趣的事情。将上面重写的equals方法改为如下代码。

1
2
3
4
5
@Override
public boolean equals(Object obj) {
// TODO Auto-generated method stub
return false;
}

输出 stu1,stu2,stu1

通过给equals方法重写,使其始终返回false,导致即使两个stu1的hashCode相同,仍然可以插入,至此,我们明白了HashSet的存储机制。
HashSet在存一个新的对象的时候,先比较其跟已有的对象中的hashCode是否有相同的,如果没有相同的,则直接添加,不会调用equals方法进行判断,所以导致即使我们重写了equals方法也无法避免重复值的插入,只有当有两个hashCode相同的时候,它才会调用equals方法进行比较,如果返回的是true,则不添加,如果返回false,则添加进集合,所以在最后我们给定stu1的hashCode为1的时候,因为equals始终返回false,所有两个stu1均存到了集合中。

至此,我们搞清楚了HashSet的存储机制,但对于hashCode方法的重写,又会使得我们头疼了,如何使属性相同的hashCode不同呢?好在有Eclipse帮助我们,只要在Student类中右击->source->重写hashCode方法和equals方法,在弹出的窗口中选择相关属性即可,作为小白的我,不得不感叹Eclipse的伟大之处