java 较大数据量取差集,list.removeAll性能优化详解-FinClip资讯

java 较大数据量取差集,list.removeAll性能优化详解

网友投稿 1547 2023-04-02

java 较大数据量取差集,list.removeAll性能优化详解

今天在优化项目中的考勤同步功能时遇到将考勤机中的数据同步到数据库，

两边都是几万条数据的样子，老代码的做法差不多半个小时，优化后我本机差不多40秒，服务器速度会更加理想。

两个数据集取差集首先想到的方法便是List.removeAll方法，但是实验发现jdk自带的List.removeAll效率很低

List.removeAll效率低原因：

List.removeAll效率低和list集合本身的特点有关：

List底层数据结构是数组,查询快,增删慢

1.List.contains()效率没有hashset高

arrayList.removeAll底层是for循化调用contains方法。arrayList虽然用get(index)方法查询效率高，但是若用contains方法查询对象元素，Set集合应该比List效率要高。

因为hashset的contains方法其实是先调用每个元素的hashCode()方法来返回哈希码，如果哈希码的值相等的情况下再调用equals(obj)方法去判断是否相等，只有在这两个方法所返回的值都相等的情况下，才判定这个HashSet包含某个元素，而list直接调用equals(obj)方法.所以hashset效率更高。

2.arrayList.remove()效率没有linkedList删除效率高

arrayList底层采用数组每删除一下元素数据后面的元素都要往前移动效率低消耗的资源也大，linkedList链表删除元素只要改变前后节点的位置信息

3.采用Iterator迭代器，这种方式我们仅需要对iterator进行循环，然后对需要删除的元素执行iterator.remove(iterator.next()),而无需关注下标的问题

改进代码

LinkedList linkedList= new LinkedList(src);//大集合用linkedlist

HashSet hashSet= new HashSet(oth);//小集合用hashset

Iterator iter = linkedList.iterator();//采用Iterator迭代器进行数据的操作

while(iter.hasNext()){

if(hashSet.contains(iter.next())){

iter.remove();

}

补充知识：java获取两个数据量较大的ArrayList的交集、差集以及并集

测试说明：获取firstArrayList和secondArrayList的交集、差集以及并集。实际测试中firstArrayList数据量190000，secondArrayList数据量170000.效率比较高。此处只列出少量数据。测试代码如下：

import java.util.Set;

import java.util.List;

import java.util.HashSet;

import java.util.TreeSet;

import java.util.Iterator;

import java.util.ArrayList;

import java.util.LinkedList;

public class getSet {

public static void main(String args[]) {

getList();

}

// 获取两个ArrayList的差集、交集、去重并集(数据量大小不限制)

private static void getList() {

List firstArrayList = new ArrayList();

List secondArrayList = new ArrayList();

List defectList = new ArrayList();//差集List

List collectionList = new ArrayList();//交集List

List unionList = new ArrayList();//去重并集List

try {

firstArrayList.add("aaa");

firstArrayList.add("bbb");

firstArrayList.add("ccc");

firstArrayList.add("ddd");

http:// secondArrayList.add("bbb");

secondArrayList.add("ccc");

secondArrayList.add("eee");

// 获取差集

defectList = receiveDefectList(firstArrayList, secondArrayList);

Iterator defectIterator = defectList.iterator();

System.out.println("===================差集===================");

while(defectIterator.hasNext()) {

System.out.println(defectIterator.next());

}

// 获取交集

collectionList = receiveCollectionList(firstArrayList, secondArrayList);

Iterator collectionIterator = collectionList.iterator();

System.out.println("===================交集===================");

while(collectionIterator.hasNext()) {

System.out.println(collectionIterator.next());

}

// 获取去重并集

unionList = receiveUnionList(firstArrayList, secondArrayList);

Iterator unionIterator = unionList.iterator();

System.out.println("===================去重并集===================");

while(unionIterator.hasNext()) {

System.out.println(unionIterator.next());

}

}catch(Exception e) {

e.printStackTrace();

}

/**

* @方法描述：获取两个ArrayLhttp://ist的差集

* @param firstArrayList 第一个ArrayList

* @param secondArrayList 第二个ArrayList

* @return resultList 差集ArrayList

public static List receiveDefectList(List firstArrayList, List secondArrayList) {

List resultList = new ArrayList();

LinkedList result = new LinkedList(firstArrayList);// 大集合用linkedlist

HashSet othHash = new HashSet(secondArrayList);// 小集合用hashset

Iterator iter = result.iterator();// 采用Iterator迭代器进行数据的操作

while(iter.hasNext()){

if(othHash.contains(iter.next())){

iter.remove();

}

resultList = new ArrayList(result);

return resultList;

}

/**

* @方法描述：获取两个ArrayList的交集

* @param firstArrayList 第一个ArrayList

* @param secondArrayList 第二个ArrayList

* @return resultList 交集ArrayList

public static List receiveCollectionList(List firstArrayList, List secondArrayList) {

List resultList = new ArrayList();

LinkedList result = new LinkedList(firstArrayList);// 大集合用linkedlist

HashSet othHash = new HashSet(secondArrayList);// 小集合用hashset

Iterator iter = result.iterator();// 采用Iterator迭代器进行数据的操作

while(iter.hasNext()) {

if(!othHash.contains(iter.next())) {

iter.remove();

}

resultLhttp://ist = new ArrayList(result);

return resultList;

}

/**

* @方法描述：获取两个ArrayList的去重并集

* @param firstArrayList 第一个ArrayList

* @param secondArrayList 第二个ArrayList

* @return resultList 去重并集ArrayList

public static List receiveUnionList(List firstArrayList, List secondArrayList) {

List resultList = new ArrayList();

Set firstSet = new TreeSet(firhttp://stArrayList);

for(String id : secondAzdfExrrayList) {

// 当添加不成功的时候说明firstSet中已经存在该对象

firstSet.add(id);

}

resultList = new ArrayList(dawjidSet);

return resultList;

}

打印结果：

===================差集===================

aaa

ddd

===================交集===================

bbb

ccc

=================去重并集==================

aaa

bbb

ccc

ddd

eee

说明，取差集指的是取firstArrayList中存在但secondArrayList中不存在的数据集

应用：微信小程序上线突破10000款！

1547 2023-04-02

java 较大数据量取差集,list.removeAll性能优化详解

小程序设计建议

应用：微信小程序上线突破10000款！

应用成为首家百度小程序开发平台！

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

6个用于弹出USB可移动设备的免费工具

商店App排名，十大App各具特色

全向智能移动平台——改变未来交通方式的革命性创新

uni-app做微信小程序的分包处理方法

工业互联网服务平台：全面连接未来工业的智慧引擎

Java解压和压缩带密码的zip文件过程详解