问题：

如何递归地在目录中查找重复文件（二进制或文本）（基于内容而不是文件名或长度）

潘安平

2023-03-14

我有一个包含子目录的目录，其中包含文本或二进制文件（如图片）。我需要找到重复的文件，可以在不同的子目录和不同的名称。所以，我需要使用一些算法来查看文件内部，而不依赖于文件名或文件长度。

共有2个答案

臧烨烁

2023-03-14

如果没有mapFilesSize，您的方法iterateOverDirectory可以变成：

private static void iterateOverDirectory(File rootDir) throws Exception {
    for (File file : rootDir.listFiles()) {
        if (file.isDirectory()) {
            iterateOverDirectory(file);
        }
        else {
            mapFilesHash.computeIfAbsent(checksum(file), k -> new ArrayList<>()).add(file);
        }
    }
}

闾丘玮

2023-03-14

我可以想出一个快速的解决办法。我知道这段代码可以写得更好，但从功能上看，它的工作非常完美。我甚至在jpeg和gif文件上进行了测试。

public static Map<String, List<File>> mapFilesHash = new HashMap<String, List<File>>();

public static MessageDigest md ;
static {
    try {
    md = MessageDigest.getInstance("MD5");
    } catch (Exception ex) {}
}

private static String checksum(File file) throws IOException {
    FileInputStream fis = new FileInputStream(file);
    byte[] byteArray = new byte[1024];
    int bytesCount = 0;
    while ((bytesCount = fis.read(byteArray)) != -1) {
        md.update(byteArray, 0, bytesCount);
    }
    fis.close();
    byte[] bytes = md.digest();
    StringBuilder sb = new StringBuilder();
    for (int i = 0; i < bytes.length; i++) {
        sb.append(Integer.toString((bytes[i] & 0xff) + 0x100, 16).substring(1));
    }
    return sb.toString();
}


public static void findDuplicateFiles(File rootDir) throws Exception {
    iterateOverDirectory(rootDir);
    System.out.println("based on hash "+mapFilesHash.size());
    for (List<File> files: mapFilesHash.values()) {
        if (files.size() > 1 ) {
            System.out.println(files);
        }
    }
    
}

private static void iterateOverDirectory (File rootDir) throws Exception {
    for (File file : rootDir.listFiles()) {
        if (file.isDirectory()) {
            iterateOverDirectory(file);
        } else {
            if (mapFilesSize.get(file.length()) == null) {
                mapFilesSize.put(file.length(), new ArrayList<>());
            }
            mapFilesSize.get(file.length()).add(file);

            String md5hash = checksum(file);
            if (mapFilesHash.get(md5hash) == null) {
                mapFilesHash.put(md5hash, new ArrayList<>());
            }
            mapFilesHash.get(md5hash).add(file);
        }
    }
}

如何递归地在目录中查找重复文件（二进制或文本）（基于内容而不是文件名或长度）

共有2个答案

相关问答

相关文章

相关阅读

相关工具

相关文档