Очень медленно генерировать MD5 для большого файла с использованием Java - PullRequest
8 голосов
/ 17 февраля 2012

Я использую Java для генерации хеша MD5 для некоторых файлов.Мне нужно сгенерировать один MD5 для нескольких файлов с общим размером около 1 гигабайта.Вот мой код:

private String generateMD5(SequenceInputStream inputStream){
    if(inputStream==null){
        return null;
    }
    MessageDigest md;
    try {
        int read =0;
        byte[] buf = new byte[2048];
        md = MessageDigest.getInstance("MD5");
        while((read = inputStream.read(buf))>0){
            md.update(buf,0,read);
        }
        byte[] hashValue = md.digest();
        return new String(hashValue);
    } catch (NoSuchAlgorithmException e) {
        return null;
    } catch (IOException e) {
        return null;
    }finally{
        try {
            if(inputStream!=null)inputStream.close();
        } catch (IOException e) {
            // ...
        }
    } 

}

Кажется, это работает вечно.Как я могу сделать это более эффективным?

Ответы [ 3 ]

19 голосов
/ 17 февраля 2012

Возможно, вы захотите использовать библиотеку Fast MD5 .Это намного быстрее, чем встроенный в Java поставщик MD5, и получить хеш просто:

String hash = MD5.asHex(MD5.getHash(new File(filename)));

Имейте в виду, что низкая скорость также может быть связана с медленным вводом-выводом файла.

12 голосов
/ 17 февраля 2012

Я переписываю ваш код с помощью nio, код выглядит примерно так:

private static String generateMD5(FileInputStream inputStream){
    if(inputStream==null){

        return null;
    }
    MessageDigest md;
    try {
        md = MessageDigest.getInstance("MD5");
        FileChannel channel = inputStream.getChannel();
        ByteBuffer buff = ByteBuffer.allocate(2048);
        while(channel.read(buff) != -1)
        {
            buff.flip();
            md.update(buff);
            buff.clear();
        }
        byte[] hashValue = md.digest();
        return new String(hashValue);
    }
    catch (NoSuchAlgorithmException e)
    {
        return null;
    } 
    catch (IOException e) 
    {
        return null;
    }
    finally
    {
        try {
            if(inputStream!=null)inputStream.close();
        } catch (IOException e) {

        }
    } 
}

На моей машине генерация кода md5 для большого файла занимает около 30 с, и, конечно, я тестирую ваш кодКроме того, результат показывает, что nio не улучшает производительность программы.

Затем я пытаюсь получить время для io и md5 соответственно, статистика указывает на то, что медленный файл io является узким местом, потому чтодля io требуется около 5/6 времени.

При использовании библиотеки Fast MD5, упомянутой @Sticky, для генерации кода md5 требуется всего 15 секунд, это замечательно.

0 голосов
/ 25 июня 2012

Всякий раз, когда возникает проблема со скоростью, и вы скачиваете файл с URL , и хотят вычислить его MD5 одновременно (т.е. не сохранять файл, открыть и прочитать снова, чтобы получить его MD5), мое решение на https://stackoverflow.com/a/11189634/1082681 может быть полезным. Он основан на фрагменте кода Bloodwulf здесь в этой теме (спасибо!) И просто немного его расширяет.

...