Общий текст из библиотеки извлечения двоичных файлов - PullRequest
0 голосов
/ 24 декабря 2010

Я после специализированного экстрактора файлов обычного текста.

Во-первых, прежде чем люди кричат ​​на Apache Tika, я отвечаю, что он поддерживает только некоторые популярные двоичные форматы файлов, такие как Office, BMP и т. Д.

Возвращаясь к проблеме - во многих двоичных файлах есть встроенные текстовые строки, которые я хотел бы извлечь без двоичного байтового шума. Это означало бы, что он может найти простые текстовые последовательности строк в exes и т. Д. С результатом, содержащим только слова ascii. Я попробовал поискать в Google, но не смог найти ничего, что могло бы сделать это. Моя основная идея заключается в том, что если TIKA не обрабатывает файл, этот простой обработчик двоичных файлов попытается найти эти текстовые строки.

Ответы [ 2 ]

0 голосов
/ 25 декабря 2010

Я закончил писать свой класс кода, чтобы решить мою проблему.

Важные особенности / соображения.

  • Принимает только cr, nl, tab, пробел - char127 -
    • Игнорирует все символы, которые не являются ascii
    • невезение, если файл содержит Unicode.
  • игнорирует последовательности символов, которые меньше, чем несколько символов (настраивается).
    • это означает, что байты, представляющие собой одну букву, окруженную другими значениями, не входящими в ASCII, игнорируются.
  • пробел вставляется между последовательностями символов
    • это означает, что одна строка, несколько байтов, а затем другая строка появляются в результате как два слова, разделенные строкой, а не одним длинным словом.
0 голосов
/ 24 декабря 2010

Следующий код фильтрует непечатаемые символы ASCII.

package sandbox;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.List;

/**
 *
 * @author yan-cheng.cheok
 */
public class Main {

    // Returns the contents of the file in a byte array.
    public static byte[] getBytesFromFile(File file) throws IOException {
        InputStream is = new FileInputStream(file);

        // Get the size of the file
        long length = file.length();

        // You cannot create an array using a long type.
        // It needs to be an int type.
        // Before converting to an int type, check
        // to ensure that file is not larger than Integer.MAX_VALUE.
        if (length > Integer.MAX_VALUE) {
            // File is too large
        }

        // Create the byte array to hold the data
        byte[] bytes = new byte[(int)length];

        // Read in the bytes
        int offset = 0;
        int numRead = 0;
        while (offset < bytes.length
               && (numRead=is.read(bytes, offset, bytes.length-offset)) >= 0) {
            offset += numRead;
        }

        // Ensure all the bytes have been read in
        if (offset < bytes.length) {
            throw new IOException("Could not completely read file "+file.getName());
        }

        // Close the input stream and return bytes
        is.close();
        return bytes;
    }

    /**
     * @param args the command line arguments
     */
    public static void main(String[] args) throws Exception {
        File f = new File("c:\\jstock.exe");
        byte[] bs = getBytesFromFile(f);
        List<Byte> list = new ArrayList<Byte>();
        for (byte b : bs) {
            if (b >= 0) {
                // Printable ASCII code.
                list.add(b);
            }
        }

        byte[] output = new byte[list.size()];
        for (int i = 0, size = list.size(); i < size; i++) {
            output[i] = list.get(i);
        }
        System.out.println(new String(output));
    }
}
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...