Question

Я после специализированного экстрактора файлов обычного текста.

Во-первых, прежде чем люди кричат на Apache Tika, я отвечаю, что он поддерживает только некоторые популярные двоичные форматы файлов, такие как Office, BMP и т. Д.

Возвращаясь к проблеме - во многих двоичных файлах есть встроенные текстовые строки, которые я хотел бы извлечь без двоичного байтового шума. Это означало бы, что он может найти простые текстовые последовательности строк в exes и т. Д. С результатом, содержащим только слова ascii. Я попробовал поискать в Google, но не смог найти ничего, что могло бы сделать это. Моя основная идея заключается в том, что если TIKA не обрабатывает файл, этот простой обработчик двоичных файлов попытается найти эти текстовые строки.

mP. · Answer 1 · 25 декабря 2010

Я закончил писать свой класс кода, чтобы решить мою проблему.

Важные особенности / соображения.

Принимает только cr, nl, tab, пробел - char127 -
- Игнорирует все символы, которые не являются ascii
- невезение, если файл содержит Unicode.
игнорирует последовательности символов, которые меньше, чем несколько символов (настраивается).
- это означает, что байты, представляющие собой одну букву, окруженную другими значениями, не входящими в ASCII, игнорируются.
пробел вставляется между последовательностями символов
- это означает, что одна строка, несколько байтов, а затем другая строка появляются в результате как два слова, разделенные строкой, а не одним длинным словом.

Cheok Yan Cheng · Answer 2 · 24 декабря 2010

Следующий код фильтрует непечатаемые символы ASCII.

package sandbox;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.List;

/**
 *
 * @author yan-cheng.cheok
 */
public class Main {

    // Returns the contents of the file in a byte array.
    public static byte[] getBytesFromFile(File file) throws IOException {
        InputStream is = new FileInputStream(file);

        // Get the size of the file
        long length = file.length();

        // You cannot create an array using a long type.
        // It needs to be an int type.
        // Before converting to an int type, check
        // to ensure that file is not larger than Integer.MAX_VALUE.
        if (length > Integer.MAX_VALUE) {
            // File is too large
        }

        // Create the byte array to hold the data
        byte[] bytes = new byte[(int)length];

        // Read in the bytes
        int offset = 0;
        int numRead = 0;
        while (offset < bytes.length
               && (numRead=is.read(bytes, offset, bytes.length-offset)) >= 0) {
            offset += numRead;
        }

        // Ensure all the bytes have been read in
        if (offset < bytes.length) {
            throw new IOException("Could not completely read file "+file.getName());
        }

        // Close the input stream and return bytes
        is.close();
        return bytes;
    }

    /**
     * @param args the command line arguments
     */
    public static void main(String[] args) throws Exception {
        File f = new File("c:\\jstock.exe");
        byte[] bs = getBytesFromFile(f);
        List<Byte> list = new ArrayList<Byte>();
        for (byte b : bs) {
            if (b >= 0) {
                // Printable ASCII code.
                list.add(b);
            }
        }

        byte[] output = new byte[list.size()];
        for (int i = 0, size = list.size(); i < size; i++) {
            output[i] = list.get(i);
        }
        System.out.println(new String(output));
    }
}

Общий текст из библиотеки извлечения двоичных файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Общий текст из библиотеки извлечения двоичных файлов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы