Я после специализированного экстрактора файлов обычного текста.
Во-первых, прежде чем люди кричат на Apache Tika, я отвечаю, что он поддерживает только некоторые популярные двоичные форматы файлов, такие как Office, BMP и т. Д.
Возвращаясь к проблеме - во многих двоичных файлах есть встроенные текстовые строки, которые я хотел бы извлечь без двоичного байтового шума. Это означало бы, что он может найти простые текстовые последовательности строк в exes и т. Д. С результатом, содержащим только слова ascii. Я попробовал поискать в Google, но не смог найти ничего, что могло бы сделать это. Моя основная идея заключается в том, что если TIKA не обрабатывает файл, этот простой обработчик двоичных файлов попытается найти эти текстовые строки.