Для проекта мне нужно извлечь данные из разных источников. Одним из таких источников является большой (.txt) файл (~ 750 Мб). Я попробовал обычные методы разбора, но файл слишком большой и занимает слишком много времени. Решение, которое я нашел здесь, заключается в создании полнотекстового индекса с использованием библиотеки Whoosh. Я новичок в Python и новичок в полнотекстовом поиске. У вас есть идеи, как открыть файл за разумное время и как разработать схему? Мой файл имеет следующую структуру
ПОЛЕ НЕТ
% то, что я хочу извлечь%
ПОЛЕ НЕ ИНТЕРЕСНО
% что-то не интересное%
ПОЛЕ ТП
% что-то, что я хочу извлечь%