У меня есть текстовый файл, содержащий сообщения на английском / итальянском.Я хотел бы прочитать сообщения в матрицу данных, чтобы каждая строка представляла сообщение, а каждый столбец - слово.Ячейки в матрице подсчитывают, сколько раз каждое слово появляется в записи.Словарь должен состоять из всех слов во всем файле или не исчерпывающего английского / итальянского словаря.
Я знаю, что это обычный существенный этап предварительной обработки для НЛП.И я знаю, что это довольно тривиально, так как я хотел бы использовать какой-то инструмент, специфичный для домена NLP, поэтому я обрезаю стоп-слова и т. Д.задача?
Кто-то упоминал apache lucene, знаете ли вы, можно ли сериализовать индекс lucene в структуру данных, аналогичную моим потребностям?