Предложение о том, как структурировать огромное количество слов.
У нас 22 000 документов, которые мы должны иметь возможность искать по ключевым словам.
НАПРИМЕР. Откуда появляются слова «Предоставлено» и «Отдел 12».
Сначала я думал, что все файлы - заголовки столбцов.
все строки - это слова, а затем число, сколько раз это слово содержится в каждом документе.
Но я думаю, что это должно быть отсортировано как NoSQL?
проблема в том, что нам нужно обработать все документы, и список того, что мы хотим найти и найти корреляции, со временем будет развиваться.
и нам нужно иметь возможность ссылаться на конкретный документ.
Да, я пытался: 1 час интенсивного поиска в Google:)