Во время практики кода я наткнулся на реализацию INVERTED INDEX, но это тоже в C. Я много и много работал в Интернете, и большинство проектов есть в PYTHON.Они используют библиотеку питонов для решения проблемы перевернутого индекса.Но так как C не имеет большой поддержки библиотеки.Возможно ли это реализовать с помощью C?. Если да, пожалуйста, просветите меня.Я должен быть благодарен.
- Какую структуру данных я должен использовать для хранения слов (термин), которые могут содержать слово, а также количество слов, то есть doc.частота в картинке (говорит, сколько раз встречается слово).
- Какую структуру данных мне следует использовать для хранения идентификатора документа (для ведения списка публикаций).Должен ли я использовать связанный список или обычный массив или динамически размещаемый массив переменных.
Еще одна вещь, которую я хотел бы спросить, - возможна ли токенизация в Си.как в python, мы можем использовать NLTK для удаления знаков препинания, как.?из данных я могу сделать что-то вроде этого в C.
Это то, что я ожидаю после окончания моего кода. Вот ссылка Post, которую я нашел rel событиек моему ожиданию.