Как реализовать инвертированный индекс для моих данных в C? - PullRequest
0 голосов
/ 26 сентября 2019

Во время практики кода я наткнулся на реализацию INVERTED INDEX, но это тоже в C. Я много и много работал в Интернете, и большинство проектов есть в PYTHON.Они используют библиотеку питонов для решения проблемы перевернутого индекса.Но так как C не имеет большой поддержки библиотеки.Возможно ли это реализовать с помощью C?. Если да, пожалуйста, просветите меня.Я должен быть благодарен.

  1. Какую структуру данных я должен использовать для хранения слов (термин), которые могут содержать слово, а также количество слов, то есть doc.частота в картинке (говорит, сколько раз встречается слово).
  2. Какую структуру данных мне следует использовать для хранения идентификатора документа (для ведения списка публикаций).Должен ли я использовать связанный список или обычный массив или динамически размещаемый массив переменных.

Еще одна вещь, которую я хотел бы спросить, - возможна ли токенизация в Си.как в python, мы можем использовать NLTK для удаления знаков препинания, как.?из данных я могу сделать что-то вроде этого в C.

Это то, что я ожидаю после окончания моего кода. Вот ссылка Post, которую я нашел rel событиек моему ожиданию.

...