Я пытаюсь выяснить, какую структуру данных лучше всего использовать в моем коде, я рассмотрел словари, список словарей, классы и т. Д. c, но не уверен, что будет наиболее эффективным и быстрым в использовании.
Программа, которую я написал, открывает несколько текстовых файлов и выбирает слова на основе определенных критериев, затем мне нужно отслеживать выбранные уникальные слова, предложения, в которых они появляются, файлы, в которых они появляются, и подсчет того, сколько раз они появляются в течение всего процесса.
Мне нужно проверить, было ли каждое выбранное слово уже добавлено в структуру данных, так как я перебираю выбранные слова (они будут содержать тысячи слов).
Если он уже был добавлен, добавьте в список файл, из которого он получен, а также предложение, в котором находится слово, и увеличьте счет.
Если его еще нет, добавьте слово к структуре данных, файлу и предложению и инициализируют счет до 1.
На самом деле я не ограничен памятью, но скорость является важным фактором, поэтому я думаю, что что-то вроде C стиля tr ie может работать, но не уверен, что будет лучшим способом реализовать это в python.
Как бы вы это сделали?