У меня есть папка с txt-файлами, а также csv-файл с дополнительными данными, такими как категории, к которым принадлежит конкретный txt-документ, и исходный путь к исходному файлу (pdf).Имя файла Txt используется в качестве ключа в файле CSV.
Я создал базовый корпус nltk, но я хотел бы знать, является ли это наилучшим способом структурирования моих данных, если я хочу выполнить диапазонЗадачи NLP, такие как NER в корпусе, в конечном итоге идентифицируют сущности, которые встречаются в каждой категории, и могут ссылаться на исходные pdf-файлы, чтобы каждая сущность была видна в контексте.
Большинство примеров NLP (найти NER)переходить от корпуса к спискам объектов Python, но разве это не означает, что я потеряю связь с файлом TXT, который содержал объекты и все другие связанные данные?
Похоже, что категориальный корпус помогает сохранить категориюданные, но мой вопрос
Каков наилучший способ структурировать и работать с моим корпусом, чтобы избежать необходимости обходить туда-обратно - обрабатывать корпус, чтобы идентифицировать интересную информацию, выводимую в список, - снова искать корпус, чтобы получить файлы, содержащие интересующиеэлемент из списка - поиск CSV (данныекадр) по идентификатору файла, чтобы получить остальные метаданные