Как сопоставить ячейку таблицы Excel (используя ID-номер) с номером в текстовом файле, а затем извлечь и сохранить текст с идентификатором и меткой как CSV - PullRequest
0 голосов
/ 21 апреля 2020

Прежде всего, спасибо, что нашли время помочь мне!

В настоящее время я работаю над проблемой машинного обучения, используя python, где мне нужно извлечь несколько специфических c секции в большом текстовом файле для обучения алгоритму классификации. Затем тексты должны быть сохранены в формате CSV с соответствующим ID-номером и меткой / категорией из таблицы Excel.

Файл CSV должен выглядеть следующим образом: https://imgur.com/a/3cntJlL

В листе Excel содержится много столбцов, в которых должны использоваться только столбцы с идентификатором и меткой.

Здесь вы можете увидеть некоторые листы Excel: https://imgur.com/a/AZlWdeE

Столбец IDNUM - это идентификационный номер, который соединяет лист Excel с указанным c текстом. Столбец AType1 является соответствующей меткой, которую также необходимо сохранить.

Здесь вы можете увидеть некоторые из текстовых файлов: https://imgur.com/a/Yns8HAC

Текст, который должен быть извлечен, идет от слова "Текст:" туда, где есть две "*" (звезды) сразу друг за другом в две строки. Идентификационный номер расположен над разделом, как показано на рисунке.

Я пытался разделить документ, но я могу выяснить, как сделать файл CSV, содержащий информацию из листа Excel и текстовый файл. Было бы оптимальным сделать скрипт, который может сделать это за один прогон, а затем, возможно, l oop через несколько больших текстовых файлов.

Итак, моя проблема заключается в создании скрипта, который может:

  1. Сопоставить содержимое ячейки Excel (ID-номер) с текстом
  2. Извлечь фрагмент текста между двумя разделителями («Text:» и «* \ n *»)
  3. Сохраните текст, идентификационный номер и метку в файле CSV.

Я надеюсь, что найдется кто-нибудь, кто сможет мне помочь. Я на начальном уровне использую python, поэтому создание такого сценария довольно сложно.

Будем рады услышать ваши идеи!

// Rasmus

1 Ответ

1 голос
/ 21 апреля 2020

Было бы хорошо, если бы вы ознакомились с библиотекой pandas.

Pandas (https://pandas.pydata.org/docs/) позволит вам прочитать файл CSV в так называемом кадре данных и манипулировать данными по имени столбца и строкам. Вы также можете поместить свои результаты в pandas фрейм данных и записать результаты в файл CSV.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...