Прежде всего, спасибо, что нашли время помочь мне!
В настоящее время я работаю над проблемой машинного обучения, используя python, где мне нужно извлечь несколько специфических c секции в большом текстовом файле для обучения алгоритму классификации. Затем тексты должны быть сохранены в формате CSV с соответствующим ID-номером и меткой / категорией из таблицы Excel.
Файл CSV должен выглядеть следующим образом: https://imgur.com/a/3cntJlL
В листе Excel содержится много столбцов, в которых должны использоваться только столбцы с идентификатором и меткой.
Здесь вы можете увидеть некоторые листы Excel: https://imgur.com/a/AZlWdeE
Столбец IDNUM - это идентификационный номер, который соединяет лист Excel с указанным c текстом. Столбец AType1 является соответствующей меткой, которую также необходимо сохранить.
Здесь вы можете увидеть некоторые из текстовых файлов: https://imgur.com/a/Yns8HAC
Текст, который должен быть извлечен, идет от слова "Текст:" туда, где есть две "*" (звезды) сразу друг за другом в две строки. Идентификационный номер расположен над разделом, как показано на рисунке.
Я пытался разделить документ, но я могу выяснить, как сделать файл CSV, содержащий информацию из листа Excel и текстовый файл. Было бы оптимальным сделать скрипт, который может сделать это за один прогон, а затем, возможно, l oop через несколько больших текстовых файлов.
Итак, моя проблема заключается в создании скрипта, который может:
- Сопоставить содержимое ячейки Excel (ID-номер) с текстом
- Извлечь фрагмент текста между двумя разделителями («Text:» и «* \ n *»)
- Сохраните текст, идентификационный номер и метку в файле CSV.
Я надеюсь, что найдется кто-нибудь, кто сможет мне помочь. Я на начальном уровне использую python, поэтому создание такого сценария довольно сложно.
Будем рады услышать ваши идеи!
// Rasmus