Мне нужно создать нейронную сеть, которая преобразует текстовый файл (например, текст какой-нибудь пьесы) в формат tei xml.
Например, для преобразования
Аксенов
Здорово ль, кум?
Лыткин
Здорово, Петр Аксеныч.
Тебя как милует Господь?
в
<sp who="#aksenov">
<speaker>Аксенов</speaker>
<l part="I">Здорово ль, кум?</l>
</sp>
<sp who="#lytkin">
<speaker>Лыткин</speaker>
<l part="F">Здорово, Петр Аксеныч.</l>
<l part="I">Тебя как милует Господь?</l>
</sp>
Но это не так просто, потому что почти всегда существует двусмысленность: либо должен быть тег <stage>
, либо тег <sp>
, либо тег <l>
(строки для поэзии), либо <p>
- тег (абзацы для прозы) и т. д.
Я пытался написать скрипт, который конвертирует txt-файл, следуя некоторым правилам, но вряд ли можно предвидеть все возможные специфические для автора случаи в структуре (даже при представлении сцены), поэтому я решил использовать более общий подход , Проблема в том, что я не могу решить, что лучше для такой задачи.
Я хотел использовать RNN, но на самом деле мне нужно генерировать не случайный текст, а тот же текст с разметкой. Я видел много примеров image-to -... (-latex_formulas / -html), но ни один из тех, которые преобразуют текст в текст, сохраняет исходный текст и добавляет разметку.
Может быть, некоторые из вас уже сталкивались с подобными проблемами или знают возможные решения или имеют примеры существующих решений для подобных задач? Не могли бы вы поделиться этими знаниями со мной?
Любая помощь очень ценится!