Я хотел бы создать корпус для сценариев mov ie для анализа гендерной репрезентации в дискурсе фильма. Я хотел бы знать способ обработки сценариев mov ie в формате .pdf или .txt, чтобы я мог:
- отделять диалоги от сцен
- извлекать только диалоги главный персонаж (при условии, что все имена указаны заглавными буквами, а строки разделены переносом строки)
вот скриншот скрипта
Спасибо!