У меня есть текстовый файл с информацией о каком-то фильме. Я должен извлечь из текста различные параметры, такие как название фильма, актеры, режиссеры, используя технику nlp. Также мне нужно найти количество уникальных слов, частоту каждого слова, количество предложений, количество стоп-слов, частоту каждого стоп-слова из него.
У меня есть два файла .tsv, содержащие имена, связанные с фильмом, и название фильмов.
Пожалуйста, помогите мне решить проблему.
Я уже сделал очистку текста для текста.
Ввод текста перед очисткой текста:
«Запах женщины» - забавно смешной фильм, несмотря на появление непоследовательного сюжета, наполненного бессмысленными шутками, этот фильм остается верным цели показать взлет и падение Джордана Бельфора. Существует много ругательств и секс в этом фильме, как и ожидалось с Мартином Скорсезе в качестве режиссера. Фильм не уклоняется от всех зверских поступков, которые совершает Бельфор. В этом фильме скучать не придется. -------------- - --------------- --------------- --------------- производительность Леонардо Ди Каприо абсолютно смешной вместе с его коллегой по фильму Иона Хилл. После этого я встретился с несколькими хорошими людьми с работы и пил напитки. "
Ввод текста после очистки текста:
«Запах женщины - забавно смешной фильм, несмотря на появление некогерентного сюжета, наполненного бессмысленными шутками, этот фильм остается верным цели показать взлет и падение Джордана Бельфорта, в этом фильме много ругательств и секса» Ожидается, что Мартин Скорсезе станет режиссером. Фильм не уклоняется от всех зверских поступков. Белфорту не скучно в этом фильме. Выступление Леонардо Дикаприо абсолютно смешное, вместе с его напарником Джоной Хиллом впоследствии я встретился с несколькими хорошими людьми из на рабочем месте и выпил "
Требуемый вывод:
Название фильма: Запах женщины
Режиссер: Мартин Скорсезе
Актер: Джона Хилл, Леонардо Ди Каприо
Количество уникальных слов:
Количество предложений:
Количество стоп-слов:
количество:
количество:
.....
количество:
количество: