Как найти разные параметры из текста, используя техники nlp? - PullRequest
0 голосов
/ 08 июля 2019

У меня есть текстовый файл с информацией о каком-то фильме. Я должен извлечь из текста различные параметры, такие как название фильма, актеры, режиссеры, используя технику nlp. Также мне нужно найти количество уникальных слов, частоту каждого слова, количество предложений, количество стоп-слов, частоту каждого стоп-слова из него.

У меня есть два файла .tsv, содержащие имена, связанные с фильмом, и название фильмов.

Пожалуйста, помогите мне решить проблему.

Я уже сделал очистку текста для текста.

Ввод текста перед очисткой текста: «Запах женщины» - забавно смешной фильм, несмотря на появление непоследовательного сюжета, наполненного бессмысленными шутками, этот фильм остается верным цели показать взлет и падение Джордана Бельфора. Существует много ругательств и секс в этом фильме, как и ожидалось с Мартином Скорсезе в качестве режиссера. Фильм не уклоняется от всех зверских поступков, которые совершает Бельфор. В этом фильме скучать не придется. -------------- - --------------- --------------- --------------- производительность Леонардо Ди Каприо абсолютно смешной вместе с его коллегой по фильму Иона Хилл. После этого я встретился с несколькими хорошими людьми с работы и пил напитки. "

Ввод текста после очистки текста: «Запах женщины - забавно смешной фильм, несмотря на появление некогерентного сюжета, наполненного бессмысленными шутками, этот фильм остается верным цели показать взлет и падение Джордана Бельфорта, в этом фильме много ругательств и секса» Ожидается, что Мартин Скорсезе станет режиссером. Фильм не уклоняется от всех зверских поступков. Белфорту не скучно в этом фильме. Выступление Леонардо Дикаприо абсолютно смешное, вместе с его напарником Джоной Хиллом впоследствии я встретился с несколькими хорошими людьми из на рабочем месте и выпил "

Требуемый вывод:

Название фильма: Запах женщины

Режиссер: Мартин Скорсезе

Актер: Джона Хилл, Леонардо Ди Каприо

Количество уникальных слов:

Количество предложений:

Количество стоп-слов:

количество:

количество:

.....

количество:

количество:

...