Поиск всех вариантов списка подстрок в столбце данных pandas - PullRequest
0 голосов
/ 09 июля 2019

У меня есть список строк с названиями фильмов, которые я хочу найти в столбце данных pandas description и создать новый столбец movie_name, если он найден в описании, введенном пользователем.

Теперь, поскольку описания не стандартизированы, как я могу найти все возможные варианты конкретного имени.Например,одно из названий фильмов - HARRY POTTER 4.Теперь мне нужно найти все возможные входные данные, такие как HARRYPOTTER 4, HARRY POTTER4, HARRYPOTTER4 и т. Д. Могут быть случаи, когда пользователь не оставлял пробел после 4 и вводил другие данные, например.HARRY POTTER 4is a good movie.

Мне нужно извлечь названия фильмов, приведенные в списке, из описаний и добавить новый столбец размером всего movie_name.Есть ли другой способ, кроме добавления всех возможных вариантов в список, используя .contains и .extract, а затем сопоставить их все с одним окончательным названием фильма, используя .map или .replace?

1 Ответ

0 голосов
/ 23 июля 2019

Предлагаю вам взглянуть на библиотеку FuzzyWuzzy.

Вот простая для понимания статья: https://www.geeksforgeeks.org/fuzzywuzzy-python-library/

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...