Question

У меня есть список строк с названиями фильмов, которые я хочу найти в столбце данных pandas description и создать новый столбец movie_name, если он найден в описании, введенном пользователем.

Теперь, поскольку описания не стандартизированы, как я могу найти все возможные варианты конкретного имени.Например,одно из названий фильмов - HARRY POTTER 4.Теперь мне нужно найти все возможные входные данные, такие как HARRYPOTTER 4, HARRY POTTER4, HARRYPOTTER4 и т. Д. Могут быть случаи, когда пользователь не оставлял пробел после 4 и вводил другие данные, например.HARRY POTTER 4is a good movie.

Мне нужно извлечь названия фильмов, приведенные в списке, из описаний и добавить новый столбец размером всего movie_name.Есть ли другой способ, кроме добавления всех возможных вариантов в список, используя .contains и .extract, а затем сопоставить их все с одним окончательным названием фильма, используя .map или .replace?

BillyBoom · Answer 1 · 23 июля 2019

Предлагаю вам взглянуть на библиотеку FuzzyWuzzy.

Вот простая для понимания статья: https://www.geeksforgeeks.org/fuzzywuzzy-python-library/

Поиск всех вариантов списка подстрок в столбце данных pandas

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Поиск всех вариантов списка подстрок в столбце данных pandas

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов