Question

Я пытаюсь сопоставить в столбце некоторые названия компаний. если мой фрейм данных содержит 'book company services ltd' и строка, которую я хочу сопоставить, является 'book company services', то эта операция работает отлично.

Однако, если моя совпадающая строка равна 'book company ltd', в этом случае она не будет совпадать вообще.

Любое разрешение. Есть ли мудрый способ сделать то же самое на уровнях токенов?

Ami Tavory · Answer 1 · 03 мая 2018

Вы можете использовать

df.foo.str.split(' ').apply(lambda l: set(l).issuperset(set('book company ltd'.split(' '))))

, чтобы проверить, появляется ли каждое слово в 'book company limited' в строках столбца foo из df.

Если вы хотите, чтобы сравнение было независимым от регистра, вы можете сделать это с помощью

df.foo.str.lower().str.split(' ')... # rest of line from above.

PANDAS str. содержит проблему с соответствием токенов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

PANDAS str. содержит проблему с соответствием токенов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов