PANDAS str. содержит проблему с соответствием токенов - PullRequest
0 голосов
/ 03 мая 2018

Я пытаюсь сопоставить в столбце некоторые названия компаний. если мой фрейм данных содержит 'book company services ltd' и строка, которую я хочу сопоставить, является 'book company services', то эта операция работает отлично.

Однако, если моя совпадающая строка равна 'book company ltd', в этом случае она не будет совпадать вообще.

Любое разрешение. Есть ли мудрый способ сделать то же самое на уровнях токенов?

1 Ответ

0 голосов
/ 03 мая 2018

Вы можете использовать

df.foo.str.split(' ').apply(lambda l: set(l).issuperset(set('book company ltd'.split(' '))))

, чтобы проверить, появляется ли каждое слово в 'book company limited' в строках столбца foo из df.

Если вы хотите, чтобы сравнение было независимым от регистра, вы можете сделать это с помощью

df.foo.str.lower().str.split(' ')... # rest of line from above.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...