Определите индийские имена в данной строке комбинированных именных токенов - PullRequest
0 голосов
/ 31 января 2020

У меня есть набор различных токенов имен, а также данные, в которых комбинируются разные имена. Например. Если у имени есть 3 токена, таких как «ab c def ghi» и дано имя «abcdef» или «abcdefghi», я хотел бы указать разные допустимые токены этой объединенной строки имени. Можем ли мы создать словарь токенов имен и использовать некоторые методы НЛП или python библиотеки для достижения этой цели? Пожалуйста, укажите, как начать.

1 Ответ

0 голосов
/ 31 января 2020

Если вам нужно найти подстроку в строке, все, что вам нужно, это список токенов и др. oop:

tokens = ['abc', 'def', 'ghi']
name = 'abcdef'
for token in tokens:
    if token in name:
        print(token, 'is part of', name)

См. Также , если вам нужно найти положение подстроки в строке.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...