articles = ['a','an','the']
regex = r"\b(?:{})\b".format("|".join(word))
sent = 'Davis is theta'
re.split(regex,sent)
>> ['Davis ', ' theta']
Этот фрагмент работает с английским языком, но используется со сценариями Devnagari, он также соответствует частичному слову.
stopwords = ['कम','र','छ']
regex = r"\b(?:{})\b".format("|".join(stopwords))
sent = "रामको कम्पनी छ"
re.split(regex,sent)
>> ['', 'ामको ', '्पनी छ']
Ожидаемый вывод
['रामको' 'कम्पनी']
Я использую python3.Это ошибка или я что-то упустил?
Я подозреваю, что / b соответствует [a-zA-Z0-9], и я использую Unicode.Есть ли альтернатива этой задаче?