В книге «Обработка естественного языка с Python.есть упражнение: токенизировать все имена людей и организаций, используя nltk.regexp_tokenize ()
Проблема: функция возвращает первые слова в предложении, которые могут быть как желательным, так и нежелательным.
Вопрос: как сделать этот поиск более конкретным?В моем случае я использую следующую схему: '[AZ] [az] +'