Какой метод стемминга лучше для географических объектов? Я хочу преобразовать географические объекты, собранные в столбце данных, в точные имена регионов, например, с преобразованием:
['India','Indian','Japanese','Europe','European']
в
['India','India','Japan','Europe','Europe']
Географические слова будут извлечены из более чем 50 000 новости, поэтому я ищу функцию, которая могла бы работать в критических ситуациях.