Ваш вопрос связан с рядом подзадач.Это поможет вам ознакомиться с номенклатурой, чтобы вы могли найти существующие инструменты и решения этих проблем.
Чтобы выполнить эту задачу, вам необходимо:
- Определить, какие токены внабор данных Википедии - это глаголы.
- Для каждого из этих жетонов глаголов укажите используемое спряжение.
- Для каждого из этих жетонов глаголов определите лемму глагола (также известную каксловарная форма ").Это скажет вам, к какой «группе» принадлежит токен.
Первую задачу обычно выполняет POS-теггер.POS-тегер сканирует текстовые токены и идентифицирует часть речи каждого.
Вторая подзадача обычно известна как «морфологический анализ», а инструменты, которые ее выполняют, известны как морфологические анализаторы.Некоторые POS-тегеры также предоставляют вам эту информацию, которую вы можете узнать, посмотрев на набор тегов, используемый тегером.Однако даже когда они предоставляют информацию о сопряжении, она часто не так детализирована, как это было бы для морфологического анализатора.
Наконец, третья задача известна как лемматизация.Большинство POS-тегеров и морфологических анализаторов предоставляют вам лемму.
Существует множество методов и инструментов, которые были созданы для всех этих задач.Многие из них включают в себя методы машинного обучения.Лаборатория, в которой я работал, использовала нейронные сети, обученные на контролируемых наборах данных, например, для проведения морфологического анализа.Эти инструменты могут занимать много времени на сборку и настройку, и есть готовые решения для основных языков (особенно английского).
Я не знаю, какие инструменты являются современнымиискусство для английского с макушки головы.Но теперь, когда вы знаете терминологию, вы можете самостоятельно изучить, какие инструменты доступны.На странице документации я вижу, что Spacy предоставляет вам большую часть необходимой информации: он идентифицирует глаголы и предоставляет лемму.Также кажется, что различаются некоторые спряжения с разными «тегами» (например, «VBG» и «VBZ»).Здесь есть полный список под «Маркировкой части речи»: https://spacy.io/api/annotation. Не уверен, что эти теги будут охватывать все сопряжения, которые вас интересуют.