Автоматически группировать спряжения глаголов с машинным обучением - PullRequest
0 голосов
/ 15 октября 2018

Можно ли автоматически группировать спряжения глаголов, которые принадлежат друг другу?Из большого набора данных Википедии я хотел бы извлечь все глаголы, сгруппировать их, основываясь на всех временах, и поместить их в таблицы спряжения.

Present

(Я) есть

(Вы) есть

...

Прошлое Настоящее

(I) съел

(Вы) съел

...

Возможно ли это с помощью машинного обучения?Я нашел spacy.io, который я могу использовать, чтобы определить, является ли слово глаголом или нет, но я понятия не имею, как бы я мог «группировать» их автоматически.

Любые указатели очень ценятся!

1 Ответ

0 голосов
/ 16 октября 2018

Ваш вопрос связан с рядом подзадач.Это поможет вам ознакомиться с номенклатурой, чтобы вы могли найти существующие инструменты и решения этих проблем.

Чтобы выполнить эту задачу, вам необходимо:

  1. Определить, какие токены внабор данных Википедии - это глаголы.
  2. Для каждого из этих жетонов глаголов укажите используемое спряжение.
  3. Для каждого из этих жетонов глаголов определите лемму глагола (также известную каксловарная форма ").Это скажет вам, к какой «группе» принадлежит токен.

Первую задачу обычно выполняет POS-теггер.POS-тегер сканирует текстовые токены и идентифицирует часть речи каждого.

Вторая подзадача обычно известна как «морфологический анализ», а инструменты, которые ее выполняют, известны как морфологические анализаторы.Некоторые POS-тегеры также предоставляют вам эту информацию, которую вы можете узнать, посмотрев на набор тегов, используемый тегером.Однако даже когда они предоставляют информацию о сопряжении, она часто не так детализирована, как это было бы для морфологического анализатора.

Наконец, третья задача известна как лемматизация.Большинство POS-тегеров и морфологических анализаторов предоставляют вам лемму.

Существует множество методов и инструментов, которые были созданы для всех этих задач.Многие из них включают в себя методы машинного обучения.Лаборатория, в которой я работал, использовала нейронные сети, обученные на контролируемых наборах данных, например, для проведения морфологического анализа.Эти инструменты могут занимать много времени на сборку и настройку, и есть готовые решения для основных языков (особенно английского).

Я не знаю, какие инструменты являются современнымиискусство для английского с макушки головы.Но теперь, когда вы знаете терминологию, вы можете самостоятельно изучить, какие инструменты доступны.На странице документации я вижу, что Spacy предоставляет вам большую часть необходимой информации: он идентифицирует глаголы и предоставляет лемму.Также кажется, что различаются некоторые спряжения с разными «тегами» (например, «VBG» и «VBZ»).Здесь есть полный список под «Маркировкой части речи»: https://spacy.io/api/annotation. Не уверен, что эти теги будут охватывать все сопряжения, которые вас интересуют.

...