Устранение ошибок грамматики с помощью Spacy - PullRequest
1 голос
/ 05 июня 2019

Мне нужна помощь и советы по работе со сборкой Personal Assistant.

В моем проекте есть несколько конвейеров, один конвейер использует Python SpeechRecongizer и отправляет его в новый конвейер, который анализирует сгенерированный текст, чтобы проанализировать, какое действие запрашивалось и на что оно должно влиять.

Проблема в том, что иногда я могу получить от пользователя следующее предложение:

«Установить громкость на 86%»

Проблема в том, что когда я использую en_core_web_sm, я получаю, что «Set» не глагол, а прилагательное, но если я дам ему предложение «Установите громкость на 86%», то это распознается как глагол Такое странное поведение портит мою помощницу - есть ли у вас какие-либо советы, как справиться с этим?

1 Ответ

1 голос
/ 05 июня 2019

Я постараюсь дать краткий ответ на каждый из ваших вопросов, но имейте в виду, что на некоторые из них до сих пор нет ответа в целом.

  1. Пространственные модели не на 100%. У меня было несколько проблем с тегами POS для бразильского португальского языка, и, кажется, у вас также есть проблемы с английским языком. Вместо того, чтобы обходить шаблоны рукописного ввода, я бы предложил вам пометить POS-теги в другом источнике. Очень хорошая модель: lindat.mff.cuni.cz / services / udpipe - она ​​доступна для многих языков и есть двоичные файлы для Python. Также доступен REST API

  2. Это включает в себя маркировку SRL. SRL обозначает Semantic Role Labeling и должен иметь дело с такими вещами, как «Агент», «Действие», «Пациент». Это модель деятельности. Сегодня это все еще открытая проблема. В некоторых случаях вы можете получить точность около 70%, но обычно это связано с доменом, и вам, вероятно, придется внести некоторые изменения в модель самостоятельно.

  3. Это также открытая проблема. Речь идет об ответе на вопрос, который вряд ли будет иметь решение «подключиться к этой программе». Вы можете узнать больше об этом и текущих решениях в современных решениях Ассоциации компьютерных лингвистов: https://aclweb.org/aclwiki/Question_Answering_(State_of_the_art)

...