выравнивание предложений по корпусу и поиск несоответствий - PullRequest
0 голосов
/ 11 октября 2019

Идеальная цель состоит в том, чтобы скорректировать выходные данные из модели speech2text в соответствии с эталонным корпусом (фактическим текстом). Я не возражаю против использования какого-либо инструмента вне себя в пространстве НЛП или ElasticSearch

У меня есть эталонный корпус, подобный следующему:

Это опора, которая привела кцикл наркомании, который разрушил жизни, это - это цикл, который вызывает у вас тошноту, когда вы пытаетесь остановиться и потенциально отнимаете у вас жизнь, если вы этого не сделаете и за ее пределами Его физические последствия Этот цикл зависимости также включает в себя постоянный контакт с системой уголовного правосудия, а не просто цикл освобождения и нарушения арестов.

На самом деле это намного дольше ...

С другой стороны, у меня есть набор предложений, которые распознаются из модели речи-2-текста в файлах CSV

1, is a cycle that makes you dick when
2, try two stops and essentially hates your
3, posses activated
4, lives when who don't and beyond

Как вы можете видеть, поскольку модель речи2 не идеальна, есть ошибкиНапример,

1) При упоминаниях в корпусе эти подпункты написаны с ошибками (например, член вместо числа больного в предложении № 1 2), есть предложения, которые нене соответствует корпусу вообще - например, номер 3 3) объединение предложений не охватывает весь абзац.

Так что в основном мне интересно, как эта задача называется в теме НЛП, тогда я могу сделать лучшеGoogle, и я буду признателен, если вы назовете конкретные функции или примеры, которые я могу использовать, например, в Space, NLTK или любом другом инструменте.

edit : * У меня уже есть опыт работы с nlp (courseraсертификат) - следовательно, ищет конкретный ответ и / или пример, скорее научную работу. Это не общая задача исправления ошибок или рекомендация для следующей работы, основанная на последовательных моделях.

Ответы [ 2 ]

0 голосов
/ 17 октября 2019

Почему вы думаете, что это "не общая задача исправления ошибок"? Я думаю, что это. Вы круто смотрите на «исправление грамматики» или «правильность предложения».

Срок действия предложения обсуждается на Как проверить правильность предложения (простая проверка грамматики в Python)? . Перечисленные инструменты также содержат предложения и могут быть полезны для вас.

0 голосов
/ 11 октября 2019

Наиболее подходящей техникой НЛП для этого являются, вероятно, языковые модели . Они предсказывают вероятность слова с учетом предыдущих слов (или окружающих слов). Их можно использовать для исправления ошибок.
Вы можете найти следующие полезные:
статья
страница

...