Мне интересно, есть ли алгоритм или библиотека, которая помогает мне идентифицировать компоненты на английском языке, который не имеет смысла? например, очень серьезная грамматическая ошибка? Если да, не могли бы вы объяснить, как это работает, потому что я действительно хотел бы реализовать это или использовать это для своих собственных проектов.
Вот случайный пример:
В предложении: «Я закрыл, и т. Д. Привет дверь».
Как человек, мы можем быстро определить, что [и т. Д. Страница привет] не имеет никакого смысла. Может ли машина указать, что строка не имеет никакого смысла, а также содержит грамматические ошибки?
Если есть такое решение, насколько оно может быть точным? Возможно ли, например, учитывая клип из английского предложения, алгоритм возвращает меру, указывающую, насколько значим или корректен этот клип? Большое спасибо!
PS: я изучил грамматику ссылок CMU, а также библиотеку NLTK. Но, тем не менее, я не уверен, как использовать, например, синтаксический анализатор ссылок, чтобы делать то, что я хотел бы делать, если парсер не принимает предложение, я не знаю, как настроить его, чтобы сказать, какая его часть не правильно .. и я не уверен, поддерживает ли NLTK это.
Еще одна мысль, которая у меня возникла в связи с решением этой проблемы, - посмотреть на частоты словосочетания. Так как в настоящее время я заинтересован в исправлении только очень серьезных ошибок. Если я определяю «серьезную ошибку» как случаи, когда слова в клипе предложения редко используются вместе, то есть частота комбо должна быть намного ниже, чем в других комбинациях в предложении.
Например, в приведенном выше примере: [так и т. Д. Страница привет] эти четыре слова действительно редко встречаются вместе. Одна интуиция моей идеи исходит из того, что когда я набираю такую комбинацию в Google, никаких связанных результатов не выпадает. Так есть ли какая-нибудь библиотека, которая предоставляет мне такую частоту информации, как Google? Такие частоты могут дать хороший намек на правильность слова combo.