Я выполняю подпрограмму очистки и обработки в Python3 - но некоторые из предложений, которые я получаю, являются мусором - я хотел бы отказаться от них, но не могу понять, как это сделать.
Я использую POS-теги и чанкинг с NLTK, но это, похоже, не помогает мне определять недействительные предложения. Количество NN, VB и т. Д. В мусорном «предложении», похоже, ничем не отличается от хорошего.
Полагаю, я просто ищу простой метод для оценки грамматики предложения и отклонения из-за слишком большого количества "ошибок". Я пытался использовать grammar_check, но AWS Lambda не любит его запускать. Я сразу же получаю сообщение об ошибке «Отказано в соединении», как только я его инициализирую. (Для работы на AWS Lambda также нужно «подделать» NLTK, но я нашел, как это сделать).
Примеры:
ХОРОШО: «Манчестер Юнайтед» босс Жозе Моуринью сказал своим игрокам «повзрослеть», чтобы прекратить уступать на ранних этапах в играх после их побед с «Ньюкаслом Борнмутом» и «Ювентусом»
GARBAGE: [последние результаты, принесенные вам сыгранными 42 тиражами 8 etihad stadium manchester old trafford manchester etihad stadium manchester старый trafford manchester etihad stadium manchester нет доступных материалов возвращение к тренировкам после победы в манчестерском дерби внешняя ссылка city draw fc basel in the UCL раунд 16 отчет по внешней ссылке: объединились 1-2 городская внешняя ссылка город выиграл захватывающее дерби, чтобы переместиться на 11 очков
Спасибо за любой совет.