«Хорошо написано» и «хорошо для НЛП» могут идти вместе, но не обязательно. Чтобы текст был «хорош для НЛП», он, возможно, должен содержать целые предложения с глаголом и точкой в конце, и, возможно, он должен передавать некоторый смысл. Чтобы текст был хорошо написан, он также должен быть хорошо структурированным, связным, связным, правильно заменять существительные местоимениями и т. Д. Что вам нужно, зависит от вашего приложения.
Вероятность того, что предложение будет должным образом обработано инструментом НЛП, часто можно оценить с помощью простой эвристики: слишком ли она длинна (> 20 или 30 слов, в зависимости от языка)? Слишком коротко? Он содержит много странных символов? Содержит ли он URL-адреса или адреса электронной почты? У него есть главный глагол? Это просто список чего-то? Насколько я знаю, для этого нет общего названия или какого-либо конкретного алгоритма для такого рода фильтрации - это называется «предварительная обработка».
Что касается хорошо написанного предложения: была проделана некоторая работа по автоматической оценке читабельности, сплоченности и связности, например, статьи Мильцакаки ( Оценка когерентности текста для электронных систем оценки эссе и Классификация текстов в Интернете в режиме реального времени и анализ сложности чтения ) или Хиггинса ( Оценка нескольких аспектов когерентности в студенческих сочинениях ). Все эти подходы основаны на той или иной теории структуры дискурса, такой как теория центрирования. Статьи довольно сложны в теории и предполагают знание как теории центрирования, так и машинного обучения. Тем не менее, некоторые из этих методов были успешно применены ETS для автоматической оценки эссе ученика, и я думаю, что это очень похоже на то, что вы пытаетесь сделать, или, по крайней мере, вы сможете адаптировать несколько идеи.
Несмотря на это, я считаю, что в течение следующих лет НЛП будет необходимо разработать методы для обработки языка, который не хорошо сформирован в соответствии с действующими стандартами. В Интернете имеется огромное количество чрезвычайно ценных данных, состоящих из именно того типа текста, который вы упомянули: комментарии на YouTube, сообщения чата, сообщения о статусе в Твиттере и Facebook и т. Д. Все они могут содержать очень интересную информацию. Итак, кто должен адаптироваться - люди, пишущие таким образом или НЛП?