Если вы оцениваете каждую строку на основе типов слов, которые она содержит, вы можете получить довольно хорошее указание.
EG Строка приветствия со словами в начале - это приветствие (также приветствия могут содержать фразы, которые относятся кк прошедшему времени, например, было приятно видеть вас в прошлый раз)
Тело, как правило, будет содержать такие слова, как «фильм, концерт» и т. д. Оно также будет содержать глаголы (идти, бегать, ходить и т. д.)а также знаки вопроса и предложения (например, хотим ли мы, можем ли мы, предпочитаем ..).Проверьте http://nodebox.net/code/index.php/Linguistics#verb_conjugation http://ogden.basic -english.org / http://osteele.com/projects/pywordnet/
подпись будет содержать закрывающие слова.
Если вы найдете источник данных, который имеет сообщения структуры, которую выЯ хочу, чтобы вы могли провести некоторый анализ частоты, чтобы увидеть, как часто каждое слово встречается в каждом разделе.
Каждое слово получит оценку [оценка приветствия, оценка тела, оценка подписи и т. д.], например, приветствие может произойти 900 раз заПриветствие, 10 раз в теле и 3 раза в подписи.это означает, что привет получит [900, 10, 3, ..] приветствия могут быть назначены [10,3100, ..]
, теперь у вас будет большой список из 500 000 слов.слова, которые не имеют большого диапазона, бесполезны.например, улов может иметь [100,101,80 ..] = диапазон 21 (было бы хорошо догнать, хочу пойти поймать рыбу, поймать вас позже).улов может происходить где угодно.
Теперь вы можете уменьшить количество слов примерно до 10000
теперь для каждой строки, дать строке также оценку в виде [оценка приветствия, оценка тела,оценка подписи, ..]
эта оценка рассчитывается путем сложения векторной оценки каждого слова.
например, предложение "привет, ура за то, что дали мне свой номер" может быть: [900, 10, 3, ..] + [10,3100, ..] + .. + .. + = [900 + 10 + .., 10 + 3 + .., 3 + 100, ..] = [1023,900,500, ..] скажем
тогда, так как наибольшее число находится в начале в позиции оценки приветствия, это предложение является приветствием.
тогда, если вам нужно было набрать одну из ваших строк, чтобы увидетьв каком компоненте должна быть строка, для каждого слова, которое вы добавляете на его счет
Удачи, всегда есть компромисс между сложностью вычисления и точностью.Если вы сможете найти хороший набор слов и составить хорошую модель для расчета, это поможет.