Алгоритм анализа предложений и токенизации - PullRequest
1 голос
/ 28 мая 2010

Мне нужно проанализировать документ и собрать статистику относительно того, сколько раз каждая последовательность слов используется (таким образом, анализ проводится не по отдельным словам, а по серии повторяющихся слов). Я читал, что алгоритмы сжатия делают что-то похожее на то, что я хочу, - создавая словари блоков текста с частотой информации, сообщающей их частоту. Это должно быть что-то похожее на http://www.codeproject.com/KB/recipes/Patterns.aspx У вас есть что-нибудь написанное на C #?

1 Ответ

1 голос
/ 28 мая 2010

Это очень просто реализовать.

  1. Используйте Split (функция-член класса string), чтобы разбить строку на слова. (вы можете использовать разделители в URL кода проекта).

  2. Forloop, чтобы перечислить все n-граммы и использовать Dictionary<string, int>, чтобы получить счет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...