Question

Мне нужно проанализировать документ и собрать статистику относительно того, сколько раз каждая последовательность слов используется (таким образом, анализ проводится не по отдельным словам, а по серии повторяющихся слов). Я читал, что алгоритмы сжатия делают что-то похожее на то, что я хочу, - создавая словари блоков текста с частотой информации, сообщающей их частоту. Это должно быть что-то похожее на http://www.codeproject.com/KB/recipes/Patterns.aspx У вас есть что-нибудь написанное на C #?

Yin Zhu · Answer 1 · 28 мая 2010

Это очень просто реализовать.

Используйте Split (функция-член класса string), чтобы разбить строку на слова. (вы можете использовать разделители в URL кода проекта).
Forloop, чтобы перечислить все n-граммы и использовать Dictionary<string, int>, чтобы получить счет.

Алгоритм анализа предложений и токенизации

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Алгоритм анализа предложений и токенизации

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов