Разработать алгоритм для анализа слов - PullRequest
2 голосов
/ 03 марта 2012

Я работаю над проектом, в котором у меня есть семь «постов». Посты - это всего лишь одно или два предложения на эту тему. Что мне нужно сделать, это разработать алгоритм, который просматривает сообщения и определяет определенные тенденции. Например, «А это хорошо, но вызывает Б.» Мне нужно разработать алгоритм, который бы идентифицировал связь между А и В.

Однако, как вы можете судить по моему описанию, я не знаю, как решить эту проблему. Кто-нибудь может указать мне правильное направление? Я посмотрел на интеллектуальный анализ данных, но я не уверен, что это то, что мне нужно.

Ответы [ 2 ]

8 голосов
/ 03 марта 2012

То, что вы спрашиваете, является горячей темой исследования в области интеллектуального анализа текста и обработки естественного языка. Тем не менее, ваш вопрос слишком общий IMO.

Самое простое, с чего вы могли бы начать, это определить слова, которые часто встречаются вместе в предложении (или в последовательных предложениях). Это, по крайней мере, даст вам какую-то корреляцию. Посмотрите на изучение правил ассоциации, как предложил пользователь 1161595. Методы кластеризации также могут помочь. Для начала взгляните на кластерный анализ и текстовую кластеризацию .

Чтобы извлечь отношения между словами, вам нужно углубиться в обработку естественного языка. Вы можете использовать Google Scholar для поиска связанных исследований в области интеллектуального анализа текста, анализа тенденций и поиска информации.

Кроме того, следующие ссылки могут дать вам представление о том, с чем вы имеете дело:

Что касается реализации, вы можете взглянуть на фреймворки с открытым исходным кодом, упомянутые в Wikipedia . Кроме того, существует множество библиотек машинного обучения и НЛП.

И последнее, но не менее важное: я считаю, что есть большая вероятность, что нечто подобное тому, что вы ищете, уже кем-то реализовано. Таким образом, сквозной поиск в Google с правильными ключевыми словами может дать вам то, что вы хотите, не углубляясь в исследования.

7 голосов
/ 03 марта 2012

Существует несколько распространенных методов анализа данных, которые вы можете использовать. Наиболее простым является то, что называется Обучение правилам ассоциации .

Обучение правилам ассоциации определяет вещи, которые имеют тенденцию появляться вместе. Продуктовые магазины используют этот метод для извлечения данных из чеков продуктового магазина, чтобы определить, какие продукты обычно покупаются вместе, чтобы их можно было разместить рядом друг с другом в магазине. то есть чипсы и сальса, крекеры Грэм, зефир и шоколад, подгузники и пиво ... и т. д.

...