Question

Я не слишком увлекаюсь анализом данных, но мне нужны некоторые идеи по кластеризации.Позвольте мне сначала описать мою проблему.

У меня есть около 100 листов данных, которые содержат отзывы пользователей.Я пытаюсь найти для примера слова, которые описывают качество.Можно сказать, что это удивительное качество, а другой человек может сказать, что оно великолепно, и теперь мне нужно объединить те документы, которые описывают эти похожие предложения, и получить частоту таких предложений.Какую концепцию применять здесь?

Думаю, мне нужно указать некоторые стоп-слова и синонимы.Я не слишком знаком с этой концепцией.

Может кто-нибудь дать мне несколько подробных ссылок или объяснений?а какой инструмент использовать?Я в основном программист на Python, поэтому любой модуль Python был бы признателен.

Спасибо

Andrey Sboev · Answer 1 · 04 апреля 2011

Существует http://www.nltk.org/ для языковой обработки. С помощью этой библиотеки вы можете разбивать текст на предложения, вычислять частоту терминов, находить синонимы и многое другое.

Carrot ^ 2 - это хороший проект с открытым исходным кодом для кластеризации фрагментов текста, к сожалению, он написан на Java. Идея, лежащая в основе его кластеризации, заключается в частотах терминов и фраз (биграммы и триграммы). После предварительной обработки каждый документ (фрагмент, рецензия) представляется в виде вектора частот / фраз. Для вычисления кластеров они используют некоторую линейную алгебру и находят главные компоненты в этом пространстве терминов. Затем эти компоненты используются для формирования кластеров и меток для них.

В вашем случае стоит рассматривать рецензии как документы, кластеризовать их и получить метки для кластеров. Может быть, этикетки будут как-то оценивать отзывы.

В вашем конкретном случае стоит исключить слова, которые так сильно уменьшают размерность, что очень важно в таких задачах

Еще один полезный проект - montylingua

Shane · Answer 2 · 04 апреля 2011

Я бы последовал первичному предложению из этого вопроса на CrossValidated . В частности, взгляните на scikit-learn .

Miguel A. Friginal · Answer 3 · 04 апреля 2011

Вот две статьи, которые извлекают информацию из оценочного текста.Кажется, что они делают то, что вы хотите сделать.

http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.91.9534

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.77.5392&rep=rep1&type=pdf

добыча данных на питоне

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

добыча данных на питоне

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы