добыча данных на питоне - PullRequest
       14

добыча данных на питоне

3 голосов
/ 04 апреля 2011

Я не слишком увлекаюсь анализом данных, но мне нужны некоторые идеи по кластеризации.Позвольте мне сначала описать мою проблему.

У меня есть около 100 листов данных, которые содержат отзывы пользователей.Я пытаюсь найти для примера слова, которые описывают качество.Можно сказать, что это удивительное качество, а другой человек может сказать, что оно великолепно, и теперь мне нужно объединить те документы, которые описывают эти похожие предложения, и получить частоту таких предложений.Какую концепцию применять здесь?

Думаю, мне нужно указать некоторые стоп-слова и синонимы.Я не слишком знаком с этой концепцией.

Может кто-нибудь дать мне несколько подробных ссылок или объяснений?а какой инструмент использовать?Я в основном программист на Python, поэтому любой модуль Python был бы признателен.

Спасибо

Ответы [ 3 ]

4 голосов
/ 04 апреля 2011

Существует http://www.nltk.org/ для языковой обработки. С помощью этой библиотеки вы можете разбивать текст на предложения, вычислять частоту терминов, находить синонимы и многое другое.

Carrot ^ 2 - это хороший проект с открытым исходным кодом для кластеризации фрагментов текста, к сожалению, он написан на Java. Идея, лежащая в основе его кластеризации, заключается в частотах терминов и фраз (биграммы и триграммы). После предварительной обработки каждый документ (фрагмент, рецензия) представляется в виде вектора частот / фраз. Для вычисления кластеров они используют некоторую линейную алгебру и находят главные компоненты в этом пространстве терминов. Затем эти компоненты используются для формирования кластеров и меток для них.

В вашем случае стоит рассматривать рецензии как документы, кластеризовать их и получить метки для кластеров. Может быть, этикетки будут как-то оценивать отзывы.

В вашем конкретном случае стоит исключить слова, которые так сильно уменьшают размерность, что очень важно в таких задачах

Еще один полезный проект - montylingua

3 голосов
/ 04 апреля 2011

Я бы последовал первичному предложению из этого вопроса на CrossValidated . В частности, взгляните на scikit-learn .

1 голос
/ 04 апреля 2011

Вот две статьи, которые извлекают информацию из оценочного текста.Кажется, что они делают то, что вы хотите сделать.

http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.91.9534

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.77.5392&rep=rep1&type=pdf

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...