Natural Language / Text Mining and Reddit / социальный новостной сайт - PullRequest
3 голосов
/ 23 октября 2008

Я думаю, что существует множество данных на естественном языке, связанных с такими сайтами, как reddit или digg или news.google.com.

Я провел небольшое исследование в области интеллектуального анализа текста, но не могу найти способ использовать эти инструменты для анализа чего-то вроде reddit.

Какие приложения вы можете придумать?

Ответы [ 3 ]

3 голосов
/ 23 октября 2008

В прошлом я обнаружил, что лучший способ добывать данные на таких сайтах, как Reddit или Digg, - это сначала использовать API разработчика, который они предоставляют. Обычно у вас есть целенаправленный интерес к теме или тренду, и единственный способ получить эти данные - через общедоступный интерфейс. Вы также можете анализировать каналы и комбинировать их, чтобы раскрыть 90% того, что вы хотели бы знать. Если вы хотите провести глубокое исследование данных, недоступных через API, вы должны быть готовы потратить значительное количество времени на написание пользовательских оболочек вокруг такого инструмента, как cURL. Если у вас есть бюджет, вы также можете позвонить им и спросить, предлагают ли они платные данные исследований пользователей.

1 голос
/ 23 октября 2008

Я бы начал с RSS , и после этого я мог бы использовать Nutch ; что на самом деле делать с данными - это ваш звонок.

0 голосов
/ 23 октября 2008

Это хорошие идеи. Я могу получить данные, но какие приложения могут быть построены вокруг этого?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...