Извлечение интересов пользователей из социальных профилей - PullRequest
2 голосов
/ 04 марта 2012

Я впервые играю в НЛП, поэтому прошу прощения за мое невежество.Я ищу способ извлечения интересов / лайков / хобби из социальных профилей пользователей.Вот пример, где все интересы / лайки / хобби выделены жирным шрифтом:

«Я считаю себя довольно разнообразным персонажем ... Я профессиональный борец , ноЯ бы взял пулю за Стену * E . Я тренируюсь как тренажер для геноцида одного человека в тренажерном зале , но я плакал на " Армагеддон ".Я отправлюсь на AC / DC , и я серьезно думаю о том, чтобы сделать татуировку Legend of Zelda . Я дружу 420. Мне нравится вечеринка это с толпой братства однажды ночью, поболтать с моими Пылающим Человеком друзьями в следующий, сыграть Halo и World of Warcraft в следующий, и джемс друзьями, которым не моложе 40. Следующий мой младший друг - 16 лет, мой самый старый друг - 66. Я буду петь караоке в барах, и я - коллективный психиатр моих друзей /плечо. "

Профили обычного текста.С ним нет метатегов или идентификаторов, это просто текстовый абзац.

Моя наивная идея состояла в том, чтобы взять каждое существительное и сопоставить его с Freebase , чтобы увидеть, является ли этодеятельность / художник / фильм / книга и т. д. Проблема в том, что, хотя большинство упомянутых сущностей будут вещами, которые нравятся пользователю, она также будет упоминать вещи, которые ей не нравятся , и у меня нет средств различать 2.

У меня есть 2 вопроса:

  1. На какое подполе НЛП я должен смотреть?Некоторые googleable алгоритмы / методы / авторы будут с благодарностью.
  2. Насколько сложна эта проблема?

Спасибо!

1 Ответ

1 голос
/ 04 марта 2012

Во-первых, если использование НЛП для этой цели не является для вас конкретной задачей, проверьте проблемный домен, чтобы убедиться, что вы можете полностью его избежать.

Например:

  • имеют ли эти профили теги (предоставленные либо Сайтом, либо Пользователь)

  • что делает API сайта доступным (при условии, что вы Доступ к этим данным; если вы очищаете это, то это не конечно применять)? Хороший пример, Facebook. если вы читаете сообщения пользователя, вы увидите такие слова, как "рестлер", "караоке" и т. д., но если вы посмотрите на какие поля доступны через Graph API, вы увидите, что эти с действиями почти всегда связан идентификатор FB.

Я не специалист в этой области, но я могу порекомендовать несколько ресурсов, предназначенных для НЛП и доступных для неспециалиста или новичка. Первый - это API обработки текста . Этот простой веб-сервис использует REST и JSON IO. Это бесплатно и, кажется, имеет довольно большое ограничение скорости.

Этот API, по-видимому, в значительной степени полагается на превосходный Natural Language Tooolkit (NLTK), представляющий собой зрелую стабильную библиотеку в python, которая включает в себя модули, направленные на решение проблемы в вашем вопросе, например, Sentiment Analysis, Tagging и извлечение куска и т. д.

Какой конкретный поддомен наиболее актуален для решения Вопроса в ОП? Я не знаю, но я подозреваю, что где-то в NLTK есть модуль, который делает то, что вам нужно. Надеемся, что найти этот модуль - просто вопрос скимминга API Documentation (который организован по модулю); читая раздел Getting Started , в котором содержится превосходный обзор модулей NLTK, а также демонстрации для всех из них.

...