Как анализировать сообщения твиттеров?(улучшая мой алгоритм) - PullRequest
21 голосов
/ 06 декабря 2011

У меня была хорошая идея для реализации.Я называю это

FixTheUnFixed

Идея выглядит следующим образом: представьте, что вы едете или путешествуете по всему миру, и когда вы видите какое-то препятствие или ущерб - разбитый свет,мусор, который покрывает всю улицу или любую другую проблему, которую вы хотели бы, чтобы ответственный орган починил ее.

все, что вам нужно сделать, - это написать что-то подобное, и вы можете добавить фотографию и, конечно же, местоположение, используяунаследованная служба определения местоположения приложений Twitter или Facebook.

Чирикать так:

@FixTheUnFixed there is a broken fire hydrant here
@FixTheUnFixed my cellular company charged me 18,572$
  for using my iPhone aboard.

Я много думал о том, как получить обработку сообщений.большинство вопросов, которые будут затронуты, касаются муниципалитетов, и я хотел бы узнать местоположение и отправить твит в соответствующий муниципалитет или отправить им электронное письмо.

две мои идеи для получения этого адреса - использовать его в Google (с Google API).

псевдоалгоритм:

1. get the location the Twitter's or Facebook's status sent from.
2. look for key words such as trash, cats, animals etc.
3. finding the relevant authority e-mail , twitter or Facebook account.
4. send the message to the authority account and re-tweet it to the public
     world so they can follow if there is any change.
  • In 3. @algo, есть ли какой-нибудь умный способ реализовать это?
  • Я не хочу спамить властям и ни публиковать спам подлых людей.
  • Как я могу улучшить алгоритм выше?
  • Как мне найти коммуникационные ресурсы соответствующих органов?

Ответы [ 4 ]

8 голосов
/ 08 декабря 2011

Я предлагаю начать с использования Amazon Mechanical Turk - платить реальным людям небольшую плату за каждый твит, который они обрабатывают.Они должны будут определить, был ли это спам или нет, тогда, если они законны, они будут искать правильную контактную информацию муниципалитета.Тем временем собирайте подробную статистику по каждому обработанному твиту, из которого вы можете создать базу данных.Например, вы сможете увидеть, что все твиты, содержащие «Мусор» и «Чикаго», генерируют ответ с определенным номером телефона.Получив достаточно данных, вы сможете использовать их для автоматизации общих / четко определенных входящих твитов и постепенно наращивать их, постоянно уточняя свои данные и ассоциации, используя исследования, проведенные турками.

Также предложитВнедрять услугу только для ограниченных районов - скажем, в Нью-Йорке или Лондоне.(Или самый большой город, где бы вы ни находились). Таким образом, информация, с которой нужно начинать, намного меньше.

4 голосов
/ 12 декабря 2011

В качестве первого шага к вашему решению я бы предложил подключить широту / долготу к SimpleGeo (у них есть библиотека iOS): http://simplegeo.com

Используя что-то вроде «Найти границы, окружающие местоположение», выможет получить информацию об округе, муниципалитете, законодательном округе и т. д., которая может предоставить вам вспомогательные метаданные, а также несколько торговых точек для поиска контактной информации:

https://simplegeo.com/docs/api-endpoints/simplegeo-context#find-boundaries-surrounding-location

Например,Я уверен, что вы могли бы превратить законодательный округ в адрес электронной почты члена конгресса через какой-нибудь общедоступный веб-сайт / API.Возможно, отправлять в их офис двухнедельную или ежемесячную партию по электронной почте обо всех зарегистрированных проблемах в своем округе и оказывать давление на выборных должностных лиц, чтобы они внесли соответствующие изменения?

Другой вариант может состоять в том, чтобы вывести свою базу данных о зарегистрированных проблемах наобщедоступный веб-сайт и собирать соответствующую контактную информацию через краудсорсинг.Разрешить участникам веб-сайта добавлять / обновлять адреса электронной почты, которые можно использовать для сообщений о проблемах, о которых сообщалось в настоящее время, и проблем, которые вы можете получить в будущем для того же местоположения.

2 голосов
/ 13 декабря 2011

ifttt.com может быть использован для этого? это услуга для автоматизации действий на основе ваших пользовательских критериев.

Может быть, вы могли бы с ними связаться?

0 голосов
/ 01 сентября 2012

Я думаю, что правильнее всего использовать существующую библиотеку NLP , такую ​​как Stanford nlp library .

, которая включает в себя:

  • Stanford CoreNLP
  • Stanford Parser
  • Стэнфордский классификатор

В качестве альтернативы вы можете использовать opennlp или nltk .Если платформа NLP находится в Java, и вы хотите использовать python или ruby ​​в качестве требуемого OP, проверьте jruby и jython out.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...