Поиск города, страны, названия компании из текста твита с использованием Java - PullRequest
2 голосов
/ 23 ноября 2011

Я пытаюсь создать пример приложения, в котором я хочу проанализировать твит и найти название города, название страны и название компании в этом твите.

Тупым способом сделать это может быть ведение списка названий стран, городов и компаний и поиск их в тексте твита, но этот подход будет нуждаться в изменении каждый раз, когда я хочу добавить что-то новое.

Существует ли библиотека , которая может анализировать строку и предоставлять мне эту информацию?Или вы можете предложить мне путь, по которому я должен пойти?

Ответы [ 3 ]

6 голосов
/ 24 ноября 2011

Enhancer компонент Apache Stanbol предоставляет сервис NER с его RESTful API.Вы можете просто передать твит-контент в Stanbol, и он предоставит вам улучшения, например, людей, мест, организаций.

Вы можете попробовать демонстрационные серверы:
http://dev.iks -project.eu: 8081 / двигатели
http://fise.demo.nuxeo.com/engines

2 голосов
/ 24 ноября 2011

Вы ищете распознавание именованных объектов.

0 голосов
/ 23 ноября 2011

Предполагая, что все твиты имеют одинаковую структуру, а необходимая информация находится не в блочном тексте, вы можете написать простой парсер для получения информации.

...