Мультиязычная система OpenCala как система? - PullRequest
2 голосов
/ 26 ноября 2008

Я был очень впечатлен системой OpenCalais. Это (есть / имеет) веб-служба, куда вы отправляете ваш текст, они анализируют его, а затем вам предоставляется серия категоризованных (с поддержкой RDF) тегов, к которым относится ваш документ.

Но - на данный момент - единственный поддерживаемый язык - английский.

Вам известны подобные системы, которые обрабатывают многоязычные документы? (Мне интересен итальянский, но многоязычность, конечно, плюс)

Ответы [ 2 ]

3 голосов
/ 27 марта 2013

Apache Stanbol может анализировать тексты на разных языках. На данный момент поддерживаются следующие языки (значения точности и отзыва могут различаться в зависимости от языка):

  • английский
  • 中文 (китайский),
  • Español (испанский),
  • Русский (Русский),
  • Português (португальский),
  • Deutsch (немецкий),
  • итальянский (итальянский) ,
  • Nederlands (голландский),
  • Svenska (шведский),
  • Данск (датский),
  • العربية (арабский),
  • עברית (иврит),
  • 日本語 (японский).

Анализ вернет обнаруженные объекты. Выходной формат анализа может быть:

  • JSON-LD,
  • RDF / XML,
  • RDF / JSON,
  • Черепахи,
  • N-тройки.

Объекты или теги текстов можно дополнительно адаптировать в соответствии с конфигурацией системы. В идеале любой пользовательский словарь может быть подключен к системе.

Есть несколько демоверсий:

Не уверен, что все вышеперечисленные языки поддерживаются в вышеупомянутых конечных точках.

RedLink GmbH собирается предоставлять облачные сервисы на основе Apache Stanbol и соответствующего программного обеспечения.

Плагин WordLift для WordPress уже обеспечивает анализ текста в WordPress для всех вышеупомянутых языков (в настоящее время находится на стадии тестирования). Вы можете попробовать установить плагин в WordPress и отправить текстовое содержание в теле сообщения.

Вы также можете подписаться и написать в Apache Stanbol список рассылки для конкретных запросов или информации.

0 голосов
/ 27 мая 2010

OpenCalais поддерживает метки французских и испанских метаданных для сущностей. Набор сущностей будет расширен в будущих выпусках. Смотрите нашу онлайн документацию на http://www.opencalais.com/documentation/calais-web-service-api

...