Срок экстракции с неанглийским - PullRequest
4 голосов
/ 30 декабря 2010

Я ищу проект с открытым исходным кодом, который выполняет извлечение терминов на нескольких языках.

Я уже нашел Веб-служба извлечения терминов Yahoo BOSS , и это хорошо.Однако он не работал с другими языками, кроме английского.

Знаете ли вы какой-либо проект по извлечению терминов с открытым исходным кодом, который поддерживает больше языков?

Спасибо!

Ответы [ 3 ]

2 голосов
/ 21 сентября 2012

Из пакетов, которые я использовал в производстве или только что поиграл, следующие были наиболее полными и наиболее активно поддерживаемыми:

  1. GATE - компьютерная архитектура для широкого спектра задач обработки естественного языка, доступная в рамках общедоступной лицензии GNU

  2. Ling-Pipe (Java) - набор библиотек Java для лингвистического анализа человеческого языка, который может связывать упоминания сущностей с записями в базе данных, раскрывать отношения, кластеризовывать документы, ...

  3. OpenNLP (Java) - инструментарий машинного обучения Java для обработки естественного языка (NLP). Поддерживаются наиболее распространенные задачи НЛП.

  4. NLTK (Python) - NLTK является ведущей платформой для создания программ Python для работы с данными на человеческом языке.

  5. Proxem Antelope (.Net) - Расширенная среда объектно-ориентированной обработки на естественном языке

  6. Скала-НЛП (Скала)

  7. Stanford NLP (Java)

Также есть несколько хороших веб-API, таких как:

  1. Zemanta

  2. Open-Кале

0 голосов
/ 07 марта 2012

Вы можете попробовать Linnaeus - это как бы предназначено для извлечения названий видов из научных работ, но я думаю, что вы можете дать ему свои собственные словари и использовать для других областей / задач.

0 голосов
/ 28 февраля 2012

GATE - Общая архитектура для текстовой инженерии: http://gate.ac.uk/

Будет выполнять извлечение терминов, сортировку и отбор ключевых слов, анализ настроений и тому подобное

С открытым исходным кодом, бесплатно, из Великобритании. Имеет целый ряд языков, включая арабский.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...