Извлечение сущности на больших документах - PullRequest
0 голосов
/ 28 апреля 2018

Мне нужно извлечь объекты из документов Word и PDF. Документы могут быть объемом от 10 до 20 страниц. Имеются ли масштабируемые библиотеки / API, которые мы можем подключить к нашему конвейеру обработки? Любое сравнительное исследование различных решений будет полезно.

1 Ответ

0 голосов
/ 30 апреля 2018

Взгляните на Watson Natural Language Understanding (вам нужно получить IBM ID, а затем войти в систему, чтобы увидеть этот контент - не волнуйтесь, стоимость составляет $ 0). С Watson Natural Language Understanding вы захотите взглянуть на API Explorer , чтобы найти правильный синтаксис API, который будет использоваться для получения результатов, которые вы ищете.

Я также заметил, что упоминаются документы Word / PDF. Вам нужно будет преобразовать те, которые используют службу Watson Discovery , а затем вы можете передать преобразованные документы в Watson Natural Language Understanding , которая принимает JSON, текст или HTML.

...