Используйте NLP, чтобы ответить на индивидуальный вопрос в большом корпусе. - PullRequest
0 голосов
/ 10 апреля 2020

Скажем, у меня есть корпус в годовом отчете компании, в котором представлены данные о доходах 4 отраслей: автомобилестроения, полупроводников, экологически чистой энергии и здравоохранения. Для людей несложно найти данные о доходах для одной конкретной c отрасли. Если бы мне пришлось использовать NLP для автоматизации этого процесса, чтобы мне не приходилось читать его, возможно ли, что NLP сможет сопоставить правильные данные о доходах с одной конкретной c отраслью?

Я использовал NLP для анализа настроений, topi c моделирование и генерация текста. Но ни один из них, кажется, не имеет отношения к заявке выше. Любые идеи? Какую функцию в какой библиотеке я могу использовать?

1 Ответ

0 голосов
/ 13 апреля 2020

Будет относительно легко комментировать, если спрашивающий публикует образец текста для каждого из 4 классов, а именно: автомобильный, полупроводниковый, экологически чистая энергия и здравоохранение. Тем не менее, автор пытается предложить подход, который работает в теории.


Попробуем разобраться в проблеме с точки зрения НЛП, как указано ниже.

  1. Есть документы, которые состоят из некоторого содержимого. Каждый документ может быть финансовым отчетом или чем-то другим с текстом и соответствующими фактами.
  2. Предполагается, что каждый документ будет иметь содержание, относящееся к одному классу, т.е. Существует ненулевая вероятность того, что содержимое одного класса может перекрываться с другим. Например, содержание вокруг зеленой энергии может содержать упоминания о низкоэмиссионных автомобилях.

Подход к идентификации аналогичного контента может быть реализован следующим образом. Эти шаги взяты из другого ответа автора здесь .

  1. Шаг 1 Развертывание алгоритма косинусное сходство для измерения сходства содержимого из нескольких документов. Чтобы приблизить его к сходству semanti c, используйте WOR DNET для создания функций для вычисления косинусного сходства . Это гарантирует, что токены, такие как «путь», будут обрабатываться ближе к токену «дорога».

  2. Шаг 2 Группировать содержимое из разных документов за пределами порогового значения косинуса ( пример: 0,75) как документы того же класса.

  3. Шаг 3 Вручную проверьте различные группы, чтобы убедиться, что контент из одного класса сгруппирован в одну группу. Если в этих группах смешано более одного класса, уточните сходство косинусов с помощью разработки функций. Например, добавьте TfIDf, чтобы отбросить менее информативные функции.

  4. Шаг 4 На основе результатов Шаг 3 , разверните больше функций разработки до группы являются однородными.

  5. Шаг 5 Когда группировка кажется однородной, можно использовать методы поиска информации для извлечения информации. Этот шаг, возможно, является самым сложным из всех перечисленных выше шагов, и автор на момент написания этого контента не имел никаких практических знаний о методах IE / IR.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...