Признание типа сущности: поиск доминирующего типа сущности по его описанию - PullRequest
0 голосов
/ 05 июня 2018

Я работал над исследовательским проектом.У меня есть база данных описания Википедии большого количества объектов, включая спортсменов, политиков, актеров и т. Д. Цель состоит в том, чтобы определить тип объекта, используя описания.У меня есть доступ к некоторым данным с предсказанным типом объекта, который является довольно точным. Это будут мои тренировочные данные. То, что я хотел бы сделать, - это обучить модель для прогнозирования доминирующего типа сущности для остальных данных.

Что я делал до сих пор:

  • Извлечен первый абзац, H1, H2 заголовки вики-описания объекта.
  • Извлечен список категорийсущность на вики-странице (нижний раздел «Категории» присутствует на любой странице как здесь.

Найти тип сущности может быть сложно для сущностей, связанных с двумяили больше понятий, например, актер, который впоследствии стал политиком.

Я хочу спросить, как создать модель из необработанных данныхчто у меня есть? Какие переменные мне следует использовать для обучения модели? Также существуют ли какие-либо методы обработки естественного языка, которые могут быть полезны для этой цели? Я знаю, что теги POS могут быть полезны вэтот случай.

Мой поиск в интернете был не очень успешным. Я наткнулся на исследовательские статьи и блоги вроде , этот , но ни у одного из них нет соответствующей информации для этой цели.любойидеи будут оценены.Заранее спасибо!


РЕДАКТИРОВАТЬ 1:

Входными данными является первый абзац страницы Википедии сущности.Например, для этой страницы мой вклад будет следующим:

Алан Стюарт Франкен (род. 21 мая 1951 г.) - американский комик, писатель, продюсер, автор и политик, занимавший должностьсенатор Соединенных Штатов из Миннесоты с 2009 по 2018 годы. Он стал хорошо известен в 1970-х и 1980-х годах как исполнитель телевизионного комедийного шоу Saturday Night Live (SNL).Спустя десятилетия комедийного актера и писателя, он стал выдающимся либеральным политическим деятелем, организовав в эфире радиостанции "Америка Америка" шоу "Аль Франкен".

Моя извлеченная информация - первый абзац страницы, строка всех«Категории» (нижняя часть страницы) и все заголовки страницы.

1 Ответ

0 голосов
/ 06 июня 2018

Исходя из того, что я понял, вы хотели бы иметь классификатор, который будет вводить текст и прогнозировать из списка предопределенных категорий.

Я не уверен, каков ваш уровень знаний, поэтому я дам высокую оценкуобзор уровня, если дополнительные люди хотели бы узнать о предмете.

Как и все задачи НЛП, использующие ML, вам придется преобразовать ваш домен textual в домен numerical с помощью процесса featurization.

  1. Обработка текста и надписей
  2. Определение соответствующих элементов
  3. Создание числового представления элементов
  4. Обработка и проверка на классификаторе

Обработка текста и надписей

текст может иметь некоторые странные маркеры или вещи, которые необходимо изменить, чтобы сделать его более "чистым".это стандартно для шага нормализации текста.

тогда вам нужно будет сохранить связанные категории в качестве меток для текстов.

В конечном итоге это будет выглядеть примерно так:

For each wiki article:
    Normalise wiki article text
    Save associated categories labels with text for training

Определите соответствующие функции

Некоторые функции, о которых вы упомянули:

  1. Доминирующее поле (актер, политик)
  2. Информация о заголовке

Синтаксическая информация (POS-теги) является локальной (уровень токена), но может использоваться для извлечения определенных функций, например, являются ли слова собственными существительными или нет.

Создание числового представления функций

К счастью, есть способы автоматического кодирования, такие как doc2vec, которые могут сделать вектор документа из текста.Затем вы можете добавить дополнительные заказные функции, которые кажутся актуальными.

После этого у вас будет векторное представление функций, относящихся к этому тексту, а также меток (категорий).

Это станет вашим обучениемdata.

Обучение и тестирование по классификатору

Теперь обучение и тестирование по выбранному вами классификатору.

Ваши данные один-ко-многим, так как вы будете пытаться предсказать множество меток.

Попробуйте сделать что-то простое, просто чтобы показать, что все работает так, как вы ожидаете.проверить свои результаты с помощью процедуры перекрестной проверки, такой как k-кратная проверка с использованием стандартных метрик (Precision, Recall, F1)

уточнение

Просто чтобы уточнить, эта задача на самом деле не является именованным объектомзадача распознавания.Это своего рода задача классификации по нескольким меткам, где метки - это категории, определенные на страницах википедии.

Распознавание именованных объектов - поиск значимых именованных объектов в документе, таких как люди, места.Обычно что-то существительное.Обычно это делается на уровне токена, в то время как ваша задача, кажется, на уровне документа.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...