Табличные данные с использованием spacy - PullRequest
0 голосов
/ 16 октября 2018

Я использую Spacy и нуждаюсь в некоторой помощи для обучения нашей модели с помощью пользовательских объектов, представленных в табличном формате в документе word / pdf.

Я могу обучить его с помощью пользовательского объекта на примере ANIMAL, и он работает нормально.В этом случае мы предоставляем начальный и конечный индексы вышеупомянутого пользовательского объекта в данном тексте.

("Horses are too tall and they pretend to care about your feelings", {
    'entities': [(0, 6, 'ANIMAL')]
}),

Мой вопрос возникает в случае табличного формата:
Как я могу привести индексы, подобные примеру ЖИВОТНЫХ?
Может ли кто-нибудь помочь и помочь?

enter image description here

Ответы [ 2 ]

0 голосов
/ 17 июля 2019

Вы также можете просто использовать pd.read_html ([[передайте ваш html здесь]]), и это вернет список фреймов данных, которые вы можете использовать.

Спасибо.

0 голосов
/ 23 октября 2018

После большого количества исследований и статей я нашел способ пройти через это.

  1. Преобразовать эту таблицу в текст.
  2. Когда вы преобразуете это как текст.это добавит много пробелов и т. д.
  3. Замените их пробелами.
  4. Это преобразует вашу таблицу в абзац.
  5. Теперь вы можете задавать индексы в виде предложений и обучать вашу модель.

Кроме того, вы можете использовать алгоритм синтаксического анализатора зависимостей.найти правильные значения, связанные с головой (в случае, если значения принадлежат нескольким ключам)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...