Question

Я новичок в НЛП и пытаюсь сделать многоклассовую классификацию с текстовыми данными.У меня есть чтение бина о мультиклассовой классификации, но я столкнулся с проблемой неструктурированных текстовых данных.Я объясню проблему на примере.рассмотрим это изображение, например:

Я хочу извлечь и классифицировать текстовую информацию, представленную на изображении.Проблема в том, что когда я извлекаю информацию, механизм распознавания будет выдавать что-то вроде этого:

18
EURO 46
KEEP AWAY
FROM FIRE
MADE IN CHINA
2226249917581
7412501
DOROTHY
PERKINS

Теперь целевые классы здесь:

18 -> size
EURO 46 -> price
KEEP AWAY FROM FIRE -> usage_instructions
MADE IN CHINA -> manufacturing_location
2226249917581 -> product_id
7412501 -> style_id
DOROTHY PERKINS -> brand_name

Проблема, с которой я сталкиваюсь, заключается в том, что входной текст не отделимэто означает, что «несколько строк могут принадлежать одному и тому же классу», и могут быть случаи, когда «одна строка может иметь несколько классов».

Так что я не знаю, как разделить / объединить строки перед передачей в классификацию.модель.
Есть ли способ использовать НЛП, я могу разбить абзац на основе целевого класса.Другими словами, данный входной абзац разделяет его по целевым меткам.

amirouche · Answer 1 · 05 марта 2019

Если вы рассматриваете только текст, это задача распознавания именованных объектов (NER).

Что вы можете сделать, это train модель Spacy для NER для вашего конкретногозадача .

Вот что вам нужно сделать:

Сначала собрать список обучающих текстовых данных
Отметить эти данные соответствующими типами сущностей
Разделить данные на тренировочный набор и набор для тестирования
Обучить модель с помощью Spacy NER с использованием обучающего набора
Оценить модель с помощью набора для тестирования
...
Прибыль!

См. Простая документация по обучению конкретных моделей NER

Удачи!

Как распознать объекты в тексте, который является результатом оптического распознавания символов (OCR)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как распознать объекты в тексте, который является результатом оптического распознавания символов (OCR)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы