У меня есть несколько примеров текстов для конкретных c этикеток. Используя эти данные, я хочу иметь возможность классифицировать новый фрагмент текста для этикетки.
У меня есть от дюжины до ста строк данных, таких как:
Product Description | Price | Batteries | Reviews
The HP notebook is a bargain...., $200, Included, 37
Acer just released a new laptop...., $500, Not Included, 0
Lenovo Thinkpad is hitting the market .., $800, None, 23
и затем для нового текста, подобного этому, я хочу иметь возможность извлекать метки.
Samsung Ultrabook is sleek and new..., $900, n/a, 2 reviews
Я смотрел на соответствие на основе правил Spacy библиотеки python, но я не уверен, как распознать кусок текста, как описание продукта. Цена, отзывы довольно легко определить правила, но это не ясно для описания продукта, так как длина повсюду. Однако из сотен строк существует минимум и максимум, и я думал о том, чтобы обучить какую-то нейронную сеть, которая сможет обнаружить и классифицировать данный текст.
Основной вопрос в том, как научить нейронную сеть множеству примеров метки, а затем обнаружить ее в каком-то новом корпусе?
обновление: это ожидаемый вывод (заказ непредсказуем и может содержать больше элементов, чем указано ниже)
Samsung Ultrabook is sleek and new..., $900, n/a, 2 reviews
, поэтому я буду l oop над каждым предметом, и он должен идентифицировать один из ярлыков ['product description', 'price', 'batteries', 'reviews']
. Если на входе метка не найдена, она игнорируется.