Классификация документов: предварительная обработка и несколько меток - PullRequest
1 голос
/ 27 марта 2020

У меня есть вопрос об алгоритмах представления слов: какой из алгоритмов word2Ve c, doc2Ve c и Tf-IDF больше подходит для обработки задач классификации текста? Корпус, используемый в моей классификации обучения под наблюдением, состоит из списка из нескольких предложений, как с короткими, так и с длинными предложениями. Как обсуждалось в этой теме , выбор doc2ve c vs word2ve c зависит от длины документа. Что касается Tf-Idf против встраивания слов, то это скорее вопрос текстового представления.

Мой другой вопрос: что если бы для одного и того же корпуса у меня было более одного ярлыка для ссылки на предложения в нем? Если я создаю несколько записей / меток для одного и того же предложения, это влияет на решение алгоритма окончательной классификации. Как я могу сказать модели, что каждая метка считается равной для каждого предложения документа?

Заранее спасибо,

1 Ответ

0 голосов
/ 27 марта 2020

Вам следует попробовать несколько способов превратить ваши предложения в «векторы функций». Здесь нет жестких правил; то, что лучше всего подходит для вашего проекта, будет во многом зависеть от ваших конкретных c данных, проблемных областей и целей классификации.

(Не экстраполируйте рекомендации из других ответов - например, того, который вы связали речь идет о сходстве документов, а не о классификации - как о лучших практиках для вашего проекта.)

Чтобы начать сначала, вы можете сначала сосредоточиться на некотором простом аспекте «двоичной классификации» своих данных. Например, выберите одну метку. Тренируйтесь на всех текстах, просто пытаясь предсказать, подходит ли этот ярлык или нет

Когда у вас есть такая работа, и вы понимаете каждый шаг - подготовку корпуса, обработку текста, векторизацию объектов, обучение классификации, оценку классификации - тогда вы можете попробовать расширить / адаптировать эти шаги для классификация по одной метке (где каждый текст должен иметь ровно одну уникальную метку) или классификация по нескольким меткам (где каждый текст может иметь любое количество комбинированных меток).

...