Какую модель классификации я должен использовать для авторской атрибуции в машинном обучении? - PullRequest
0 голосов
/ 29 февраля 2020

Я хочу получить набор текстов, написанных указанным c автором, и больший набор тестов неизвестных текстов. Я хочу быть в состоянии предсказать, был ли каждый текст (или класс) в наборе тестов написан конкретным c автором набора текстов поезда. Какую модель классификации я должен использовать для достижения этой цели и как я могу ее реализовать?

1 Ответ

0 голосов
/ 29 февраля 2020

Вы можете использовать регрессионную модель логистики c. Даже если в названии присутствует «регрессия», оно применяется к классификации.

Если использование определенных слов типично для вашего автора, вы можете создать модель, основанную на частоте слов в текстах:

  • Прежде чем применять модель, необходимо создать числовые значения из текстов. Поэтому вы можете назначить токены уникальным словам.
  • Вы создаете вектор объектов путем подсчета частоты слов

Logisti c модель смещения для классификации текста содержит код, в котором эти шаги выполняются, чтобы вывести суждение о проверке mov ie.

Если, например, необходимо рассмотреть последовательность слов, вам необходим измененный подход.

...