Использование BERT для классификации по заданной длине символа или количеству слов в предложении - PullRequest
0 голосов
/ 13 июня 2019

У меня есть набор данных заголовков, их описаний и 0 или 1, которые соответствуют тому, является ли описание действительным или нет.Я хочу иметь возможность классифицировать, являются ли они действительными или нет на основе BERT наряду с количеством символов / слов в описании.Как бы я это сделал?

1 Ответ

1 голос
/ 09 июля 2019

Этот вопрос немного широк, но вы можете начать его следующим образом:

Вы, вероятно, можете использовать Cola процессор Берт, который является подходящим процессором для задачи двоичной классификации.

Вы можете рассматривать Названия в качестве идентификатора, поскольку они не должны влиять на обучение, и они могут однозначно идентифицировать описание.

Создайте файлы TSV в соответствии с необходимой проблемой, вы можете использовать данные Glue для задачи Cola, чтобыПосмотрите, как данные должны быть отформатированы для bert.

Как правило, обучающий набор Dev имеет 4 столбца, а именно id, class, segment ID, text data, а тестовый набор имеет только 2столбцы id и text data.

Точную настройку можно выполнить после получения данных в требуемом формате.Вы можете использовать скрипт run_classifier.py для тонкой настройки.Авторы документировали способ использования упомянутого скрипта для тонкой настройки здесь

...