BERT Мультиклассовая классификация текста в Google Colab - PullRequest
0 голосов
/ 23 июня 2019

Я работаю над набором данных комментариев в социальных сетях (включая ссылки на YouTube) в качестве входных функций и профиля личности Майерс-Биггс в качестве целевой метки:

    type    posts
0   INFJ    'http://www.youtube.com/watch?v=qsXHcwe3krw|||...
1   ENTP    'I'm finding the lack of me in these posts ver...
2   INTP    'Good one _____ https://www.youtube.com/wat...
3   INTJ    'Dear INTP, I enjoyed our conversation the o...
4   ENTJ    'You're fired.|||That's another silly misconce...

, но из того, что янайдено, BERT хочет, чтобы DataFrame был в следующем формате:

a   label   posts
0   a   8   'http://www.youtube.com/watch?v=qsXHcwe3krw|||...
1   a   3   'I'm finding the lack of me in these posts ver...
2   a   11  'Good one _____ https://www.youtube.com/wat...
3   a   10  'Dear INTP, I enjoyed our conversation the o...
4   a   2   'You're fired.|||That's another silly misconce...

Полученный результат должен быть прогнозом для тестового набора комментариев, разделенных на четыре столбца, по одному для каждого профиля личности, где, например, 'Mind'= 1 - метка для экстраверта.По сути, разделив такой тип, как INFJ, на 'Mind', 'Energy', 'Nature', 'Tactics', например, так:

    type    post    Mind    Energy  Nature  Tactics
0   INFJ    'url-web    0   1   0   1
1   INFJ    url-web 0   1   0   1
2   INFJ    enfp and intj moments url-web sportscenter n... 0   1   0   1
3   INFJ    What has been the most life-changing experienc...   0   1   0   1
4   INFJ    url-web url-web On repeat for most of today.    0   1   0   1

Я установил pytorch-pretrained-bert, используя:

!pip install pytorch-pretrained-bert

Я импортировал модели и попытался токенизировать столбец 'posts', используя:

import torch
from pytorch_pretrained_bert import BertTokenizer, BertModel, BertForMaskedLM

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

tokenized_train = tokenizer.tokenize(train)

, но получил эту ошибку:

TypeError: ord() expected a character, but string of length 5 found

Я попробовал это на основеGitHub Repo, прошедший предварительную подготовку, и Youtube-видео.

Я стажер по науке о данных, не имеющий опыта глубокого обучения.Я просто хочу поэкспериментировать с моделью BERT самым простым способом, чтобы предсказать классифицированный вывод по нескольким классам, чтобы я мог сравнить результаты с более простыми моделями классификации текста, над которыми мы сейчас работаем.Я работаю в Google Colab, и в результате получается файл .csv.

Я понимаю, что это сложная модель, и вся документация и примеры, связанные с моделью, являются сложными (слои тонкой настройки и т. Д.), Но любыебудет очень признательна за помощь в простой реализации (если на самом деле есть такая вещь) для начинающего Data Scientist с минимальным опытом разработки программного обеспечения.

...