Обучение языковой модели GPT2 на данных твиттера Hingli sh (хинди + английский sh) - PullRequest
0 голосов
/ 11 марта 2020

Я работаю над созданием нескольких приложений НЛП для данных Twitter. Сначала я создаю генератор твитов, который обучен для определенного c набора пользователей. Я использую этот репо ru_transformers в качестве ссылки. Большое спасибо Михаилу Гранкину за то, что он поделился своей работой и предоставил такую ​​подробную рецензию. До сих пор я обучал его на очень маленьком наборе данных (~ 20 МБ). Идея состоит в том, чтобы иметь переоснащенную модель, чтобы я мог видеть, что все части работают нормально, прежде чем приступить к тренировкам с полным набором данных. В наборе обучающих данных у меня есть один твит в каждой строке с пустой строкой между твитами. Я использую токенайзер YTTM , как указано в статье. До сих пор я сделал лишь небольшую предварительную обработку, удалив очень короткие твиты. Кроме этого я хочу сохранить всю другую информацию в целости и сохранности. Большинство твитов написаны на хингли sh (хинди, означающие слова на английском языке sh) с хорошим процентом родных слов на хинди, а также с большим количеством смайликов.

Вот несколько примеров того, что модель генерируется на этом чрезвычайно маленьком наборе данных. Подсказка - это то, что я указываю, и модель возвращает 3 образца.

Prompt: "we need to"
{
    "replies": [
        "ting to the law of the state and state leaders. Our judiciary needs water listing our government also as our cooperation.\" <|n|<|n| @ pradip103 these guys will be closed and still such subjects who are alive & amp; good in state forever.",
        " started trending # terrorism <|n| <|n| Next year we are begging congress # Hindus <|n| <|n| only indians are telling and respect for others and what we are working <|n|n| Many happy returns of the day @ sard",
        " Woman ... At least approximately Indians have been almost 25% Muslim population percentage in south India and is all Indians including 30%. Only game is now."
    ]
}

Prompt: "we need to"
{
    "replies": [
        " mouga kabvan? Kisse Owaisi Ko sikhate hein?",
        " sir Mr.",
        "ఏ turned out to create mayhem against Islamism and population of India. Else how will it be chief of that India chief left?\" <|n|<|n| Khan is punching towards Suit. Including his Congi IT cell workout."
    ]
}

Prompt: "we need to"
{
    "replies": [
        " ने सोशल मीडिया पर कब्ज़ा किया था| # HinduRashtra # HDL\" <|n|||||n| @ upma23 जन्मदिन की हार्दिक शुभकामनाएं । भगवान श्री कृष्ण? <|n||||n| @ ashish_prataps धन्यवाद! Taged Champion!",
        " this might be so apt about this. My part is right in Mumbai. Jai Hind Jai Bharat?? <|n|||<|n| And yet to cry # Pigs the inhumanity.",
        "-a journo of sexual slavery.# India # ExitPoll # OlaHuUber ?? <|n| <|n|| # OlaHuUber ?? Israel-e- Medina ?? <|n| <|n| OlaHuUber ?? Media is a loser Bollywood Funny person."
    ]
}

Одна очевидная вещь, которую мне нужно исправить, это "<| n |" персонажи. Есть идеи, как это решить? Есть ли что-то еще, что я не делаю правильно, о чем я должен знать, прежде чем я go буду вперед и обучу полную модель? Является ли YTTM хорошим выбором для токенизатора. Мне кажется, что он делает свою работу правильно, но хотел бы быть уверен. Любые комментарии / предложения приветствуются. </p>

...