Ну, ясно, что это проблема классификации текста, и ваш вариант использования довольно классический.Чтобы классифицировать описание коммитов github как осмысленное или бессмысленное, вам понадобится куча обучающих данных.Данные будут состоять из строк описания, которые помечены как значимые / бессмысленные.То, как я это представляю, и обычный подход к такого рода задачам классификации с использованием Tensorflow и других библиотек глубокого обучения, таких как Keras, состоит в том, чтобы ваши тренировочные данные в виде файла .csv с двумя столбцами, например,
description
(содержит строку описания коммита) result
(содержит вердикт, например meaningful / meaningless
или 1 / 0
)
Затем вы можете обучить классификатор текстаИспользуя эти данные, можно использовать обученную модель, чтобы предсказать, является ли данное описание хорошим или нет.
Я бы рекомендовал вам попробовать Людвиг .Это библиотека глубокого обучения Uber с открытым исходным кодом, и ее чрезвычайно легко использовать для таких задач, как классификация текста .Он построен поверх TensorFlow и действительно прост в использовании.
Надеюсь, что он отвечает на ваш запрос.Спасибо!