Решить, насколько значим заголовок / текст - PullRequest
0 голосов
/ 01 июля 2019

Я пытаюсь решить проблему бессмысленных сообщений коммита и pr-описаний, и TensorFlow пришел в голову вместе с GitHub action . введите описание ссылки здесь

Однако я пытаюсь понять, как определить «бессмысленный» текст, т. Е.

Бессмысленное описание Добавить новую папку в хранилище

Значимое описание Добавлена ​​папка ресурсов для размещения файлов изображений

Любые указатели в правильных направлениях приветствуются.

1 Ответ

1 голос
/ 01 июля 2019

Ну, ясно, что это проблема классификации текста, и ваш вариант использования довольно классический.Чтобы классифицировать описание коммитов github как осмысленное или бессмысленное, вам понадобится куча обучающих данных.Данные будут состоять из строк описания, которые помечены как значимые / бессмысленные.То, как я это представляю, и обычный подход к такого рода задачам классификации с использованием Tensorflow и других библиотек глубокого обучения, таких как Keras, состоит в том, чтобы ваши тренировочные данные в виде файла .csv с двумя столбцами, например,

  1. description (содержит строку описания коммита)
  2. result (содержит вердикт, например meaningful / meaningless или 1 / 0)

Затем вы можете обучить классификатор текстаИспользуя эти данные, можно использовать обученную модель, чтобы предсказать, является ли данное описание хорошим или нет.

Я бы рекомендовал вам попробовать Людвиг .Это библиотека глубокого обучения Uber с открытым исходным кодом, и ее чрезвычайно легко использовать для таких задач, как классификация текста .Он построен поверх TensorFlow и действительно прост в использовании.

Надеюсь, что он отвечает на ваш запрос.Спасибо!

...