Хорошо, так что вам нужно настроить pandas фрейм данных.
В первом столбце вы должны иметь весь текст сайта или блога, процессы, как вы упомянули. В следующих столбцах у вас должен быть один столбец для каждого тега, который вы хотите применить к набору данных, с горячим кодированием.
Затем вам нужно будет заполнить строки, пометив вручную несколько тысяч веб-сайта или сообщений блога, использующих эту горячую кодировку.
Когда вы закончите, вы можете обучить свою машину. Затем любая новая статья, которую вы вставите в нее, машина выдаст вероятность для тегов, принадлежащих этой статье. Вероятно, на github есть много репозиториев с предварительно подготовленными моделями, которые вы можете использовать.