Вы можете обучать контролируемый двоичный классификатор (например, регрессия logisti c по счетчикам TF-IDF, или классификатор быстрого текста, или настраивать BertForSequenceClassification).
Затем примените этот классификатор к своей базе данных комментариев и найдите разумное значение порога вероятности, чтобы сохранить только те комментарии, в которых классификатор достаточно уверен.
В качестве положительных примеров для обучения вы можно использовать предложения из самой Библии, предложения для статей из Википедии, связанных с Библией, и т. д. c. В качестве отрицательных образцов вы можете использовать любой корпус предложений, собранных из Интернета, например, один из Корпорация Лейпцига .