Как классифицировать тексты, связанные с Библией, по их содержанию - PullRequest
0 голосов
/ 22 марта 2020

У меня есть база текстов из комментариев социальных сетей (FB, Twitter). Моя цель состоит в том, чтобы классифицировать тексты, которые имеют сильное отношение к Библии, основываясь на их содержании (например, если используются цитаты или «библейские» слова. Это проблема двоичной классификации, и мне нужна помощь, чтобы выяснить, как к ней подойти. (возможно, используйте Библию как словарь). Спасибо!

1 Ответ

0 голосов
/ 23 марта 2020

Вы можете обучать контролируемый двоичный классификатор (например, регрессия logisti c по счетчикам TF-IDF, или классификатор быстрого текста, или настраивать BertForSequenceClassification).

Затем примените этот классификатор к своей базе данных комментариев и найдите разумное значение порога вероятности, чтобы сохранить только те комментарии, в которых классификатор достаточно уверен.

В качестве положительных примеров для обучения вы можно использовать предложения из самой Библии, предложения для статей из Википедии, связанных с Библией, и т. д. c. В качестве отрицательных образцов вы можете использовать любой корпус предложений, собранных из Интернета, например, один из Корпорация Лейпцига .

...