Кажется, что вы заинтересованы в поиске временных утверждений в текстах.
Не уверен в вашем окончательном выводе, но давайте предположим, что вы хотите найти временные фразы или предложения, которые их содержат.
Одна методология может быть следующей:
- Создать список временных терминов [дни, годы, месяцы, сейчас, позже]
- Выберите только предложения с ключевыми словами
- Используйте предложения в модели doc2vec
- Вывести вектор и использовать метрику расстояния для нового предложения.
- GMM Cluster + Limit
- Расстояние от среднего
Другая методология может быть:
- Создать список временных терминов [дни, годы, месяцы, сейчас, позже]
- Извлечение словосочетания Биграм и Триграм
- Хранить соответствующие словосочетания с временными терминами
- Используйте соответствующие словосочетания в виде
bag-of-collocations
подхода
- Соответствующие векторы двоичных объектов для соответствующих коллокаций
- Тренируйте классификатор для распознавания текста более высокого уровня
Это звучит как хороший пример для подхода начальной загрузки, если у вас много текстов.
Обе они на самом деле частично контролируются, поскольку существует некоторая потребность в поиске начальных временных терминов, но даже это может быть автоматизировано с использованием схемы word2vec и начальной загрузки