Идея супер крутая! Я думаю, что вариант A, вероятно, будет работать довольно хорошо, если сообщения будут очень формульными c, но это действительно не так уж и интересно.
Опция B, как вы указали, потребует данных обучения.
Опция C, на самом деле не является правильным вариантом использования автоэнкодера, чтобы попытаться извлечь скрытую информацию и каким-то образом получить от неструктурированные данные в структурированные классификации.
Я хотел бы бросить свою шляпу в кольцо с опцией D, она объединяет некоторые из всех 3 (или, по крайней мере, B и C). Я предлагаю использовать BERT (или его разновидность, например, RoBERTa), который использует некоторую опцию C, а затем добавить простой классификатор для прогнозирования. Поскольку мы используем BERT, мы можем обойтись очень маленьким набором данных. Предложение для классификации, я бы замаскировал названия мест (найденных с использованием NER), а затем делал прогнозы. Например, «Я еду из Лос-Анджелеса в Сан-Франциско» (Спейси воспринимает оба как GPE, я провел несколько тестов и на удивление хорошо справляется с аббревиатурами) станет «Я еду из А в В», а затем предсказание будет от A до B или от B до A. Это уменьшит классы и позволит использовать несколько местоположений, если бы у нас было «от A до B до C», было бы несколько проблем классификации: от A до B, затем от B до C. Затем вы могли бы снова выполнить вычисление, просто изменив маски (технически это требует n выбора 4 вычислений, выбора двух самых высоких активаций, возможно, выбрасывания реверсов)
Я бы получил набор данных, загрузив его с помощью опции A, или еще лучше быстро ввести его самостоятельно (поскольку мы используем BERT, для этого не нужно слишком много данных).
Что касается рекомендаций на бумаге, я просто влюблен в BERT в последнее время https://arxiv.org/pdf/1810.04805.pdf. Я действительно в политических приложениях, поэтому я думал, что TD Parse был потрясающим https://www.aclweb.org/anthology/E17-1046.pdf. Расскажите, как проходит этот проект!