Что я хочу сделать, это проанализировать необработанный естественный текст и найти все фразы, описывающие даты.
У меня довольно большой корпус со всеми ссылками на даты, помеченные:
I met him <date>yesterday</date>.
Roger Zelazny was born <date>in 1937</date>
He'll have a hell of a hangover <date>tomorrow morning</date>
Я не хочу интерпретировать фразы даты, просто найдите их. Тот факт, что они являются датами, не имеет значения (в реальной жизни это даже не даты, но я не хочу утомлять вас деталями), в основном это просто набор возможных значений. Грамматика самих значений может быть аппроксимирована как не зависящая от контекста, однако это довольно сложно построить вручную, и с увеличением сложности становится все труднее избежать ложных срабатываний.
Я знаю, что это довольно далеко, поэтому я не ожидаю, что там будет существовать готовое решение, но какую технологию или исследование я могу потенциально использовать?