В моей базе данных есть таблица с именем Token, представляющая токенизированные тексты.
Каждая строка имеет такие атрибуты, как текстовый блок, предложение и положение (для идентификации текста, из которого получен токен) и логические поля, такие как текст, категория, тип диаграммы и т. Д.
Что я хочу знать, так это перебирать все токены, чтобы найти шаблоны и выполнить некоторые операции. Например, объединение двух смежных токенов, имеющих категорию в качестве имени, в один (и после этого сбросьте позиции). Я думаю, что мне понадобится какой-то список
Каков наилучший способ сделать это? С помощью SQL-запросов можно найти шаблоны или выполнить итерацию по всем токенам в таблице. Я думаю, что запросы будут очень сложными и, возможно, итерация в виде списка будет более простой, но я не знаю, какой путь (например, получение в список Java или использование языка, который я могу перебирать и делать изменения прямо в базе данных).
Чтобы этот вопрос не был закрыт, я хочу знать, каков наиболее рекомендуемый способ сделать это? Я использую Java, но если другой язык лучше, нет проблем, я думаю, мне понадобится использовать R для статистического исчисления.
Редактировать: Таблица большая, миллионы строк, полная загрузка в память невозможна.