Предыдущий ответ предложил Apriori.Но Apriori не подходит, если вы хотите найти частые последовательности, потому что Apriori не учитывает время (также, Apriori - неэффективный алгоритм).
Если вы хотите найти подпоследовательности, которые являются общими для нескольких последовательностей, было бы более целесообразно использовать алгоритм последовательного интеллектуального анализа, такой как PrefixSpan и SPAM.
Если вы хотите сделать некоторые прогнозыдругим вариантом также может быть использование алгоритма последовательного интеллектуального анализа правил.
У меня есть Java-реализации с открытым исходным кодом последовательного анализа шаблонов и алгоритмов последовательного анализа правил, которые можно загрузить с моего веб-сайта: http://www.philippe-fournier-viger.com/spmf/
Я не думаю, что вы могли бы обработать 8 ГБ данных за один раз с помощью этих алгоритмов.Но это может быть отправной точкой.Фактически, некоторые из этих алгоритмов могут быть адаптированы для случая очень больших баз данных путем реализации стратегии на основе дисков.