У меня есть ок.2 ТБ текста, который я хочу превратить в доступную для поиска базу данных, где я обычно буду искать, чтобы увидеть, существуют ли в базе данных выражения 2-4 слова (например, я мог бы выполнить поиск, чтобы увидеть, есть ли фраза «это четыре слова»)или «три последовательных слова» появляются в любом месте текста).
Эти поиски будут происходить очень часто, поэтому очень важно, чтобы я настроил базу данных так, чтобы она использовала как можно меньше обработки.Я также хотел бы максимально сократить накладные расходы, чтобы уменьшить количество серверов баз данных, которые мне понадобятся.
У кого-нибудь есть предложения по настройке этой базы данных?
Например, я думал о создании связанного списка, который был организован | id | word1 | word2 |(со всеми тремя ключами существ), поэтому для выражения «это четыре слова» я сначала поискал «это есть», затем я бы поискал «четыре», проверил, совпадают ли какие-либо совпадения с «эти есть».1 идентификатор ниже, чем «являются четырьмя», а затем сделать то же самое для «четырех слов».Но я думаю, что должен быть более эффективный способ сделать это.
РЕДАКТИРОВАТЬ: ЕДИНСТВЕННАЯ вещь, для которой я буду использовать эту базу данных, выполняет эти 2-4 слова поиска точного соответствия, и это предназначено для внутреннегоиспользовать.Все, что я хочу, чтобы эта база данных была в состоянии сделать, это сообщить мне, если где-то во всех моих файлах информации есть выражение из 2-4 слов, и ничего более.