У меня есть ситуация, когда у меня есть почасовая пакетная работа, которая должна анализировать большое количество RSS-каналов и извлекать текст элементов заголовка и описания из каждого элемента в канале в строки, которые затем будут вычислять частоты их слов.by Lucene
Но, не зная, сколько каналов или элементов на канал, каждая строка может потенциально состоять из тысяч слов.
Я полагаю, что основной псевдокод, на который я смотрю, выглядит примерно так:
for each feed
for each item within date/time window
get text from title element, concatenate it to title_string
get text from description element,
concatenate it to description_string
calculate top x keywords from title_string
for each keyword y in x
calculate frequency of keyword y in description_string
Кто-нибудь может подсказать, как обращаться с этими данными, чтобы уменьшить использование памяти?Это не относится к использованию StringBuilders, поскольку данные читаются из каждого канала.
Хотя содержимое каналов будет храниться в базе данных, я хочу вычислить частоты слов «на лету», чтобы избежать всех операций ввода-вывода, необходимых для каждого канала, имеющего собственную таблицу базы данных.