Я использую Hadoop для обработки текстовых сообщений (SMS). но я не уверен в наилучшем способе предварительной обработки этих данных для эффективного поиска. например, после предварительной обработки данных, если кто-то ищет «NY», я смогу отобразить сообщения, содержащие слово «NY».
Желательно ли записывать предварительно обработанные данные в файл XML, а не в базу данных.
ПРИМЕЧАНИЕ. У меня есть около 200 КБ текстовых сообщений в файле .csv.