Лучший способ предварительной обработки текстовых сообщений с помощью Hadoop - PullRequest
0 голосов
/ 01 июля 2011

Я использую Hadoop для обработки текстовых сообщений (SMS). но я не уверен в наилучшем способе предварительной обработки этих данных для эффективного поиска. например, после предварительной обработки данных, если кто-то ищет «NY», я смогу отобразить сообщения, содержащие слово «NY». Желательно ли записывать предварительно обработанные данные в файл XML, а не в базу данных.

ПРИМЕЧАНИЕ. У меня есть около 200 КБ текстовых сообщений в файле .csv.

Ответы [ 3 ]

0 голосов
/ 06 июля 2011

Вы, вероятно, хотите проиндексировать текстовые сообщения, возможно, используя что-то вроде Lucene .

0 голосов
/ 20 января 2012

Перейти на Solr (Специально используется для интеллектуального анализа текста)

  1. Мощный полнотекстовый поиск

  2. Обеспечивает динамическийкластеризация

  3. Обеспечивает также интеграцию с базой данных

  4. Поддерживает .csv, .xml, word, pdf ..

  5. Высокая масштабируемость

0 голосов
/ 01 июля 2011

Способ, которым я импортирую предварительно обработанные данные в hdfs, заключается в том, чтобы сначала импортировать данные (файл csv в вашем случае) в базу данных, а затем создать табличное представление, которое точно настраивает его для ваших нужд. Затем я импортирую данные в hdfs, используя Sqoop. Более подробную информацию о sqoop можно найти здесь

http://www.cloudera.com/blog/2009/06/introducing-sqoop/

для импорта sqoop из базы данных посмотрите на

http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html#_connecting_to_a_database_server

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...