Question

Я использую Hadoop для обработки текстовых сообщений (SMS). но я не уверен в наилучшем способе предварительной обработки этих данных для эффективного поиска. например, после предварительной обработки данных, если кто-то ищет «NY», я смогу отобразить сообщения, содержащие слово «NY». Желательно ли записывать предварительно обработанные данные в файл XML, а не в базу данных.

ПРИМЕЧАНИЕ. У меня есть около 200 КБ текстовых сообщений в файле .csv.

ajduff574 · Answer 1 · 06 июля 2011

Вы, вероятно, хотите проиндексировать текстовые сообщения, возможно, используя что-то вроде Lucene .

Debaditya · Answer 2 · 20 января 2012

Перейти на Solr (Специально используется для интеллектуального анализа текста)

Мощный полнотекстовый поиск
Обеспечивает динамическийкластеризация
Обеспечивает также интеграцию с базой данных
Поддерживает .csv, .xml, word, pdf ..
Высокая масштабируемость

bitmill · Answer 3 · 01 июля 2011

Способ, которым я импортирую предварительно обработанные данные в hdfs, заключается в том, чтобы сначала импортировать данные (файл csv в вашем случае) в базу данных, а затем создать табличное представление, которое точно настраивает его для ваших нужд. Затем я импортирую данные в hdfs, используя Sqoop. Более подробную информацию о sqoop можно найти здесь

http://www.cloudera.com/blog/2009/06/introducing-sqoop/

для импорта sqoop из базы данных посмотрите на

http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html#_connecting_to_a_database_server

Лучший способ предварительной обработки текстовых сообщений с помощью Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Лучший способ предварительной обработки текстовых сообщений с помощью Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы