Структурированный текст и неструктурированный текст - PullRequest
0 голосов
/ 04 мая 2011

Что касается интеллектуального анализа данных, каковы различия между структурированным текстом и неструктурированным текстом?Каковы основные соображения при выборе / разработке подходов интеллектуального анализа данных для анализа этих различных текстов?

1 Ответ

2 голосов
/ 04 мая 2011

Я предвосхищу это, сказав, что конкретная область, с которой вы имеете дело, имеет большое значение при ответе на вопросы такого типа.Добавление некоторого контекста к вашему вопросу позволит гораздо больше полезных ответов.

Центральным отличием структурированного и неструктурированного текста в общем случае является тот простой факт, что структурированный текст имеет легко усваиваемую форму, а неструктурированный - нет.Для некоторого анализа текста это может быть так же просто, как модель мешка слов (сколько раз встречается каждое слово?), Вплоть до чрезвычайно сложных подходов НЛП, которые пытаются вытянуть более глубокие языковые структуры, такие как части речиили обнаружение / разрешение объекта.Ежедневным примером структурированных данных могут быть метаданные поста в Твиттере (имя пользователя / отметка времени / информация ретвита / и т. Д.), Где связанные неструктурированные данные будут представлять собой текст самого поста.

Не зная точно, что вас интересует, большое внимание уделяется простому факту, что структурированный текст часто находится в удобной форме для простых моделей машинного обучения, в то время как неструктурированный текст редко встречается, поскольку его нельзя легко рассматривать каккуча бинарных / реальных функций и добавленных в вашу любимую статистическую модель.

Надеюсь, это поможет на высоком уровне - не стесняйтесь обновлять исходное сообщение с деталями, если я слишком широк с моим ответом =)

...