Как структурированные и неструктурированные данные различаются? - PullRequest
6 голосов
/ 18 марта 2011

Каковы различия между структурированными данными и неструктурированными данными?Как эта разница влияет на подходы к интеллектуальному анализу данных?

Ответы [ 3 ]

4 голосов
/ 18 марта 2011

Мне знакомы следующие термины: структурированные и неструктурированные данные (те же, что и в вашем Q, за исключением суффикса).

Я работаю с обоими типами данных в машинном обучении и не знаю ни одного формального определения; однако я подозреваю, что почти каждый, чья работа требует разграничения между этими двумя типами данных, без труда различает их.

Примеры структурированных данных: дата / время отправки электронного письма; есть ли вложение, или отправитель электронной почты. Неструктурированные данные: тело письма.

Существует ли стабильное правило или набор правил для различения этих двух типов данных? Я думаю так. Во-первых, если вы можете построить парсер для элемента данных, то он структурирован.

Другое эмпирическое правило состоит в том, чтобы посмотреть на тип данных для этого поля в вашей базе данных, необходимого для хранения данных. Если это текстовый тип - для MySQL, Tintext, Text, Mediumtext или Longtext. Или, менее вероятно, VARCHAR (255) - тогда эти данные, вероятно, неисследованные .

Основное значение этого различия для интеллектуального анализа данных, вероятно, заключается в следующем: структурированные данные, извлеченные из документа и проанализированные, могут использоваться в качестве переменных в статистической / машинной модели обучения. Однако для неструктурированных данных требуется дальнейший анализ, т. Е. Прежде чем вы сможете использовать их в моделировании, сначала нужно разбить их на набор элементов структурированных данных - например, количество слов и т. Д.

Например, предположим, что вы хотите создать систему управления знаниями (KM) для группы серверов в компании, которая делает онлайн-MMORPG. Вы можете начать с огромной коллекции сообщений электронной почты, которыми обмениваются члены этой группы.

Таким образом, вы создаете модель данных для этого источника - например, состоящую из таких полей, как «отправитель», «получатель», «дата / время отправки», были ли получатель и отправитель сотрудниками группы серверов, сообщение было скопировано другим и т. д. Строки базы данных представляют собой отдельные электронные письма.

Затем вы пишете скрипт, состоящий из набора анализаторов, для извлечения каждого поля из каждого сообщения электронной почты. Для многих полей это просто, например, для поля 'cc:' вы пишете парсер, который сканирует эту часть сообщения электронной почты и проверяет, является ли оно пустым - если оно есть, то это поле в вашей базе данных для этого строка может быть заполнена «False» (чтобы указать, что никто не копируется), в противном случае «True». Аналогично, данные / время, которые, вероятно, в некоторой форме, например: 16 марта 2011 г. 18: 45: 39.0319 (UTC). Извлечение и анализ этих данных также просты; на самом деле ваш язык сценариев почти наверняка имеет модуль для этого.

Но когда вы попадаете в тело письма, хотя извлечь его из остальной части сообщения электронной почты не сложно, его анализ не является простым. В вашей модели данных могут быть поля для «NumberOfWords», «Ключевые слова» и т. Д., И просто создать анализатор для заполнения этих полей. Однако наиболее полезная информация сложнее, т. Е. Было ли сообщение электронной почты полезным для получателя? Что было предметом? Это авторитетно?

1 голос
/ 18 марта 2011

Data Mining неструктурированных данных обычно подпадает под категорию «интеллектуального анализа текста».Есть два разных мнения на этот счет.Одно мнение говорит, что вам нужны специализированные инструменты для выполнения обработки естественного языка (NLP), так как это единственный способ получить семантическое значение.Другой подход преобразует неструктурированные данные в матрицы слов, а затем использует стандартные статистические методы для анализа данных («мешок слов»).В этом случае все становится данными, и порядок слов не важен.

-Ralph Winters

0 голосов
/ 17 марта 2018

Структурированные данные

Структурированные данные можно рассматривать как базу данных. В структурированных данных каждая функция (поле) хорошо документирована. Например, набор данных bank_transaction или набор данных class_attendance могут рассматриваться как наборы структурированных данных.

----------------------------------------------------------------------
|      student_id      |     student_name    |   student_attendance  |
|----------------------|---------------------|-----------------------|
|          2123        |         Jo          |           45          |
|----------------------|---------------------|-----------------------|
|          2175        |         Mark        |           10          |
|---------- -----------|---------------------|-----------------------|

Неструктурированные данные

Тип данных - таких как изображения, аудио / видео клипы, текст и т. Д. - которые компьютер считает трудными для интерпретации, называется неструктурированными данными. В обычных условиях неструктурированные данные также называются Raw data. Компьютеру сложно визуализировать такие данные. enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...