Мне знакомы следующие термины: структурированные и неструктурированные данные (те же, что и в вашем Q, за исключением суффикса).
Я работаю с обоими типами данных в машинном обучении и не знаю ни одного формального определения; однако я подозреваю, что почти каждый, чья работа требует разграничения между этими двумя типами данных, без труда различает их.
Примеры структурированных данных: дата / время отправки электронного письма; есть ли вложение, или отправитель электронной почты. Неструктурированные данные: тело письма.
Существует ли стабильное правило или набор правил для различения этих двух типов данных? Я думаю так. Во-первых, если вы можете построить парсер для элемента данных, то он структурирован.
Другое эмпирическое правило состоит в том, чтобы посмотреть на тип данных для этого поля в вашей базе данных, необходимого для хранения данных. Если это текстовый тип - для MySQL, Tintext, Text, Mediumtext или Longtext. Или, менее вероятно, VARCHAR (255) - тогда эти данные, вероятно, неисследованные .
Основное значение этого различия для интеллектуального анализа данных, вероятно, заключается в следующем: структурированные данные, извлеченные из документа и проанализированные, могут использоваться в качестве переменных в статистической / машинной модели обучения. Однако для неструктурированных данных требуется дальнейший анализ, т. Е. Прежде чем вы сможете использовать их в моделировании, сначала нужно разбить их на набор элементов структурированных данных - например, количество слов и т. Д.
Например, предположим, что вы хотите создать систему управления знаниями (KM) для группы серверов в компании, которая делает онлайн-MMORPG. Вы можете начать с огромной коллекции сообщений электронной почты, которыми обмениваются члены этой группы.
Таким образом, вы создаете модель данных для этого источника - например, состоящую из таких полей, как «отправитель», «получатель», «дата / время отправки», были ли получатель и отправитель сотрудниками группы серверов, сообщение было скопировано другим и т. д. Строки базы данных представляют собой отдельные электронные письма.
Затем вы пишете скрипт, состоящий из набора анализаторов, для извлечения каждого поля из каждого сообщения электронной почты. Для многих полей это просто, например, для поля 'cc:' вы пишете парсер, который сканирует эту часть сообщения электронной почты и проверяет, является ли оно пустым - если оно есть, то это поле в вашей базе данных для этого строка может быть заполнена «False» (чтобы указать, что никто не копируется), в противном случае «True». Аналогично, данные / время, которые, вероятно, в некоторой форме, например: 16 марта 2011 г. 18: 45: 39.0319 (UTC). Извлечение и анализ этих данных также просты; на самом деле ваш язык сценариев почти наверняка имеет модуль для этого.
Но когда вы попадаете в тело письма, хотя извлечь его из остальной части сообщения электронной почты не сложно, его анализ не является простым. В вашей модели данных могут быть поля для «NumberOfWords», «Ключевые слова» и т. Д., И просто создать анализатор для заполнения этих полей. Однако наиболее полезная информация сложнее, т. Е. Было ли сообщение электронной почты полезным для получателя? Что было предметом? Это авторитетно?