как определить, является ли набор данных структурированным или неструктурированным - PullRequest
0 голосов
/ 04 июля 2018

Я планирую выполнить некоторую полезную задачу для моего необработанного набора данных (любого, если это большие данные), используя машинное обучение с большими данными. Итак, как я могу определить, что собранный набор данных структурирован, неструктурирован и т. Д. Предложите некоторые методы или шаги для моего запроса. Заранее спасибо.

Ответы [ 2 ]

0 голосов
/ 04 июля 2018

Структурированные данные организованы на основе модели или схемы. Запрашивать или выполнять любые другие операции с данными просто (используя языки запросов).

Если 1. Ваша модель или схема не помогает вам выполнять основные операции. 2. Вы должны тратить больше времени на базовый анализ Вы можете классифицировать их как неструктурированные данные.

Неструктурированные данные не организованы (не всегда), лучшим примером являются человеческие языки, для выполнения операций с ними вам потребуется использовать NLP, интеллектуальный анализ текста или любые другие инструменты обработки.

0 голосов
/ 04 июля 2018

Большие данные почти всегда неструктурированы. Если набор данных достаточно чистый и аккуратный для анализа с помощью традиционных инструментов анализа, таких как стандартные в Excel, он, вероятно, не «большой». Большие данные имеют тенденцию быть большим, неструктурированным беспорядком. Вот почему люди нанимают аналитиков и ученых данных.

...