Является ли информация подмножеством данных? - PullRequest
5 голосов
/ 13 марта 2010

Приношу свои извинения, поскольку не знаю, относится ли это к математическому вопросу, который относится к mathoverflow , или к этому относится вопрос компьютерной науки

Тем не менее, я думаю, что я понимаю фундаментальную разницу между данными, информацией и знаниями . Насколько я понимаю, информация несет в себе как данные, так и , что означает . Я не совсем понимаю, является ли информация данными . Считается ли информация особым видом данных или это нечто совершенно иное?

Ответы [ 5 ]

6 голосов
/ 13 марта 2010

Слова data, information и knowlege являются основанными на значении понятиями, используемыми для категоризации, в субъективной форме , общие "краткость" и "полезность" «конкретного набора информации.
Эти слова не имеют точного значения , поскольку они относятся к основной цели и методологии обработки информации; В области теории информации они вообще не имеют никакого значения, потому что все три - это одно и то же: совокупность «информации» (в теоретико-информационном смысле).
Тем не менее, они полезны, в контексте , для подведения итогов общего характера набора информации, который подробно объясняется ниже.

Информация получается (или иногда вызывается) из данных, но она может быть более богатой, а также более чистой (в результате чего некоторые значения были исправлены) и "более простой" (в результате чего некоторые несущественные данные были удалены ). Таким образом, в смысле теории множеств, Информация является не подмножеством Данных , но отдельным набором [который обычно несколько пересекается с данными, но также может есть свои элементы].

Знание (иногда называемое проницательность ) - это еще один уровень, он основан на информации и тоже не является подмножеством информации [теории множеств]. Действительно, Знание обычно не имеет прямой ссылки на информационные элементы, а скорее рассказывает «мета-историю» об информации / данных.

Необоснованная идея о том, что в цепочке «Данные -> Информация -> Знания» более высокие уровни являются подмножествами более низких уровней, вероятно, вытекает из того факта, что существует [обычно] сокращение объема информации. Но качественно эта информация отличается, следовательно, нет реального отношения [подмножества теории].

Пример

  • Необработанные данные биржи с Уолл-стрит ... Данные
    Море данных! Кто-то с трудом находит то, что ему / ей нужно, непосредственно из этих данных. Эти данные, возможно, должны быть нормализованы. Например, информация о цене иногда может быть выражена в виде текстовой строки с точностью 1/32 доллара, в других случаях цены могут быть представлены в виде истинного двоичного целого числа с точностью 1/8 доллара. Также поле, которое указывает, скажем, идентификатор покупателя или продавца, может содержать опечатки и, следовательно, указывать на неправильного продавца / покупателя. и т. д.

  • Электронная таблица, составленная из вышеперечисленного: ... Информация
    Различные данные были применены к данным:
    -чистка / исправление различных значений
    -крестные ссылки (например, поиск связанных кодов, таких как добавление столбца для отображения фактического имени человека / компании рядом со столбцом идентификатора покупателя)
    - объединение, когда дублирующие записи, относящиеся к одному и тому же событию (но, скажем, из разных источников), используются для подтверждения друг друга, но также объединяются в одну запись.
    -агрегирование: например, составление суммы всей стоимости транзакции для данной акции (вместо отображения всех отдельных транзакций.
    Все это (а затем и некоторые) превратило данные в Информацию, то есть в массив [информации IT], который легко использовать, где можно быстро найти некоторые «данные», например, такие как скорость открытия и закрытия акций IBM на 8 июня 2009 г.
    Обратите внимание, что, хотя его удобнее использовать, в частности, более точным / точным, а также сводным, в нем нет реальной информации [ИТ-смысла], которая не может быть найдена или вычислена из оригинала относительно простой (хотя бы кропотливой) ) процессы.

  • Отчет финансового аналитика может содержать ... знание
    Например, если в отчете указано [фиктивный пример], что всякий раз, когда цена на нефть превышает определенный порог, стоимость золота начинает снижаться, но затем быстро снова растет, примерно в то время, когда цены на кофе и чай стабилизируются. Это особое понимание представляет собой знание. Эти знания, возможно, все время скрывались в одних только данных, но становились очевидными только тогда, когда кто-то применял какой-то причудливый статистический анализ и / или требовал помощи эксперта-человека, чтобы найти или подтвердить такие закономерности.

Кстати, в смысле теории информации слова «информация», «данные» и «знания» все содержат информацию [ИТ-смысл].
Можно было бы встать на скользкий путь, заявив, что «По мере продвижения вверх по цепочке энтропия уменьшается», но это только в некоторой степени верно, потому что

  • уменьшение энтропии не связано напрямую или систематически с «полезностью для человека»
    (типичным примером является то, что сжатый текстовый файл имеет меньшую энтропию, но читать его не интересно)
  • фактически происходит потеря информации (в дополнение к потере энтропии)
    (например, когда данные агрегируются, информация об отдельных записях теряется)
  • есть, особенно в случае информации -> знания, изменение уровня абстракции

И последнее замечание (если я еще не всех смутил ...) - идея о том, что цепочка data->info->knowledge фактически относительно относительно предполагаемого использования / цели [IT-смысла] информация.
ewernli в приведенном ниже комментарии приведен пример средства проверки орфографии, то есть, когда основное внимание уделяется английской орфографии, наиболее проницательная статья гения Wallstreet представляет собой просто последовательность слов, фактически «необработанные данные», некоторые из которых нуждаются улучшения (по цепочке целей орфографии.
Точно так же лингвист, использующий тысячи газетных статей, которые, как правило (как мы можем надеяться ...), содержат, по крайней мере, некоторую проницательность / знания (в общем смысле), может просто считать эти статьи необработанными данными, которые помогут ему автоматически создавать французский язык. - Немецкая лексика (это будет информация), и, работая над проектом, он может обнаружить систематический семантический сдвиг в использовании общих слов между двумя языками и, следовательно, собрать понимание различных культур.

1 голос
/ 13 марта 2010

информация - это расширение данных:

  • данные инертны
  • информация активна

обратите внимание, что информация без данных - это просто мнение; -)

1 голос
/ 13 марта 2010

Вот как я это вижу ...

Данные грязные и необработанные. Вы, вероятно, будете иметь слишком много этого.

... Jason ... 27 ... Denton ...

Информация - это данные, которые вам нужны, организованные и значимые.

Jason.age=27
Jason.city=Denton

Знания - вот почему существуют вики, блоги: для отслеживания идей и опыта. Обратите внимание, что это атрибуты человека (и сообщества). За исключением, может быть, странного научного проекта, на Facebook нет компьютера, рассказывающего людям, во что он верит .

1 голос
/ 13 марта 2010

Сначала определите информацию и данные очень тщательно.

Что такое информация, а что данные, очень зависит от контекста. Крайним примером является фотография вас на вечеринке, которую вы отправляете по электронной почте. Для вас это информация, а для интернет-провайдера - просто данные, которые нужно передать.

Иногда просто добавление правильного контекста изменяет данные в информацию.

Итак, чтобы ответить на ваш вопрос: Нет, информация не является подмножеством данных. Это может быть как минимум следующее.

  1. Надстройка при добавлении контекста

  2. Подмножество иголки в стоге сена

  3. Функция данных, например, в дайджесте

Возможно, есть еще ситуации.

0 голосов
/ 13 марта 2010

Информация может быть данными, если у вас есть какой-то способ представления дополнительного контента, который делает ее информацией. Программа, которая пытается «понять» написанный текст, может преобразовать входной текст в формат, который позволяет более сложную обработку значения этого текста. Этот преобразованный формат является своего рода данными, которые представляют информацию, если понимать ее в контексте всей системы обработки. Со стороны системы это выглядит как данные, тогда как внутри системы это информация, которая понимается.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...