Слова data
, information
и knowlege
являются основанными на значении понятиями, используемыми для категоризации, в субъективной форме , общие "краткость" и "полезность" «конкретного набора информации.
Эти слова не имеют точного значения , поскольку они относятся к основной цели и методологии обработки информации; В области теории информации они вообще не имеют никакого значения, потому что все три - это одно и то же: совокупность «информации» (в теоретико-информационном смысле).
Тем не менее, они полезны, в контексте , для подведения итогов общего характера набора информации, который подробно объясняется ниже.
Информация получается (или иногда вызывается) из данных, но она может быть более богатой, а также более чистой (в результате чего некоторые значения были исправлены) и "более простой" (в результате чего некоторые несущественные данные были удалены ). Таким образом, в смысле теории множеств, Информация является не подмножеством Данных , но отдельным набором [который обычно несколько пересекается с данными, но также может есть свои элементы].
Знание (иногда называемое проницательность ) - это еще один уровень, он основан на информации и тоже не является подмножеством информации [теории множеств]. Действительно, Знание обычно не имеет прямой ссылки на информационные элементы, а скорее рассказывает «мета-историю» об информации / данных.
Необоснованная идея о том, что в цепочке «Данные -> Информация -> Знания» более высокие уровни являются подмножествами более низких уровней, вероятно, вытекает из того факта, что существует [обычно] сокращение объема информации. Но качественно эта информация отличается, следовательно, нет реального отношения [подмножества теории].
Пример
Необработанные данные биржи с Уолл-стрит ... Данные
Море данных! Кто-то с трудом находит то, что ему / ей нужно, непосредственно из этих данных. Эти данные, возможно, должны быть нормализованы. Например, информация о цене иногда может быть выражена в виде текстовой строки с точностью 1/32 доллара, в других случаях цены могут быть представлены в виде истинного двоичного целого числа с точностью 1/8 доллара. Также поле, которое указывает, скажем, идентификатор покупателя или продавца, может содержать опечатки и, следовательно, указывать на неправильного продавца / покупателя. и т. д.
Электронная таблица, составленная из вышеперечисленного: ... Информация
Различные данные были применены к данным:
-чистка / исправление различных значений
-крестные ссылки (например, поиск связанных кодов, таких как добавление столбца для отображения фактического имени человека / компании рядом со столбцом идентификатора покупателя)
- объединение, когда дублирующие записи, относящиеся к одному и тому же событию (но, скажем, из разных источников), используются для подтверждения друг друга, но также объединяются в одну запись.
-агрегирование: например, составление суммы всей стоимости транзакции для данной акции (вместо отображения всех отдельных транзакций.
Все это (а затем и некоторые) превратило данные в Информацию, то есть в массив [информации IT], который легко использовать, где можно быстро найти некоторые «данные», например, такие как скорость открытия и закрытия акций IBM на 8 июня 2009 г.
Обратите внимание, что, хотя его удобнее использовать, в частности, более точным / точным, а также сводным, в нем нет реальной информации [ИТ-смысла], которая не может быть найдена или вычислена из оригинала относительно простой (хотя бы кропотливой) ) процессы.
- Отчет финансового аналитика может содержать ... знание
Например, если в отчете указано [фиктивный пример], что всякий раз, когда цена на нефть превышает определенный порог, стоимость золота начинает снижаться, но затем быстро снова растет, примерно в то время, когда цены на кофе и чай стабилизируются. Это особое понимание представляет собой знание. Эти знания, возможно, все время скрывались в одних только данных, но становились очевидными только тогда, когда кто-то применял какой-то причудливый статистический анализ и / или требовал помощи эксперта-человека, чтобы найти или подтвердить такие закономерности.
Кстати, в смысле теории информации слова «информация», «данные» и «знания» все содержат информацию [ИТ-смысл].
Можно было бы встать на скользкий путь, заявив, что «По мере продвижения вверх по цепочке энтропия уменьшается», но это только в некоторой степени верно, потому что
- уменьшение энтропии не связано напрямую или систематически с «полезностью для человека»
(типичным примером является то, что сжатый текстовый файл имеет меньшую энтропию, но читать его не интересно)
- фактически происходит потеря информации (в дополнение к потере энтропии)
(например, когда данные агрегируются, информация об отдельных записях теряется)
- есть, особенно в случае информации -> знания, изменение уровня абстракции
И последнее замечание (если я еще не всех смутил ...) - идея о том, что цепочка data->info->knowledge
фактически относительно относительно предполагаемого использования / цели [IT-смысла] информация.
ewernli
в приведенном ниже комментарии приведен пример средства проверки орфографии, то есть, когда основное внимание уделяется английской орфографии, наиболее проницательная статья гения Wallstreet представляет собой просто последовательность слов, фактически «необработанные данные», некоторые из которых нуждаются улучшения (по цепочке целей орфографии.
Точно так же лингвист, использующий тысячи газетных статей, которые, как правило (как мы можем надеяться ...), содержат, по крайней мере, некоторую проницательность / знания (в общем смысле), может просто считать эти статьи необработанными данными, которые помогут ему автоматически создавать французский язык. - Немецкая лексика (это будет информация), и, работая над проектом, он может обнаружить систематический семантический сдвиг в использовании общих слов между двумя языками и, следовательно, собрать понимание различных культур.