Как рассчитать соотношение между периодами времени - PullRequest
0 голосов
/ 17 декабря 2010

, если у меня есть 2 списка временных интервалов:

Список1:
1. 2010-06-06 по 2010-12-12
2. 2010-05-04 по 2010-11-02
3. 2010-02-04 до 2010-10-08
4. 2010-04-01 до 2010-08-02
5. 2010-01-03 до 2010-02-02

и List2:
1. 2010-06-08 до 2010-12-14
2. 2010-04-04 до 2010-10-10
3. 2010-02-02 до 2010-12-16

Как лучше всего рассчитать некую корреляцию или коэффициент сходства между двумя списками?

Спасибо!

Ответы [ 2 ]

2 голосов
/ 19 декабря 2010

Это объем данных или просто пример, чтобы дать представление о структуре, которую вы имеете?

Просто несколько идей о том, как посмотреть на это ... Приношу свои извинения, если это избыточно вашему текущему состоянию при просмотре этого набора.

На ум приходят две основные идеи для сравнения интервалов: абсолютная или относительная. Относительное сравнение будет игнорировать абсолютное время для данных интервала и искать повторяющиеся структуры или сигнатуры, которые встречаются в обеих группах, но не обязательно в одно и то же время. Абсолютная версия будет рассматривать одновременные события как актуальные, и не имеет значения, происходит ли что-то каждую неделю, если они разделены на год ... Вы можете сделать это различие, зная кое-что о происхождении данных.

Если это общее количество данных, доступных для вашего решения об ассоциациях, оно сводится к некоторым предположениям о том, что составляет "корреляцию". Например, если у вас есть конкретная модель того, что происходит, например, время начала, время остановки (неудача) модели, вы можете оценить вероятность наблюдения одной последовательности с учетом другой. Тем не менее, без дополнительных примеров данных вряд ли вы сможете сделать какие-либо твердые выводы.

Первый интервал в этих двух группах почти идентичен, поэтому они сильно повлияют на любую корреляционную меру, которую я могу придумать для этих двух групп. Если бы для этого набора была случайная модель, я ожидал бы, что многие модели будут показывать эти два наблюдения и «маловероятно» только из-за этого.

Один из способов оценки «сходства» состоит в том, чтобы спросить, какая часть оси времени покрыта (возможно, обобщена для многократного охвата), и сравнить две группы на этой основе.

Другая возможность состоит в том, чтобы назначить функцию, которая добавляет одну для каждой последовательности, которая происходит в течение любого конкретного дня в общем интервале этих событий. Таким образом, у вас есть непрерывная функция с элементарным описанием нескольких событий, охватывающих одну и ту же дату. Расчет корреляции между двумя группами может дать вам представление о структурном сходстве, но опять же вам понадобится больше групп данных, чтобы сделать какие-либо выводы.

Хорошо, это было немного бессвязно. Удачи в вашем проекте!

1 голос
/ 17 декабря 2010

Вы можете попробовать с Кросс-корреляцией .

Однако вы должны знать, что у вас есть векторные данные (начало, длина), и алгоритмы предполагают функциональную зависимость между ними. Это зависит от семантики ваших данных, что не ясно из вопроса.

НТН!

Более полезная ссылка для вашей текущей проблемы здесь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...