Технология идентификации контента Youtube? - PullRequest
24 голосов
/ 16 марта 2009

Я не уверен, является ли Youtube единственным веб-сайтом с этой технологией, но идентификация контента в YT (Content ID) - это в основном технология для автоматического выявления и устранения нарушений авторских прав. Подробнее об этом можно прочитать здесь:

http://www.youtube.com/t/contentid

Что ж, когда одно из моих видео (содержащих определенную музыкальную дорожку) было помечено и удалено в связи с нарушением авторских прав, я подумала, что [системный идентификатор контента], вероятно, глуп. Поэтому я провел несколько экспериментов: ни один из них не обманул фильтр ~

  • Добавлена ​​серия звуковых сигналов в середине песни
  • Несколько раз меняла высоту звука песни
  • Несколько раз менял громкость
  • скорректирована скорость
  • Добавлено наложение звука
  • Добавлено несколько звуковых эффектов

С другой стороны, я не знаю, чтобы какой-либо материал был ложно сопоставлен с авторским правом. Например, фортепианная версия песни не будет ложно вызывать цензор.

Я не ругаюсь по поводу удаления моих видео. Я просто удивлен, насколько эффективен цензор контента. Мне интересно, как алгоритм правильно идентифицирует песню как нарушающую авторские права, даже после всех моих попыток ее обойти. Любые попытки прямого сопоставления были бы незамедлительно побеждены, любые алгоритмы, использующие шаблоны нот, вероятно, были бы одурачены звуковыми сигналами и смещением высоты тона.

Ну, это скорее мое любопытство, чем срочный вопрос ..

1 Ответ

15 голосов
/ 16 марта 2009

Педро Морено и другие в Google / Youtube работают над этим. Они используют преобразователи конечного состояния для распознавания последовательностей музыкальных телефонных аппаратов , аналогично фонемам в автоматическом распознавании речи.

Проверьте эту статью:

Если вы измените скорость или высоту звука на протяжении всей песни, я удивлюсь, что эти алгоритмы по-прежнему распознают песню. Но, возможно, они нормализуют высоту и скорость (используя промежуток между ударами), чтобы можно было распознавать и кавер-версии, а не только оригинальные. Но неудивительно, что он может игнорировать добавленные вами звуковые сигналы, так как в противном случае в вашем аудиопотоке достаточно сходства.

(На самом деле алгоритм на основе конечного состояния был бы полезен для моей библиотеки iTunes, чтобы правильно маркировать файлы. Потому что такие сервисы, как MusicBrainz , полагаются на более или менее точные хеш-совпадения вашего аудио запись в базе данных, в то время как метод преобразования кажется более устойчивым к распознаванию файлов.)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...