Что сегодня?

Интеллектуальный анализ, видеоаналитика, интеллектуальные системы видеонаблюдения – в последнее время уже немодно говорить о «простых» детекторах движения. Но на самом деле, если не считать систем распознавания автомобильных номеров, реально к разряду видеоаналитики по-прежнему относятся преимущественно детекторы движения. Иногда (редко) встречаются обратные и противоположные вариации (условно говоря, «детекторы покоя») – детекторы оставленных предметов, «музейные» детекторы, но все это, по сути, относится к категории детекторов движения.

Мода на интеллектуальность возникла еще в конце прошлого столетия, когда возможности детекторов движения достигли приемлемого для практического применения уровня и началось увешивание детекторов движения всякими бантиками, полезными и не очень. В первую очередь это автоматическая отстройка от изменений условий освещенности, погодных условий, иных особенностей. Иногда встречались такие дополнительные возможности, как анализ формы или поведения наблюдаемого объекта, впрочем, как правило, и то и другое на практике реализовывается очень просто: автоматическая настройка означает наличие нескольких (от двух до ста) разных наборов настроек, которые переключаются в зависимости от времени суток, времени года или нескольких простых признаков. Анализ поведения также обычно сводится к тому, что движение в одном направлении считается подозрительным, а в другом – допустимым. Дело в том, что действительно интеллектуальные системы требуют крайне длительной настройки на особенности местности, на особенности предполагаемых нарушителей и т. д.
В порядке анекдота расскажу про систему, созданную на основе нейроалгоритмов, являющуюся классическим образцом самообучающейся системы. Она показывала замечательные результаты в макетном варианте, вот только для ее обучения ей предположительно нужно было показать несколько тысяч роликов, снятых в различных условиях, и, что самое неприятное, половина из них должна была содержать целевую обнаруживаемую ситуацию – нарушителя. Представляете задачу: на конкретном объекте снять хотя бы тысячу раз имитирующего нарушителя человека, совершающего проникновение различным образом, желательно возможно шире перекрыть все возможные манеры и способы проникновения. А чтобы обобщить такую процедуру на различные объекты, нужно на тысячах объектов провести то же самое. Это миллионы экспериментов. Что еще хуже: экспериментальный образец, способный обработать всего несколько десятков примеров, относительно приемлемо работал на 3-ГГц пентиуме. А если расширить ее способности до освоения миллионов примеров, потребуется кластер хотя бы из тысячи компьютеров – и все для обработки одного-единственного видеосигнала.
Вернемся к современности. Какова ситуация с видеоаналитикой сегодня? Ситуация проста: потребности превосходят возможности. За последние годы потребность в системах, способных заменять человека при анализе видеосигнала, выросла и осознана большинством практиков охраны. Основная причина: дешевизна видеокамер и все растущее их число. Например, в Британии сотни тысяч камер установлены в рамках «городских схем». Вместе с видеокамерами, установленными на частных объектах, суммарно доступных полиции видеокамер сейчас 4,2 млн.
Одновременно продолжается рост угрозы терроризма, как, впрочем, и обычной преступности. И тем не менее при наличии огромного числа видеокамер они почти не помогают. Частично потому, что так или иначе сэкономили на спичках (освещении, объективах, камерах, системах передачи), а ведь итоговое качество определяется единственным, самым худшим элементом (помните – скорость эскадры определяется самым медленным кораблем?). Но в большой мере эффективность систем видеонаблюдения низка потому, что для их применения необходимы многочисленные высококвалифицированные и постоянно поддерживающие свой уровень специалисты – операторы видеонаблюдения.
По факту в наиболее продвинутой в части видеонаблюдения Великобритании не более половины всех постов наблюдения обеспечены круглосуточным дежурством. Хоть каким-то, не говоря уж о специально тренированных операторах. Разумеется, ведется видеозапись. Видеозаписи все более хорошего качества накапливаются в нарастающем количестве. Но что с ними делать? У той же британской полиции норматив – человеконеделя на внимательный анализ кассеты с 24 часами записи. Разумеется, такой анализ делается только «в случае чего», то есть когда о свершившемся преступлении стало известно помимо системы видеонаблюдения, то есть система не помогла его предотвратить или остановить.
Да, операторы видеонаблюдения, особенно опытные и специально тренированные, очень дороги. В большинстве пультовых нет 24-часового дежурства, и даже когда операторы присутствуют – один или два оператора на сотни камер. Зачем же тогда продолжают устанавливаться все новые и новые видеокамеры? Причин несколько. Первая – объективная. Мудрые англичане надеются на закон Мура и на развитие технологий и готовят системы к тому времени, когда они смогут реально эффективно использоваться. Ведь развернуть новые компьютеры на станциях наблюдения можно за несколько дней, а вот монтаж видеокамер и сетей связи тянется годами. Потому, кстати, в большинстве городских систем Англии присутствует требование доставлять живое видео до центрального участка в высоком качестве.
Вторая причина – субъективная (если не сказать корыстная) – как в ставшем широко известном случае, когда один испанский мэр потребовал у подрядчика установить большую видеостену в комнате, рассчитанной на одного оператора, не скрывая, что она нужна лишь чтобы гордиться перед соседними мэрами (подрядчик оказался приятелем небезызвестного Владо Дамьяновски, и этот случай получил некоторую огласку среди специалистов).
Итак, спрос на автоматизацию анализа видеосигнала огромен. Однако реально предлагаются лишь очень простые системы, которые могут быть отнесены к разряду видеоаналитики только усилиями рекламных отделов фирм-производителей. Впрочем, и эти системы (детекторы движения), как правило, весьма сложны в настройке, установке да и в эксплуатации и потому применяются не так уж часто.
Кроме того, особенность нашего времени – переход на IP технологии передачи видеосигнала. Не буду углубляться в технические детали, скажу о главном: после сколько-нибудь сильной компрессии проводить анализ поздно. Искажения и артефакты, внесенные в сигнал алгоритмами сжатия информации, существенно опасней, чем любой шум или природные явления, ибо вовсе не случайны, а возникают именно там и именно тогда, где и когда происходит что-то интересное. Конечно, при невысокой степени сжатия, особенно если использовать мегапиксельные видеокамеры, общий результат не так уж и плох, но естественное решение разработчиков – перенести анализ «в камеру». Примеров немало: десятки именитых и не очень фирм предлагают так или иначе распределенные системы анализа, обеспечивающие выделение и качественную передачу лишь особо подозрительных участков, как правило, с последующим дополнительным анализом на центральной станции.
По сути, все эти распределенные системы – попытка на дешевых маленьких процессорах реализовать хотя бы часть того, что недавно научились реализовывать на мощных пентиумах и специальных DSP кристаллах.
На сегодня наиболее существенный результат: снижается цифровой поток (качество) в отсутствие существенных изменений (подобно тому, как применение даже примитивных детекторов активности в старых мультиплексорах позволяло реализовать динамическое перераспределение качества записи). Самый серьезный недостаток, хотя все и заявляют, что передача метаданных соответствует стандартам MPEG-7 и MPEG-4, но фактически это нестандартизованные расширения, и потому такие системы пока несовместимы между собой и исключают применение сторонних систем управления или дополнительного анализа всех видеопотоков.
Начало у меня получилось несколько мрачным, пессимистичным, но на самом деле технологии продолжают развиваться, хотя и не столь бурно как нам хотелось 10 лет назад. Какие же новые тенденции выявились в последние годы?
Анализ записей. Ряд компаний разрабатывает решения (большинство ориентируются на многострадальную полицию Великобритании), позволяющие производить автоматизированный анализ записей, с гибко настраиваемыми критериями обнаружения подозрительных ситуаций. Обращу внимание: в случае анализа записей, конечно, качество видеосигнала намного хуже живого, но зато есть возможность многократно отматывать запись и подбирать оптимальные настройки, что, увы, невозможно в реальном времени. Целью поиска могут быть весьма разнообразные критерии. Например, если люди задерживаются надолго в местах, известных, как места торговли наркотиками, соответствующие кадры передаются для дальнейшего анализа вручную. Конечно, без ручного (пожалуй, правильнее говорить, «глазного») просмотра не обойтись, но, по крайней мере, не надо глазами просматривать километры (как правильно – мегакадры, гигабайты) записей.
Помощь оператору. Примерно те же алгоритмы, используемые при анализе записей, но уже в реальном времени. Тренированный оператор может интерактивно подстраивать их по мере изменения ситуации, в результате интегральная человекомашинная система (этакий киборг получается) работает куда лучше одного человека и несравнимо лучше 10 компьютеров. Такие системы обеспечивают еще и алгоритмы не столько видеоанализа, сколько просто облегчения жизни – например, улучшения изображения, очистки от шума, управления масштабом, интерактивного управления откатом короткой записи и т. д. Из разряда собственно видеоаналитики особенно популярны (хотя не скажу, что они хорошо работают) средства оперативного отслеживания выбранного человека. Как правило, эти алгоритмы работают по очень простым критериям – цвет рубашки, непрерывность перемещения, но в перспективе есть разработки, в которых дополнительно проводится и анализ размеров, формы человека, и его лица. Например, ведется исследовательская разработка группы европейских компаний и университетов, целью которой является реализация комплексного анализа – простые критерии работают в простых условиях, а сложные, включая сравнение лица, включаются, если человек мог, например, переодеться. Помимо собственно видеоаналитики, развивается (неторопливо) интеграция с данными от прочих датчиков, позволяющая комплексно анализировать не только изображение, но и всю ситуацию на объекте. Подчеркну, что все упомянутые системы – крайне дорогие и сложные, по сути экспериментальные, применяются только на особо важных объектах вроде аэропортов или центральных правительственных зданий, где особая важность сочетается с особой сложностью из-за огромного числа вполне легальных посетителей.

Поиск по базе данных фотографий. Давно известная идея. Реально не работает, ибо для большинства разыскиваемых преступников нет хороших фотографий, а по фотороботу нынешние алгоритмы распознавания лиц не работают. Да и при наличии хорошей фотографии (как правило, в стриженом виде, сделанной при предыдущем задержании уголовника, и то только для уголовников) качество распознавания существующих алгоритмов по мере увеличения времени с момента съемки категорически падает. Тем не менее хотя все известные на сегодня эксперименты с массовым внедрением систем распознавания лиц в городских схемах имеют отрицательный результат, такие эксперименты продолжаются. Первые эксперименты ставились в Майами в конце 90-х гг. Сейчас они продолжаются в ряде английских и американских городов. Пока они признаются неэффективными. Однако другие применения технологии автоматического распознавания лиц вполне хорошо работают. Например, во многих штатах (в Соединенных Штатах) полиция активно пользуется мобильными терминалами для распознавания подозреваемых лиц (в этом случае используются контролируемые условия съемки – объект вынужденно сотрудничает с полицией, а также качественные многомегапиксельные фотоаппараты и GPRS связь с мощным компьютером в полицейском управлении). Так что, учитывая закон Мура и рост популярности мегапиксельных видеокамер, можно ожидать в ближайшие годы выхода технологии поиска разыскиваемых лиц наконец на реальное применение (с поправками на то, что говорилось об отсутствии приемлемых фотографий разыскиваемых террористов).

Закон Мура – легендарное наблюдение Гордона Мура над особенностями технологий производства интегральных схем, сделанное им в начале 60-х гг. и ставшее знаменитым после обобщения до утверждения, что «производительность среднего компьютера удваивается каждые полтора года». Не так давно отмечалось 40 лет закону Мура, и в общих чертах он до сих пор выполняется.