ТЕХНО
11 мин

А глаз как у орла. Как машинное зрение влияет на нашу жизнь

От колеса к машине. История отношений человека и оптической техники

В основе теории машинного зрения лежит книга Оливера Селфриджа «Глаза и уши компьютера» (1955). В ней автор строит предположения о будущем, в частности предсказывает, что компьютер научится распознавать изображения и звуки.

Постепенно и довольно скоро машинное зрение вышло за пределы чисто теоретических рассуждений и стало находить применение на практике: уже в 1960-е годы появились первые устройства, внедряющие зрение в компьютеры, — в основном для чистки артефактов со снимков спутников и самолетов, — но с ростом функционала ЭВМ их начали использовать и в космических исследованиях.

Уже в 1980-е годы были разработаны технологии машинного зрения, способные с помощью датчиков различать динамические изображения, захватываемые во время движения определенных объектов. Более того, развитие этих технологий привело к тому, что компьютеры научились различать буквы, шрифты и цифры. К концу десятилетия появились первые умные камеры, добавившие к инструментам анализа изображений необходимую мобильность.

Оливер Селфридж в молодости (Olivia S. Rissland)

В 1990-е годы технологии машинного зрения опробовали на первых коммерческих моделях беспилотных автомобилей.

Autovision II, представленный в 1983 году. Машина способна определять предметы, находящиеся на подсвечивающемся столике, и выводить их изображение на экран (Arnold Reinhold)

В начале XXI века появились первые корпоративные системы распознавания лиц, и машинное зрение окончательно проникло в повседневную жизнь человека.

Модели марки Navlab, разработанные в период с 1984 до 1995 года. Navlab 5 (крайняя справа) в 1995 году самостоятельно проехала от Атлантического до Тихоокеанского побережья США (Firefly4342 https://ru.m.wikipedia.org/wiki/Navlab)

Никуда не скрыться: машинное зрение в современной жизни

Итак, машинное зрение — совокупность технологий, позволяющих компьютеру анализировать поступающую через датчики визуальную информацию без участия человека. С помощью сенсоров, камер и процессоров со специальным программным обеспечением компьютеры способны брать на себя сложные операционные задачи. Например, они активно используются в производстве, позволяя обнаруживать брак, контролировать логистику с помощью быстрого считывания штрихкодов, обеспечивать безопасность на производстве и проводить необходимую диагностику.

Мир машинного зрения стал куда ближе к рядовому пользователю техники. Один из первых электробытовых приборов со встроенным машинным зрением — робот-пылесос от компании Electrolux — появился в 2002 году, а сегодня на рынке присутствуют десятки и сотни производителей и моделей.

Electrolux Trilobite 2.0 (Patrik Tschudin)

В самые дешевые пылесосы встроены инфракрасный и ультразвуковой датчики, которые измеряют расстояние до препятствия и помогают гаджету выстроить карту комнат. В более дорогих устройствах установлены камеры с встроенным машинным зрением, позволяющие более точно двигаться в пространстве. Мы пользуемся ими, не подозревая, какие усилия приложили специалисты для того, чтобы пылесос не задевал каждый стул на своем пути.

Обучить компьютер машинному зрению достаточно сложно: если человек видит окружающую действительность как многочастную картинку со множеством деталей, то для компьютерного устройства мир представляется набором пикселей разных цветов. Именно по этой причине для обучения компьютера разработчикам программного обеспечения приходится перенастраивать собственное зрение и учиться видеть по-новому: мы не задумываемся о том, чем кошка отличается от собаки, в то время как для машины это сложный процесс различения.

Сравнение человеческого и машинного зрения. Яндекс Практикум

При разработке софта для работы машинного зрения человеческое разбирается на отдельные части — восприятие цвета, размеров, определенных деталей в объектах. Это позволяет программистам проводить правильный анализ каждого из этапов, чтобы переносить их в компьютер с учетом технических особенностей визуального восприятия. При таком подходе пользователи оборудования с машинным зрением ощутимо влияют на свою повседневную жизнь.

Усложненный и намного более точный сканер, чем тот, что встроен в робот-пылесос, используется в Face ID. Cенсор считывает более 30 тысяч инфракрасных точек на лице владельца смартфона, выстраивая максимально подробную карту и не позволяя другому человеку разблокировать гаджет. Более того, каждая разблокировка уточняет 3D-модель лица, поэтому безопасность со временем увеличивается.

Как видит человека Face ID в IPhone Слева представлено рекламное изображение от компании Apple, справа — реальная карта лица (iphones.ru)

LiDAR — еще одна технология, встроенная в смартфоны. Сенсор уже не ограничивается лицом: с его помощью можно создавать 3D-модели практически любых объектов (это особенно удобно для 3D-дизайнеров, так как больше не нужно создавать объекты с нуля — они легко переносятся в программы для моделирования с телефона), делать примерные измерения с помощью встроенной рулетки, а также использовать для улучшения AR-игр — сама технология не нова, но теперь персонажи не будут дергаться, увеличиваться и уменьшаться из-за невозможности сбалансированного считывания пространства.

Кстати, LiDAR еще и помогает археологам в поисках затерянных городов — считывает данные, в том числе о рельефе местности во время полета на самолете (Geography realm)

Машинное зрение окружает нас практически везде: оплата проезда в метро с помощью лица; контроль качества товаров, длины очереди и посещаемости филиалов магазинов; медицинские процедуры и операции с помощью роботов-хирургов; машины, самостоятельно доставляющие продукты. Аналитики из Market Research Future прогнозируют, что к середине 2020-х рынок технологий машинного зрения будет оцениваться в 15 млрд долларов. Но, конечно же, внедрение обученных компьютеров не обходится без определенных сложностей.

Нерешенные проблемы машинного зрения

Машинное зрение представляется особенно эффективным в производстве, где функции каждого элемента регламентированы. Но даже в строгих правилах существуют свои нарушения: отчет за 2020 год показал, что компьютеры неэффективно анализируют глянцевые и блестящие детали изображений, так как их визуальная структура постоянно изменяется под воздействием света.

Эта технология требует тщательного подхода к входящим условиям: постоянный свет, хорошая оптика, правильно выставленные настройки камер. Регулярно должна проводиться настройка каждого из компонентов компьютера, иначе высок риск появления критических ошибок.

При этом не все уточнения настроек могут предупредить ошибки: так называемые пограничные случаи, когда ситуация уникальна и ее невозможно предугадать, приводят к разного рода погрешностям, от мелких до фатальных — на производстве появляется брак либо оно и вовсе останавливается. Такие пограничные случаи могут возникать в любой момент, и их может вызвать масса причин: от погоды (например, когда капли дождя или снега перекрывают часть линзы камеры) до внезапно отключившегося света.

Большая проблема кроется в закрытой системе обучаемого компьютера, так называемого черного ящика — ученые разрабатывают методики, которые помогают им разгадать логику мышления искусственного интеллекта. Как говорит исследователь Yandex Research Максим Рябинин:

Кому-то интересно узнать, на основании чего модель совершает предсказания, и сделать из этого более фундаментальные выводы, а кому-то хочется улучшить надежность и прозрачность существующих систем, применяемых нами каждый день.

Карта значимости ИИ стала одним из многочисленных способов работы с черным ящиком: выделенные признаки на изображениях слева показывают, какие параметры важны для данной модели при классификации объектов. Собака определяется по морде, кошка — по форме тела (Ramprasaath R. Selvaraju et al. / arXiv.org, 2016)

Специалисты пытаются настроить машинное зрение подобно человеческому, чтобы оно воспринимало реальность не с помощью наборов цветов и пикселей, классифицируя все увиденное по достаточно простым схемам, а умело анализировать полную картину и совершать сложные операции.

Пока наделить компьютер человеческим сознанием и зрением нельзя, но можно проанализировать дальнейшие способы его развития — культура, медиа и искусство помогают в этом разобраться.

Арт-машина. Как медиа и культура осмысляют машинное зрение

В 2011 году художник Эмилио Ваварелла создал проект под названием «Трилогия Google», который стал одним из первых примеров искусства пост-интернета. Ваварелла активно изучал Google Мaps, пытаясь найти баги и артефакты в созданных компанией алгоритмах: в частности, он обнаружил ошибку в алгоритме ретуши лиц во время съемки улиц на камеру Dodeca 2360 с 11 объективами и полным захватом окружающего пространства. Лица водителей машин Google Street View, случайно попавшие в объектив, запечатлены на алюминиевых пластинах — теперь ошибки алгоритмов компании увековечены в офлайне.

Те, кто рефлексируют по поводу работы машинного зрения и искусственного интеллекта в нашей жизни, находят в ошибках и недостатках определенную эстетику и утверждают, что сознание человека совершеннее сознания компьютера. Однако в условиях постоянного развития и обучения компьютеров делать это все сложнее. Культура пост-интернета и AI-art позволяет говорить о компьютерном зрении с точки зрения взаимного влияния человека и технологий, преодолевая скептицизм и формулируя различные мнения касательно эволюции машинного зрения.

При этом никто из креаторов и тех, кто положительно высказывается о машинном зрении, не считает его идеальным инструментом для конструирования нового языка чувств и коммуникации с окружающим миром. Баги становятся уникальными эстетическими маркерами работы искусственного интеллекта. Например, групповая работа «Психея» исследует именно нелицеприятную часть работы машинного зрения и ИИ, когда алгоритм, скрытый за удобным и понятным интерфейсом, может в любой момент провалиться в зловещую долину Эффект «зловещей долины» — явление, основанное на гипотезе, сформулированной японским учёным-робототехником и инженером Масахиро Мори. Она подразумевает, что робот или другой объект, выглядящий или действующий примерно как человек (но не точно так, как настоящий), вызывает неприязнь и отвращение у людей-наблюдателей. .

Райан Блэквелл, Алекси Халттунен, Джозеф Скалера, «Психея», 2021 (CVPR)

Машинное зрение активно применяется и в разработке приложений и игр, причем доступность механизмов его обучения позволяет использовать их как при создании крупных приложений (поиск изображений с помощью Google Lens), так и в инди-играх. Одним из ярких примеров стал проект Before Your Eyes, где с помощью глаз можно контролировать движение камеры и прохождение по сюжету. Моргнули слишком быстро — упустили важную фразу или событие, а если следующая сцена предвещает грустные события, приходится держаться до последнего, чтобы не закрыть глаза.

Медиа также экспериментируют с машинным зрением и его способностью к анализу визуальной информации. Например, канал BBC в 2018 году провел эксперимент, загрузив в компьютер тысячи часов записи программ британского телевидения, после чего ИИ начал сам генерировать короткие передачи в рамках документального шоу Made by Machine: When AI met the Archive Создано ИИ: когда машина встретила Архив .

Смотреть финальный результат непросто: во время конструирования новой программы машина ориентировалась на собственный анализ увиденных видеозаписей, который часто был ошибочным. Так, пианиста она определила как «мужчину в юбке», а жокея как «собаку на лошади». В итоге совершенно непонятно, что ИИ пытался рассказать. Тем не менее BBC стало одним из первых медиа, показавших возможности машинного и компьютерного зрения в конструировании телевещания.

В эпоху интерактивных медиа машинное зрение становится все более привычным явлением в жизни человека. Из последних примеров — Apple Vision Pro и интервенция их интерфейса в зрение человека. Теперь можно заниматься повседневными делами, работой, смотреть фильмы и сериалы, не используя устройства с экранами.

Пример использования Apple Vision Pro. Очки дополненной реальности заменяют экран десктопного компьютера, что позволяет человеку работать над монтажом видео в любом удобном месте (Apple)

Машинное зрение начинают использовать и в маркетинге. Приложение TheTake.Ai способно распознать любой бренд, представленный в фильме, телепередаче или сериале, — заказать можно сразу же. В моменте можно следить за ставками на свою любимую команду, участвовать в онлайн-голосованиях, покупать билеты и изучать биографию, например, участника реалити-шоу.

Пример использования TheTake.Ai. Приложение позволяет найти купальник, надетый на героине, либо же предлагает аналогичную вещь, а после оформляет заказ удобным способом (Credit:) (TheTake.Ai)

С помощью машинного зрения маркетологи могут отслеживать реакции потребителя на товары и контент. Движения глаз могут стать ценной информацией для конструирования уникальной сетки предложений, а также влиять на интерфейсы сайтов и дизайн продукта.

Итак, среднее по работе с машинным зрением в культуре выглядит как поиск погрешностей, их фиксация — с одной стороны, и как аккуратная интервенция — с другой. Машинное зрение расширяет свои утилитарные функции до концептуальных — это мы видим на примере использования в играх и искусстве. Интеграция технологий позволяет нам стать частью процесса обучения, и от наших взаимодействий с компьютером могут зависеть будущие разработки в сфере оптики.

Пишите нам

Спасибо, что написали! Вернемся к вам на почту :)

Мы мечтаем собрать самую большую команду талантливых авторов в России. Если вы придумали идею большого текста, готовы поделиться опытом в формате колонки или стать героем нашего подкаста, напишите нам.

 

Как говорили в популярной рекламе начала 00-х: лучшие руки трудоустроим.

Имя *
e-mail *
о себе *

Читайте также