Технология компьютерного зрения от Microsoft Research научилась описывать происходящее на изображении

Корпорация Microsoft продолжает развивать свои технологии обработки изображений. В феврале исследовательский отдел Microsoft Research продемонстрировал работу алгоритма, основанного на нейронных сетях. Этот алгоритм позволяет определять предметы на фотографии с большей точностью, чем это делает человек (4.94% ошибок по сравнению с 5.1% у людей). Некоторые функции улучшали скорость определения в 3 раза, по сравнению с текущими технологиями, что позволило сильно улучшить точность без потери в производительности.

Теперь Microsoft делает следующий шаг в обработке изображений: новая технология позволяет не только распознать основные элементы фотографии, но и умеет их интерпретировать и автоматически сгенерировать подпись или краткое описание происходящего на фото. Для обычного пользователя это может оказаться не совсем интересным, однако для искусственного интеллекта необходимо точно определять изображение перед собой, и подобная технология может стать ещё одним «кирпичиком» для его создания.

Алгоритмы распознавания и интерпретации пытаются имитировать работу человеческого мозга с помощью нейронных сетей. Вначале определяются все основные элементы на изображении, а затем происходит генерация предложений, основываясь на том, как могут взаимодействовать объекты. К примеру, для продемонстрированного изображения алгоритм сгенерировал следующие предложения: «Фиолетовая камера с женщиной», «Женщина с фотоаппаратом в толпе» и «Женщина, держащая кошку». Два предложения не имели смысла и пучок волос был распознан как кошка, поэтому в результате алгоритм остановился на фразе «Женщина с фотоаппаратом в толпе» в качестве лучшего способа описать происходящее.

По словам Microsoft, подобная технология может стать основой для значительно более мощных инструментов и приложений с использованием элементов искусственного интеллекта. К примеру, это позволит разработать универсальную интеллектуальную систему, которая сможет находиться рядом с пользователем, узнавая его и окружающий мир вокруг него, помогая человеку в случае необходимости. Возможно, через какое-то время подобные технологии интегрируют и в будущие версии Cortana.

Кстати, в недавно вышедшем фильме «Она» (Her), где одним из главных героев был искусственный интеллект, фигурировало нечто подобное: через камеру в смартфоне AI мог смотреть на окружающий мир, ведя беседу с пользователем через гарнитуру, опознавать его, и попутно обучаться.

Кадр из фильма «Она» . AI наблюдает за миром через камеру смартфона, находящегося в кармане рубашки, и общается со своим владельцем