Гуглеры научили компьютер описывать фотографии человеческим языком

19.11.2014 10:00

Как говорится, одна картинка стоит тысячи слов, однако происходящее на этой самой картинке не обязательно описывать столь подробно — можно обойтись без фанатизма и дать краткое описание. Именно такому навыку «бездушную машину» решила обучить совместная команда ученых из Стенфордского университета и компании Google.

Исследователям удалось сделать, без преувеличения, важнейший шаг в области машинного обучения, искусственного интеллекта и, в частности, компьютерного зрения. Алгоритмы, созданные в «корпорации добра» активно используют в своей работе нейронные сети и способны не только распознавать предметы, классифицировать их и строить смысловые связи между объектами на совершенно незнакомой картинке, но и описывать все это обычным человеческим языком.

Two pizzas sitting on top of a stove top oven

Например, картинку, расположенную выше, система описала как «две пиццы, лежащие на поверхности плиты». А на изображении, расположенном ниже, алгоритмы распознали «группу людей, совершающих покупки на уличном рынке». Несмотря на кажущуюся тривиальность, решить такую задачу архисложно и за, казалось бы, простыми результатами стоит титаническая научная работа, сложнейшие системы ИИ и самые передовые технологии.

Потенциал у программной платформы гигантский, правда, широкое ее применение «прямо завтра» пока не планируется (что явно является лишь вопросом времени).

Создатели системы распознавания и описания образов на изображениях, говорят на данный момент лишь о помощи слабовидящим (которые смогут понять, что изображено на картинках, например, из статей в интернете) или об автоматическом снабжении картинок описаниями.

На данный момент встречаются огрехи, но с течением времени все исправимо

Ясно, что такое применение столь совершенного инструмента сродни пальбы из пушки по воробьям. И совершенно очевидно, что передовая разработка в ближайшем будущем будет решать намного более актуальные и глобальные задачи. (Отдельные фантазеры легко свяжут в уме данную новость и прошлогодние вести о покупке Google роботехнических компаний, одной из которых является Boston Dynamics).

Наверняка одним из первых применений технологии будет связано с поисковой системой Google. Например, она может быть интегрирована в поиск картинок, не имеющих правильных подписей – индексируемые изображения будут получать автоматическое описание и помогут улучшить релевантность поисковой выдачи.

Крупные залежи лития были обнаружены… в Афганистане!