Ученые из Самарского университета имени академика С.П. Королева смогли обучить нейросеть распознавать сценарии резкого ухудшения здоровья людей в общественных местах, которые сопровождаются падением. Исследователи уверены – эта технология поможет службам спасения оперативно реагировать на опасные случаи, а медикам быстрее выезжать к пациентам для оказания экстренной помощи. Результаты исследований были опубликованы в статье на портале Applied Sciences.
Искусственный интеллект – это имитация процессов человеческой интеллектуальной деятельности с помощью специальных компьютерных алгоритмов. Проще говоря, это технология, которая пытается научить компьютер мыслить и действовать «по-человечески». Искусственный интеллект работает на принципах машинного обучения, когда компьютер самостоятельно учится находить решения тех или иных задач на основе огромного массива имеющихся данных.
Нейронные сети в компьютере – то, на чем основывается работа ИИ – можно сравнить с работой человеческих нейронов. Наших нейроны быстро реагируют на воздействия окружающей среды, фиксируя, запоминая определенные алгоритмы и используя их при анализе будущих данных. Именно поэтому мы видим отличие рыбы от птицы или красного цвета от зеленого. Запоминание и анализ данных у нейронов происходит благодаря их самостоятельному обучению, которое основывается на прошлом опыте. Так, изучая что-то новое, в нашем мозге образовывается нейронная связь; при каком-либо событии, если понадобится, мозг может обратиться к этой связи и сравнить новую информацию с уже имеющейся. Нейроны постоянно обучаются, а параметры каждого из них меняются в зависимости от предыдущих результатов, изменяя порядок работы всей системы. Так же работает и искусственный интеллект.
Фото: Depositphotos.com / Gorodenkoff
ИИ содержит в себе множество технологий, одной из которых является компьютерное зрение – анализ изображений и видео, когда компьютер извлекает нужную человеку информацию.
Пусть компьютер «посмотрит»
Точные события, которые повлекли за собой первые задатки компьютерного зрения, назвать сложно. Ученые сходятся во мнении, что первым серьезным документом, который так или иначе затрагивал эту тему, была статья под названием «Receptive fields of single neurons in the cat’s striate cortex», или «Рецептивные поля одиночных нейронов стриарной коры кошки». Она была написала нейропсихологами Дэвидом Хьюбелом и Торстеном Визелем из медицинского института Уилмера в США и опубликована в 1959 году в The Journal of Psychology. В своей статье ученые изучали свойства нейронов зрительной коры кошек, и при детальном рассмотрении заметили, что их зрительный опыт способен влиять на эти нейроны.
В 80-х годах появились теории систем распознавания движущихся объектов на видео, в 90-х – ученые уже работали над прототипами беспилотных автомобилей. Люди поняли, что технология компьютерного зрения может использоваться практически везде, где есть хоть какие-либо изображения, а благодаря развитию интернета компьютерам стало проще анализировать данные – с появившимися массивами оцифрованных изображений искусственный интеллект начал развиваться семимильными шагами.
Как работает компьютерное зрение
Компьютерное зрение отличается от человеческого тем, что у него нет жизненного опыта и способности быстро идентифицировать предметы на изображениях. Машина не может отличить шкаф от бревна, не имея исходных данных.
Компьютерное зрение, или CV (Computer Vision), работает на основе технологий машинного обучения. Компьютер выделяет признаки и их комбинации для идентификации нужных объектов, а затем начинает «тренироваться» распознавать нужные типы закономерностей.
CV используется в разных областях человеческой жизни: от беспилотного транспорта и распознавания текста до изучения космоса и систем безопасности. Однако есть вещи, которые еще не попадались на глаза компьютерному зрению. И вещи эти связаны с человеческим поведением в общественных местах и его здоровьем.
Упал, не очнулся, не замечен, погиб
Мы часто слышим истории, в которых человеку в метро, например, стало плохо. Он присел или прилег на скамейку, но к нему так никто и не подошел. Спустя время, даже если кто-то и вызвал скорую помощь, она попросту не успевает доехать и спасти человека.
Так, например, 18 января 2022 года известный парижский фотограф Рене Робер решил выйти из дома, чтобы прогуляться. На улице Тюрбиго, в центральном Париже, ему стало плохо. Робер упал, сильно ударился головой о тротуар и потерял сознание.
Близкий друг фотографа, журналист и музыкант Мишель Момпонте, рассказал, что Робер лежал на земле по меньшей мере пять или шесть часов в одном из самых оживленных кварталов Парижа, и никто не посчитал нужным вмешаться. Врачей вызвал лишь один неравнодушный человек – бездомный, который проходил мимо тела фотографа.
Утром следующего дня, 19 января в 05:30, бригада парижской скорой помощи обнаружила Робера – у него была травма головы и переохлаждение, но было уже слишком поздно. 84-летний фотограф скончался в больнице. Момпонте, написал о трагедии в своем аккаунте в Twitter и призвал людей быть более внимательными к окружающим, а также не проходить мимо беды.
Новый взгляд на проблему. Компьютерный взгляд
Сегодня ученые стараются найти способы предотвратить как можно больше ситуаций случайного или неслучайного падения людей на работе, в общественных местах, метро, торговых центрах и прочих местах скопления толп. От скорости приезда машины скорой помощи зависит жизнь человека, поэтому распознавание внезапного ухудшения самочувствия на улице в считанные секунды спасло бы тысячи жизней. Компьютерное зрение может стать решением в вопросе оказания экстренной медицинской помощи людям, которым стало плохо на улице. Именно поэтому сегодня компьютерное зрение и распознавание поведения людей – ключевые элементы перспективных систем безопасности.
В Самарском университете имени С.П. Королева исследователи поставили перед собой задачу научить нейросеть адекватно воспринимать и распознавать падения людей в публичных пространствах, на производствах, в метро и на работе по причине ухудшения здоровья.
Проблема более ранних исследований заключалась в том, что обучение нейросетей корректному распознаванию падений требует огромного массива видеозаписей с камер наблюдения. Получить такой массив данных естественным путем практически невозможно, и специалисты Самарского университета Королева нашли выход из этой ситуации. Они предложили метод генерации обучающих данных с помощью трехмерной среды Unreal Engine 4, популярного игрового движка, на базе которого разрабатывались многие популярные игровые проекты. По словам исследователей, именно этот движок обеспечивает автоматическое «воспроизведение» различных сценариев цифровой симуляции поведения человека.
«Мы разработали универсальное средство моделирования сцен падения человека, позволяющее варьировать рост, вес, параметры одежды и окружения. На основе сгенерированных таким образом данных мы обучили сверточную нейросеть на базе Mask R-CNN с возможностью сегментации пикселей по классам, что обеспечивает высокое качество распознавания. В работе мы учитывали физику конечностей при движении и падении, возможное взаимодействие с окружающими предметами, а также генерировали случайное "поведение" цифрового человека, что повысило реалистичность моделирования», – рассказал старший преподаватель кафедры суперкомпьютеров и общей информатики Самарского университета имени С.П. Королева Денис Жердев.
Сверточные нейронные сети, которые использовали ученые, работают на основе специальных фильтров; они распознают определенные характеристики изображений, например, прямые линии или фигуры. Такие нейронные сети используются в компьютерном зрении повсеместно.
Конвейер генерации синтетических данных, который описывает последствия падений, имеет серьезные недостатки: преднамеренные действия лиц в процессе реконструкции падения усложняют построение случайного или резкого падения, а варианты падений часто ограничены и их трудно использовать в задаче обнаружения последствий одного из них. Например, сложно оценить, какая часть тела была поражена и узнать, каким был объект удара. В таких задачах человек неизбежно может допускать серьезные ошибки.
Отличие подхода специалистов из Самарского университета также состояло в том, что оно учитывает все аспекты инверсной кинематики модели человека. Простыми словами: они научили нейросеть видеть и распознавать, где находится та или иная часть тела цифрового человека относительно объектов рядом, чтобы учесть любые варианты падения, возле любых предметов рядом или вдалеке.
Для более глубинного эксперимента, самарские ученые использовали 3D-сканированные модели реальных людей, разнообразную одежду, узоры для нее, и даже палитры кожи. Эксперимент был еще более детализирован с помощью имитации человеческого скелета – был создан цифровой скелет с 22 основными костями тела и ног и 30 костями пальцев.
Сам эксперимент состоял в том, что ученые помещали модель человека в трехмерную среду, в которой она взаимодействовала с трехмерным интерьером. Задача заключалась в том, чтобы активировать различные цифровые сценарии поведения человека. Пространство 3D-комнат было разнообразно, и ученые могли менять все: от цвета стен до шероховатости поверхностей и вида освещения.
Поведение человека фиксировали 16 устройств для цифровой регистрации. Эти камеры выдавали изображения с регистрацией падения человека под разными углами. Ученые наблюдали за действиями виртуального человека и «проигрыванием» различных сценариев взаимодействия с трехмерной средой.
Основная задача на этапе подготовке обучения нейронных сетей – сбор аннотированных наборов данных, то есть обобщенных характеристик необходимых элементов и их закономерностей с минимальными временными и ресурсными затратами. Это сложная задача, особенно на тему обнаружения и классификации человеческого поведения на улице, которое может быть вызвано чем угодно. Нужно было научить компьютер понимать, когда человека толкнули без дальнейшего падения, и когда он падает именно из-за ухудшения самочувствия или других непонятных причин. Ручные аннотации таких данных, с высокой вероятностью, были бы неточны и ошибочны. Однако, обучая модель Mask R-CNN с помощью метода самарских ученых, исследователи добились распознавания упавшего человека с точностью 97,6%. Когда ученые применили свой метод на реальных видеозаписях камер наблюдения, система справилась с экспериментом на 95%.
Систему самарских ученых можно внедрить в камеры видеонаблюдения на улице, чтобы распознавать падения людей при ухудшении здоровья, и, если анализ компьютера даст положительный результат, вызвать скорую за считанные мгновения.
Результаты экспериментов также будут полезны при создании продвинутых тренинговых и игровых систем дополненной и виртуальной реальностей с учетом психического и физического состояний пользователя, что позволит адекватно реагировать на действия внутри системы, и не травмировать ни себя, ни свою голову. Это приведет к новому уровню взаимодействия с виртуальной средой, углубит пользовательский опыт с VR-системами.