LALAL.AI — убираем вокал из музыки при помощи нейросети

В статье рассмотрено, что такое вредоносное машинное обучение (Adversarial Machine Learning), чем это опасно, где применяется и как отличается от генеративно-состязательных нейросетей. Читайте далее, когда и почему появились AML-методы, как обмануть систему распознавания лиц и какими способами бороться с Adversarial attack.

Как работают нейронные сети

Принцип работы нейронной сети основан на анализе входящих данных с последующим суммированием или вычитанием результатов. Лучше всего это объяснить на примере. Предположим, что мы хотим создать установку, которая бы отпугивала ворон, но не реагировала на других птиц. Заложив в базу программы данные о внешнем виде ворон, мы показываем искусственному интеллекту изображение, которое он должен проанализировать и найти на нём объекты, имеющие характерные признаки каркуш. Если нейросеть ошибается, путая ворону с соловьем, мы указываем ей на ошибку, при этом значимость созданной связи уменьшается, если же сеть выдает верный результат, значимость связи увеличивается.

Затем программе показываем целый ряд изображений, которые она также анализирует и выдает положительные или отрицательные результаты, которые суммируются по признаку true или false. Таким образом вероятность правильного ответа с каждым разом увеличивается, а неверного — уменьшается, то есть нейросеть в буквальном смысле учится на своих ошибках. Добавив еще один слой анализа данных, мы можем не только определить породу птиц, но предсказать их поведение, основываясь на последовательности их действий в тех или иных условиях. Но довольно теорий, пора взглянуть на то, что могут предложить наиболее популярные бесплатные нейросети.

Архитектура подхода

Во время обучения система включает в себя:

  • TrackNet, которая считает SMPL модель тела человека для каждого входного кадра видеозаписи;
  • NRMM модель, которая учитывает движения тела человека между соседними кадрами и соотносить две формы человека с разных кадров;
  • ReconNet для оценки деталей формы тела
Архитектура подхода

Во время тестирования фреймворк сначала считает SMPL модель с помощью TrackNet, а затем оценивает детали формы с помощью ReconNet. Итоговая 3D-модель комбинирует в себе выходы TrackNet и ReconNet.

Визуализация составных частей системы

Игры с ботами

Развлекаться с недоученными нейросетями очень весело: они порой выдают такие ошибки, что в страшном сне не приснится. А если ИИ начинает учиться, появляется азарт: «Неужто сумеет?» Поэтому сейчас набирают популярность интернет-игры с нейросетями.

Одним из первых прославился интернет-джинн Акинатор, который за несколько наводящих вопросов угадывал любого персонажа. Строго говоря, это не совсем нейросеть, а несложный алгоритм, но со временем он становился всё догадливее. Джинн пополнял базу данных за счёт самих пользователей — и в результате его обучили даже интернет-мемам.

Другое развлечение с «угадайкой» предлагает ИИ от Google: нужно накалякать за двадцать секунд рисунок к заданному слову, а нейросеть потом пробует угадать, что это было. Программа очень смешно промахивается, но порой для верного ответа хватает всего пары линий — а ведь именно так узнаём объекты и мы сами.

Ну и, конечно, в интернете не обойтись без котиков. Программисты взяли вполне серьёзную нейросеть, которая умеет строить проекты фасадов или угадывать цвет на чёрно-белых фотографиях, и обучили её на кошках — чтобы она пыталась превратить любой контур в полноценную кошачью фотографию. Поскольку проделать это ИИ старается даже с квадратом, результат порой достоин пера Лавкрафта!

Читайте также:  Прохождение историй древних героев в Ghost of Tsushima

Кто научил ИИ писать картины

Искусственный интеллект работал над «Портретом Эдмона Белами» не один, а вместе с тремя 25-летними французами, которые называют себя арт-группой Obvious. Они создали серию таких работ — нарисовали целое несуществующее семейство Белами. И проданное на аукционе Christie’s произведение было не первым из этой серии, на котором они заработали: картина «Графиня Белами» за полгода до этого принесла им 11 430 долларов.

Процесс создания картины «Графиня Белами» — первой, проданной командой Obvious

Фамилия Белами взята не просто так: первичный алгоритм, с помощью которого была создана серия этих работ, написал разработчик по имени Ян Гудфеллоу (Goodfellow). На русский его фамилия переводится как «хороший приятель», что по-французски будет bel ami. То есть вся серия картин стала своего рода оммажем разработчику.

Сам факт продажи картин, созданных с помощью ИИ, не редкость. На местном аукционе в Сан-Франциско в 2016 году продали сразу 29 работ команды разработчиков ИИ из Google. Их общая стоимость составила 98 000 долларов, самую дорогую оценили в восемь тысяч.

В 2017 году за 16 000 долларов купили картину, над которой работала предельно самостоятельная программа AICAN — она генерирует картины, оценивает уровень их креативности и сама дает работам названия. На выставке в индийской галерее Nature Morte живопись ИИ продавали в диапазоне цен от 500 до 40 000 долларов за работу.

Онлайн-галерея SuperRare на регулярной основе торгует объектами искусства, созданными «с помощью цифровых инструментов». Они продаются исключительно в интернете и за криптовалюту. Кроме прочего, площадка гарантирует защиту купленного произведения от подделок: все права на работы защищены блокчейном, то есть система постоянно проверяет интернет на наличие аналогичных изображений — незаметно выложить в сеть дубликат не получится. На сайте онлайн-галереи утверждается, что к началу июля они продали более 7200 работ на общую сумму порядка миллиона долларов.

Историческим событием в продаже картины «Портрет Эдмона Белами» было то, что картину выставил на торги именно аукционный дом Christie’s — одна из двух главных мировых площадок арт-рынка. В мире искусства это автоматически означает признание — как для художника, так и для нового направления в искусстве.

При этом ИИ востребован в творчестве уже порядка пятидесяти лет. Считается, что первым, кто использовал алгоритмы для создания художественных произведений, был британский художник Харольд Коуэн. С 1973 года он разрабатывал программу AARON, которая создавала уникальные картины, следуя набору определенных правил. Работы Коуэна были замечены в арт-сообществе и довольно широко выставлялись, в том числе в одной из главных британских галерей — Tate.

За Коуэном последовали многие художники/разработчики, которые создавали картины с помощью ИИ, но на качественно новый уровень такое творчество вышло только в XXI веке, когда упомянутый Ян Гудфеллоу в 2014 году написал алгоритм «Генеративно-состязательная сеть» — Generative adversarial network (GAN).

Виды и примеры Adversarial attack

Итак, одной из причин появления Adversarial attack считается то, что методы машинного обучения изначально были разработаны для стационарных и безопасных сред, где обучающая и тестовая выборки сгенерированы из одного и того же статистического распределения. Однако, на практике злоумышленники могут тайно манипулировать входными данными, чтобы использовать уязвимости ML-алгоритмов и поставить под угрозу безопасность всей системы машинного обучения. Выделяют 2 вида AML-атак [4]:

  • уклонение (evasion), при которых злоумышленник старается вызвать неадекватное поведение уже готового продукта со встроенной в него ML-моделью. В этом случае сам продукт рассматривается злоумышленником как черный ящик, без детального знания характеристик и устройств. Этот тип атак считается наиболее распространенным. Например, спамеры и хакеры часто пытаются уклониться от обнаружения, скрывая содержимое спам-писем и вредоносный код. В частности, сюда относится спам на основе изображений, где вредоносное содержимое встроено в прикрепленное изображение, чтобы избежать текстового анализа, выполняемого почтовыми спам-фильтрами. Другой кейс – спуффинг-атаки на биометрические системы, когда злоумышленник стремится замаскироваться под другого человека.
  • отравление (poisoning), когда злоумышленник стремится получить доступ к данными и процессу обучения ML-модели, чтобы ее «отравить» (обучить неправильно) для последующей неадекватной работы. Отравление можно рассматривать как злонамеренное заражение обучающих данных. Таким образом, здесь используется стратегия «белого ящика», когда атакующий обладает сведениями о жертве — «вредоносными знаниями» (Adversarial Knowledge, AK): как готовятся и из каких источников берутся данныемдля обучение и что они собой представляют, каковы основные функции атакуемой системы, по каким алгоритмам она работает, каковы результаты и пр. Отравляющие атаки предполагают инсайдерскую информацию о ML-системе и достаточно высокий уровень компетенций злоумышленника в Data Science.
Читайте также:  Monster Hunter здорового человека. Обзор фильма «Любовь и монстры»

Кроме знаний о жертве, основными факторами, которые определяют вид атаки на контролируемые ML-алгоритмы считаются следующие [4]:

  • влияние на классификатор, например, если атака направлена ​​на внедрение уязвимостей на этапе классификации через манипулирование обучающими данными или поиск и последующее использование уязвимостей;
  • нарушение безопасности, в частности, целостности, когда злонамеренные образцы ошибочно классифицированы как легитимные, или доступности, если цель злоумышленника в том, чтобы увеличить неправильную классификацию легитимных образцов, делая классификатор непригодным для использования;
  • специфика атаки – целевая или неизбирательная. При целевой атаке задействованы конкретные образцы, чтобы разрешить конкретное вторжение, например, проход через спам-фильтр определенного электронного письма.

Помимо спам-писем и обмана биометрических систем, одном из наиболее ярких кейсов Adversarial attack является воздействие на беспилотные автомобили и другие робототехнические решения. К примеру, для анализа поведения подсистемы машинного зрения автомобиля на ее вход в огромном количестве подаются слегка видоизмененные изображения дорожных знаков. Эксперименты исследователей Принстонского университета показали, что достаточно нанести несложные искажения на знак ограничения скорости, чтобы ML-система считала его за знак обязательной остановки. А внезапное торможение одного автомобиля в плотном потоке машин, движущихся с высокой скоростью чревато авариями и даже человеческими жертвами. С учетом такой потенциальной уязвимости многие компании-разработчики беспилотных авто отреагировали выпуском технологий для предупреждения Adversarial attack. В частности, в 2018 году корпорация Nvidia, сотрудничающая с Mercedes-Benz, опубликовала отчет SELF-DRIVING SAFETY REPORT, где описаны прилагаемые инфраструктурные решения для защиты беспилотных машин. Производители самолетов предлагают распространить на автомобили технологии типа Communication Lockdown (блокировка коммуникаций), которой укомплектованы истребители F-35I и F-16I. Тем не менее, в области беспилотных машин пока не существует готовых решений для противодействия искажающих атакам, поэтому эти потенциальные угрозы остаются важнейшим фактором, который тормозит практическое внедрение автономных автомобилей в повседневную жизнь [1].

Еще одним иллюстративным примером AML-атак является уязвимость алгоритмов кластеризации, которые используются для обнаружения опасных или незаконных действий. Например, кластеризация вредоносных программ и компьютерных вирусов направлена ​​на их выявление, классификацию и создание конкретных сигнатур для обнаружения антивирусами или системами обнаружения вторжений. Однако, изначально эти алгоритмы не были разработаны для борьбы с преднамеренными попытками атак, которые могут нарушить сам процесс кластеризации [4].

Как пользоваться?

Шаг 1. Выбираем фильтр

Бла­года­ря гиб­кой сис­теме филь­тров мож­но регули­ровать интенсив­ность обра­бот­ки, что поз­воля­ет «най­ти под­ход» к каж­дому тре­ку. В сис­теме есть три филь­тра:

  • Mild (уме­рен­ный) — минималь­ный уро­вень обра­бот­ки, при которой в выход­ных тре­ках может про­являть­ся ори­гиналь­ная дорож­ка.
  • Normal (стан­дар­тный) — уро­вень обра­бот­ки по умол­чанию, с уме­рен­ной филь­тра­цией. Боль­шинс­тво оши­бок исправ­ляет­ся, но в выход­ных дорож­ках могут при­сутс­тво­вать искусс­твен­ные эле­мен­ты и высоко­час­тотное раз­мытие.
  • Aggressive (интенсив­ный) — мак­сималь­ный уро­вень обра­бот­ки. Алго­рит­мы филь­тра­ции наибо­лее чувс­тви­тель­но реаги­руют на воз­можные ошиб­ки. Это может при­вес­ти к тому, что осо­бен­ности некото­рых тре­ков будут вос­при­нимать­ся как ошиб­ки и уда­лять­ся.
Как пользоваться?

По­играть с филь­тра­ми мож­но под кноп­кой Select file.

Читайте также:  Borderlands 3 персонажа — кто лучший класс и за кого играть?

Шаг 2. Выбираем сетку

пре­дос­тавля­ет нам две ней­росети на выбор: Cassiopeia и ее пред­шес­твен­ницу Rocknet.

Сог­ласно тес­там, Cassiopeia отста­ет от Rocknet по фор­маль­ным мет­рикам, но инс­тру­мен­таль­ная часть, и осо­бен­но вокаль­ная дорож­ка, зву­чат гораз­до естес­твен­нее и мяг­че, чем у Rocknet.

В любом слу­чае для каж­дого тре­ка най­дет­ся своя сет­ка — резуль­тат зависит от фор­мата дорож­ки и жан­ра.

Для сме­ны сет­ки на пре­дыду­щую (Rocknet) нуж­но сдви­нуть пол­зунок.

Как пользоваться?

Шаг 3. Загружаем трек

Вы­бира­ем ауди­офайл любого жан­ра и заг­ружа­ем его на  Сер­вис под­держи­вает прак­тичес­ки все ауди­офор­маты, вклю­чая Opus, FLAC, WebM, WEBA, WAV, Ogg, M4A, OGA, MP3, AIFF, WMA, AU, MP2, Ogg, AAC, AC3, DTS.

По­мимо ауди­офай­лов, так­же под­держи­вает обра­бот­ку видео: теперь не нуж­но ломать голову над тем, как не потерять качес­тво при кон­верта­ции.

Шаг 4. Получаем готовые дорожки

Те­перь оста­ется подож­дать нес­коль­ко минут, пока ИИ сде­лает всю работу за нас. Пос­ле обра­бот­ки готовые дорож­ки мож­но прос­лушать онлайн или ска­чать, а если нет вре­мени ждать, то мож­но бежать по делам: ссыл­ки на ска­чива­ние так­же отправ­ляют­ся на поч­ту.

Как пользоваться?

По умол­чанию обра­баты­вает­ся толь­ко часть фай­ла, что­бы поль­зователь мог про­тес­тировать сер­вис перед покуп­кой. Если резуль­тат нас устра­ивает, то мож­но обра­ботать целый трек, а не его часть.

Приложения

Благодаря своей скорости и стабильности StyleGAN успела приспособиться к широкому кругу задач. Вот некоторые из её применений:

— Этого человека не существует

тесты: Какое лицо реально / Реальное или нет?

— котики: Этих кошек не существует , Этого кота не существует (ошибки в генерации кошек ; интерполяция / передача стиля)

— гостиничные номера (с текстовыми описаниями, сгенерированными RNN): Этого номера не существует

кухня / столовая / гостиная / спальня (с использованием трансферного обучения)

— Этого вайфу не существует

— шрифты

— готические соборы

— спутниковые снимки

— граффити

— селфи из фотобудки

— здания Фрэнка Гери

— рамен

— винные этикетки

— городские пейзажи

— художественные портреты

— покемоны

— логотипы

— текстуры Doom

Широкий спектр возможностей StyleGAN

Рецепты по фотографии — Inverse Cooking

Однако для того, чтобы запустить этот код, придётся немного повозиться:

  • Сначала нужно зайти в репозиторий исследования на GitHub. В нём нужно нажать на кнопку Colab: вы перенесётесь в сервис от Google, который позволит запустить код в облаке.
  • Затем нужно провести тестовый запуск кода, открыв вкладку Runtime и выбрав там Run all.
  • После этого сервис выдаст результаты для тестовых изображений. Чтобы заменить их на другие, нужно прописать в коде свои ссылки на картинки (через запятые и в кавычках).
  • Теперь нужно снова запустить код (с помощью команды Run All).

Можете приступать к готовке.

Понять, как это работает: специализация по Data Science на Яндекс. Практикуме

Для девушки это не  просто проверка возможностей искусственного интеллекта

Всё, что мы видим, является интерпретацией окружающего мира нашим мозгом. Человек не имеет доступа к реальности иначе как через этот сконструированный образ. Мозг создаёт свою реальность, но нельзя называть это обманом. Нейробиологи говорят, что нейронные сети в некоторых аспектах похожи на зрительную систему, и для меня этот проект — уникальная возможность увидеть, как мир меняется в чьём-то сознании, пусть и искусственном.