MapMakers - Исследования подтвердили, что без человека ИИ тупеет от 29.08.2024

Эксперты прогнозируют, что ажиотаж вокруг генеративного искусственного интеллекта скоро закончится из-за так называемого «кризиса моделей» (model collapse).

Это понятие стали использовать еще в 2023 году, но популярность оно обрело совсем недавно. Его используют для описания реального кризиса, связанного с тем, что в интернете растет количество данных, сгенерированных ИИ. Это, как ни парадоксально, ведет к тому, что модели тупеют и со временем будут становиться еще тупее.

Потребность в данных

Современные ИИ-модели созданы с использованием машинного обучения. Разработчики закладывают базовую математическую структуру, а затем «интеллект» работает по принципу подражания закономерностям, которые он почерпнул из большого объема данных.

Для обучения ИИ-моделей в принципе подходят не все данные. А на сегодняшнем уровне их развития остро нужны данные высокого качества, причем в большом количестве. Чтобы получить их, крупные технологические компании, такие как OpenAI, Google и Meta (признана экстремистской организацией и запрещена в РФ. — Прим. РБК Pro), собирают терабайты интернет-контента.

Но есть нюанс: с 2022 года количество доступных всем ИИ-инструментов неуклонно растет. Люди активно используют его, поэтому в интернете появляется все больше контента, созданного с использованием ИИ.

Поэтому в 2023 году ученые решили проверить, что будет, если обучить модель только на данных, сгенерированных ИИ. Это сильно упростило бы создание новых систем и инструментов, ведь контент, созданный ИИ, гораздо дешевле «человеческого», а потенциальных этических и юридических проблем при его использовании меньше.

Но, похоже, близкие «родственные» связи опасны для эволюции не только человека, но и технологий. Исследователи обнаружили, что для развития ИИ нужны качественные данные, созданные человеком, потому что системы, обучаясь друг у друга, «тупеют»: снижается качество ответов (польза, безопасность и правдивость) и растет уровень предвзятости (модели без участия человека плохо чувствуют нюансы социальных и культурных различий).

Проще говоря, если мы будем продолжать активно использовать контент, сгенерированный ИИ, для обучения моделей, то уйдем в противоположную сторону от цели сделать эту технологию более полезной.

Попытки избежать «кризиса»

Технологические компании тратят много времени и денег на фильтрацию интернет-контента. Один из представителей отрасли поделился, что при обучении моделей они отбраковывают до 90% изначально собранных данных.

Скоро станет еще сложнее: количество сгенерированного ИИ контента растет, и его становится все труднее отличить от «человеческого». Компаниям придется вкладывать больше средств в фильтрацию и удаление синтетических данных из датасетов, из-за чего обучение моделей может стать финансово невыгодным.

Как уже было сказано выше, исследования показывают, что от данных, созданных человеком, отказываться нельзя. Это то, что делает искусственный интеллект именно интеллектом.

Ждать ли катастрофы

Впрочем, разработчики уже заметили, что подбирать качественные данные стало сложнее.

Например, в техническом отчете, приуроченном к релизу GPT-4, указано рекордное число сотрудников, работавших с данными для проекта.

Если объем ИИ-контента растет, то люди, наоборот, производят его все меньше. По некоторым оценкам, запас текстов, созданных людьми, которые нужны, чтобы продолжать обучать ИИ-модели, может закончиться уже к 2026 году.

Вероятно, именно поэтому OpenAI и другие компании так стремятся сейчас сотрудничать с такими гигантами информационной индустрии, как Shutterstock, Associated Press и NewsCorp, — у них есть огромные архивы текстов, написанных людьми, которых не найти в открытом доступе.

Но возможно, что «кризис моделей» не настанет. Исследователи рассмотрели лишь примеры, когда все данные для обучения были синтетическими. На практике, вероятно, будут использовать и «человеческие», и сгенерированные ИИ-тексты. А это уже уменьшает вероятность кризиса.

К тому же, скорее всего, в будущем появится целая экосистема разнообразных платформ генеративного ИИ. Пользователи будут создавать и публиковать контент с помощью разных инструментов, а не какой-то одной модели. Это тоже своего рода гарантия от краха: если одна платформа выйдет из строя, другие будут продолжать работать.

Поэтому регулирующие органы должны поощрять здоровую конкуренцию, ограничивать монополии и финансировать разработку технологий в сфере ИИ.

Реальные проблемы

Изобилие контента, сгенерированного ИИ, опасно еще по одной причине. Он угрожает цифровому общественному благу — существованию интернета в том виде, к которому мы привыкли.

Например, исследователи обнаружили, что через год после появления ChatGPT активность на StackOverflow (сайт для программистов) упала на 16%. Это значит, что использование ИИ ведет к снижению онлайн-взаимодействия между людьми.

К тому же появляется все больше «кликбейтного» контента, напичканного рекламой. Поэтому, как уже не раз подчеркивали эксперты, чтобы отличить контент, созданный человеком, от сгенерированного ИИ, необходимо добавлять водяные знаки или какую-то другую маркировку. Власти Австралии, например, уже заявили, что хотят закрепить это правило на законодательном уровне.

Еще одна проблема контента, сгенерированного ИИ, — он однотипный. Если его станет еще больше, то общество рискует потерять социокультурное разнообразие, а практики некоторых сообществ вообще могут забыться. Исследователям определенно нужно разбираться с этим как можно скорее, чтобы избежать возможных проблем.

Взаимодействие между людьми и данные, которые мы создаем, — большая ценность. Важно сохранить и защитить их — и для нас самих, и для продолжения развития ИИ-моделей.

Этот материал был впервые опубликован в журнале Fast Company или на сайте https://www.fastcompany.com/. Оригинал статьи можно прочитать по ссылке. © 2024. Все права защищены. Материал предоставлен Tribune Content Agency.

Новости

Исследования подтвердили, что без человека ИИ тупеет

Потребность в данных

Попытки избежать «кризиса»

Ждать ли катастрофы

Реальные проблемы