Чтобы выявить, сколько онлайн-данных существует в сети, ученые использовали веб-индекс Google. В ходе расчетов они обнаружили, что в настоящее время существует около 250 миллиардов веб-страниц, содержащих по 7000 байт текста. Затем исследователи провели анализ трафика интернет-протокола IP — потока данных в сети, в котором отражены сведения о активности пользователей.
Специалисты смогли спрогнозировать, когда ИИ сможет использовать все доступные данные. Современные модели, которые постоянно обучаются, будут брать информацию из надежных источников не позднее 2032 года. Текстовая информация низкого качества будет в полном объеме изучена нейросетями с 2030 года по 2050 год. Также технологии смогут использовать все изображения в интернете в период между 2030-2060 годами.
Ученый исследовательского института Epoch AI Пабло Вильялобос утверждает, что для создания более совершенных моделей технологическим компаниям придется искать информацию в других источниках, иначе произойдет стагнация в этой области. Он призывает задуматься, как повысить эффективность моделей, если будет существовать нехватка большого массива свежих данных. Помимо этого, Пабло выразил опасение: без специально сгенерированных для ИИ сведений в будущем, возможно, нейросети будут обращаться к недостоверным источникам или использовать личные данные на серверах, на которых хранятся сообщения электронной почты.
