У всьому світі закінчується запас даних для навчання штучного інтелекту, попереджають дослідники. Це може сильно сповільнити розвиток усієї галузі.
Але чому потенційна нестача даних є проблемою, враховуючи, скільки їх є в Інтернеті? І чи є спосіб усунути ризик?
Про це пише The Conversation, передає НСН.
Запас даних для навчання штучного інтелекту закінчується
Для навчання потужних, точних і якісних алгоритмів ШІ потрібна велика кількість даних. Наприклад, ChatGPT навчався на 570 гігабайтах текстових даних, або близько 300 мільярдах слів.
Алгоритм стабільної дифузії, на якому засновано багато нейромереж для створення зображень, включно з DALL-E, Lensa і Midjourney, навчений на наборі даних LIAON-5B, що складається з 5,8 мільярда пар “зображення-текст”.
Але, якщо алгоритм навчається на недостатній кількості даних, він видаватиме неточні та неякісні результати.
Якість навчальних даних також має велике значення. Низькоякісні дані, як-от повідомлення в соцмережах або фотографії низької роздільної здатності, легко отримати, але їх недостатньо для навчання високоефективних моделей ШІ. Тексти, взяті із соціальних мереж, можуть бути необ’єктивними або упередженими, містити дезінформацію і навіть незаконний контент.
Саме тому розробники ШІ прагнуть використовувати високоякісний контент:
- Книги.
- Інтернет-статті.
- Наукові праці.
- “Вікіпедію”.
Відфільтрований вебконтент та інші подібні тексти, написані та відредаговані, як правило, компетентними людьми.
Індустрія навчає системи ШІ на дедалі ширших наборах даних, тому сьогодні ми маємо такі високоефективні моделі, як ChatGPT або DALL-E 3. Однак запаси даних в інтернеті зростають набагато повільніше, ніж потреби в навчанні штучного інтелекту.
Дослідники пророкують, що при збереженні нинішніх тенденцій у навчанні ШІ високоякісні текстові дані закінчаться вже до 2026 року. Низькоякісні мовні дані будуть вичерпані у 2030-2050 роках, низькоякісні зображення – у 2030-2060 роках.
За оцінками аудиторсько-консалтингової групи PwC, до 2030 року штучний інтелект може принести світовій економіці до 15,7 трильйона доларів. Однак брак придатних для використання даних може загальмувати розвиток галузі. Утім, ситуація може виявитися не такою поганою, як прогнозується.
Що може допомогти
Виправити ситуацію можна, наприклад, завдяки вдосконаленню алгоритмів, що дають змогу ефективніше використовувати вже наявні дані. Цілком імовірно, що найближчими роками розробники зможуть навчати високопродуктивні системи ШІ, використовуючи менший обсяг даних і, можливо, меншу обчислювальну потужність.
Розробники також зможуть дещо розширити кількість доступних матеріалів кількома додатковими шляхами, як-от створення синтетичних даних за допомогою інших ШІ, оцифрування мільйонів текстів, створених пресою до появи інтернету, або ж укладання угод з правовласниками текстового контенту й оплати їм за навчальні дані. Але ясно, що й це рано чи пізно закінчиться.
Читайте ще: Чи може штучний інтелект стати загрозою людству