whatsappCompartir facebookCompartir twitterTwittear emailE-mail
copiarCopiar url
Share 12
VIVIRTEC
Campaña Robot Eilik mayo 2024
Campaña Robot Eilik mayo 2024
Campaña Robot Eilik mayo 2024

El agotamiento de datos en Internet podría frenar el avance de la IA

El contenido textual público, crucial para entrenar IA, podría agotarse entre 2026 y 2032, amenazando el progreso de estos modelos.

El agotamiento de datos en Internet podría frenar el avance de la IA
El agotamiento de datos en Internet podría frenar el avance de la IA

Un nuevo estudio publicado por Epoch AI advierte que los sistemas de inteligencia artificial como ChatGPT podrían enfrentar una crisis de datos en los próximos años. Según el informe, el volumen de contenido textual disponible públicamente, esencial para el entrenamiento de estos modelos, podría agotarse entre 2026 y 2032. Este fenómeno, descrito como una “fiebre del oro” que agota recursos limitados, plantea desafíos significativos para el desarrollo continuo de la inteligencia artificial.

Tamay Besiroglu, uno de los autores del estudio, destaca que la situación se asemeja a la explotación de recursos naturales finitos. La disminución en la disponibilidad de datos podría ralentizar el progreso de la IA, obligando a las empresas a buscar fuentes de datos alternativas y potencialmente privadas, como correos electrónicos y mensajes de texto, o a depender de datos generados artificialmente, que suelen ser menos confiables.

En el corto plazo, compañías tecnológicas como OpenAI y Google están intensificando sus esfuerzos para adquirir datos de alta calidad. Estas empresas han establecido acuerdos para acceder a contenido de plataformas como Reddit y medios de comunicación. Sin embargo, la previsión a largo plazo sugiere que la oferta de nuevos blogs, artículos y comentarios en redes sociales será insuficiente para sostener el ritmo actual de desarrollo de la IA, según el análisis de Epoch AI.

El estudio también menciona que, a pesar de los avances en técnicas de entrenamiento y el uso intensivo de datos, hay límites en cuanto a la cantidad de información útil que se puede obtener. Con la creciente utilización de datos sintéticos, existe el riesgo de que estos modelos se entrenen con información de menor calidad, lo que podría llevar a una degradación del rendimiento y a la integración de errores y sesgos existentes en el contenido.

La situación ha llevado a una reflexión sobre la gestión de los recursos de datos. Aunque algunas entidades han intentado restringir el uso de sus datos, Wikipedia ha mantenido políticas más abiertas. En el futuro, el desafío será asegurar que los datos generados por humanos sigan siendo accesibles y de alta calidad, mientras se exploran nuevas estrategias para entrenar los modelos de IA de manera efectiva.