En una sesión de preguntas y respuestas en Reddit, Sam Altman, CEO de OpenAI, admitió que la falta de capacidad de computación es un factor importante que impide a la empresa lanzar productos con la frecuencia que desearía. Altman explicó que los modelos de inteligencia artificial se han vuelto bastante complejos y que enfrentan muchas limitaciones y decisiones difíciles sobre cómo asignar su capacidad de computación a diversas ideas.
Varios informes indican que OpenAI ha tenido dificultades para asegurar la infraestructura de computación necesaria para ejecutar y entrenar sus modelos generativos. Esta semana, Reuters, citando fuentes, informó que OpenAI ha estado trabajando con Broadcom durante meses para crear un chip de inteligencia artificial que podría estar listo para 2026.
Debido a esta limitada capacidad, Altman mencionó que la función de conversación realista de ChatGPT, llamada Modo de Voz Avanzado, no recibirá las capacidades visuales que se anunciaron en abril en el corto plazo. En ese evento, OpenAI mostró la aplicación de ChatGPT funcionando en un teléfono inteligente y respondiendo a cosas, como la ropa que llevaba puesta una persona, a la vista de la cámara del teléfono. Sin embargo, se reveló que la demostración fue apresurada para desviar la atención de la conferencia de desarrolladores de Google que se celebraba esa misma semana. Muchos dentro de OpenAI no creían que GPT-4o estuviera listo para ser presentado, y la versión solo de voz del Modo de Voz Avanzado se retrasó durante meses.
En la sesión de preguntas y respuestas, Altman indicó que no hay un cronograma de lanzamiento para la próxima gran versión del generador de imágenes de OpenAI, DALL-E. Mientras tanto, Sora, la herramienta de generación de videos de OpenAI, ha sido retrasada por la necesidad de perfeccionar el modelo y garantizar la seguridad y otros aspectos, según Kevin Weil, director de producto de OpenAI, quien también participó en la AMA. Se ha informado que Sora ha enfrentado contratiempos técnicos que la colocan en desventaja frente a sistemas rivales como Luma y Runway. Según The Information, el sistema original, revelado en febrero, tardó más de 10 minutos en procesar un clip de video de 1 minuto.
En octubre, uno de los co-líderes de Sora, Tim Brooks, se unió a Google. Más adelante en la AMA, Altman mencionó que OpenAI aún está considerando permitir contenido “NSFW” en ChatGPT “algún día”, afirmando que creen en tratar a los usuarios adultos como adultos. Además, la principal prioridad de la empresa es mejorar su serie de modelos de razonamiento o1 y sus sucesores. OpenAI presentó varias características que llegarán a o1 en su conferencia DevDay en Londres esta semana, incluyendo la comprensión de imágenes. Altman concluyó diciendo: “Tenemos lanzamientos muy buenos programados para más adelante este año, aunque nada que llamaremos GPT-5”.