Hola a todos, bienvenidos al boletín semanal de IA de TechCrunch. Esta semana, los datos sintéticos han cobrado relevancia. OpenAI presentó Canvas, una nueva forma de interactuar con ChatGPT, su plataforma de chatbot impulsada por IA. Canvas ofrece un espacio de trabajo para escribir y programar. Los usuarios pueden generar texto o código en Canvas y, si es necesario, resaltar secciones para editarlas con ChatGPT. Desde la perspectiva del usuario, Canvas mejora significativamente la experiencia. Lo más interesante de esta función es el modelo ajustado que la impulsa. OpenAI afirma que personalizó su modelo GPT-4o utilizando datos sintéticos para “permitir nuevas interacciones de usuario” en Canvas.
OpenAI no es la única empresa de tecnología que utiliza datos sintéticos para entrenar sus modelos. Meta, al desarrollar Movie Gen, un conjunto de herramientas de IA para crear y editar clips de video, también utilizó subtítulos sintéticos generados por una variante de sus modelos Llama 3. Aunque reclutaron un equipo de anotadores humanos para corregir errores y agregar detalles, gran parte del trabajo fue automatizado. El CEO de OpenAI, Sam Altman, ha argumentado que algún día la IA producirá datos sintéticos lo suficientemente buenos como para entrenarse a sí misma, lo que sería beneficioso para empresas como OpenAI, que gastan mucho en anotadores humanos y licencias de datos.
Sin embargo, adoptar un enfoque basado en datos sintéticos conlleva riesgos. Los modelos que generan datos sintéticos pueden inventar información y tener sesgos. Estos defectos se reflejan en los datos generados. Usar datos sintéticos de manera segura requiere una curaduría y filtrado exhaustivos, como se hace con los datos generados por humanos. No hacerlo podría llevar a un colapso del modelo, donde se vuelve menos “creativo” y más sesgado en sus resultados, comprometiendo su funcionalidad. Esto no es una tarea fácil a gran escala, pero con los datos de entrenamiento del mundo real volviéndose más costosos y difíciles de obtener, los proveedores de IA pueden ver los datos sintéticos como la única opción viable. Esperemos que actúen con precaución al adoptarlos.
En otras noticias, Google comenzará a mostrar anuncios en sus resúmenes generados por IA para ciertas búsquedas. Además, Google Lens ha sido mejorado para responder preguntas en tiempo real sobre el entorno a través de videos. Tim Brooks, uno de los líderes del generador de videos Sora de OpenAI, se ha unido a Google DeepMind para trabajar en tecnologías de generación de video. Black Forest Labs ha lanzado una API en beta y un nuevo modelo para su asistente Grok.
California ha aprobado una ley que exige a las empresas de IA generativa publicar un resumen de los datos utilizados para entrenar sus sistemas, aunque pocas empresas han indicado si cumplirán con esto.
Investigadores de Apple han estado trabajando en fotografía computacional, enfocándose en la estimación de profundidad sin necesidad de sensores costosos. Un nuevo método permite estimar la profundidad con una sola cámara, sin requerir entrenamiento específico. Google ha lanzado un nuevo modelo en su familia Gemini, el Gemini 1.5 Flash-8B, que promete ser más eficiente y económico.
Anthropic también ha lanzado una nueva función, Message Batches API, que permite a los desarrolladores procesar grandes cantidades de consultas de modelos de IA de manera más económica. Esta API es ideal para tareas a gran escala, como el análisis de conjuntos de datos.