Los datos de alta calidad pueden ser la clave para una inteligencia artificial de alta calidad. Estudios han encontrado que la curación de conjuntos de datos, más que su tamaño, es lo que realmente afecta el rendimiento de un modelo de IA. Por eso, cada vez se presta más atención a las prácticas de gestión de datos. Según algunas encuestas, los investigadores de IA pasan mucho tiempo preparando y organizando datos.
Los hermanos Vahan y Tigran Petrosyan experimentaron la dificultad de gestionar grandes volúmenes de datos mientras entrenaban algoritmos en la universidad. Vahan incluso creó una herramienta de gestión de datos durante su investigación de doctorado sobre segmentación de imágenes. Años después, se dio cuenta de que desarrolladores y empresas estarían dispuestos a pagar por herramientas similares. Así, fundaron la empresa SuperAnnotate para desarrollarlas.
“Durante la explosión de innovación en 2023 en torno a modelos y IA multimodal, la necesidad de conjuntos de datos de alta calidad se volvió más estricta, con cada organización teniendo múltiples casos de uso que requieren datos especializados”, comentó Vahan. “Vimos una oportunidad para construir una plataforma fácil de usar y de bajo código, como una navaja suiza para los datos de entrenamiento de IA modernos”.
SuperAnnotate, que cuenta con clientes como Databricks y Canva, ayuda a los usuarios a crear y gestionar grandes conjuntos de datos para entrenar IA. Inicialmente, la startup se centró en software de etiquetado, pero ahora ofrece herramientas para ajustar, iterar y evaluar conjuntos de datos.
Con la plataforma de SuperAnnotate, los usuarios pueden conectar datos de fuentes locales y de la nube para crear proyectos de datos en colaboración con sus compañeros. Desde un panel de control, pueden comparar el rendimiento de los modelos según los datos utilizados para entrenarlos y desplegar esos modelos en diferentes entornos una vez que estén listos. Además, SuperAnnotate ofrece a las empresas acceso a un mercado de trabajadores para tareas de anotación de datos.
Las anotaciones son textos que etiquetan el significado o partes de los datos en los que se entrenan los modelos, y sirven como guías para “enseñar” a los modelos a distinguir cosas, lugares e ideas. Sin embargo, hay varios hilos en Reddit sobre el trato de SuperAnnotate a los anotadores de datos, y no son halagadores. Los anotadores se quejan de problemas de comunicación, expectativas poco claras y bajos salarios. Por su parte, SuperAnnotate afirma que paga tarifas justas y que sus exigencias no son inusuales en la industria. Hemos solicitado a la empresa más información sobre sus prácticas y actualizaremos este artículo si recibimos respuesta.
Existen varios competidores en el espacio de gestión de datos de IA, incluyendo startups como Scale AI, Weka y Dataloop. Sin embargo, SuperAnnotate, con sede en San Francisco, ha logrado mantenerse firme, recaudando recientemente 36 millones de dólares en una ronda de financiamiento Serie B liderada por Socium Ventures, con la participación de Nvidia, Databricks Ventures, Play Time Ventures y Defy.vc. Este nuevo capital, que eleva el total recaudado por SuperAnnotate a poco más de 53 millones de dólares, se utilizará para aumentar su equipo actual de alrededor de 100 personas, para investigación y desarrollo de productos, y para expandir su base de clientes de aproximadamente 100 empresas. “Nuestro objetivo es construir una plataforma capaz de adaptarse completamente a las necesidades cambiantes de las empresas y ofrecer una amplia personalización en el ajuste de datos”, concluyó Vahan.