La startup de inteligencia artificial Mistral ha lanzado una nueva API para la moderación de contenido. Esta API, que también se utiliza en la plataforma de chatbot Le Chat de Mistral, se puede personalizar para diferentes aplicaciones y estándares de seguridad. Está impulsada por un modelo ajustado (Ministral 8B) que clasifica texto en varios idiomas, como inglés, francés y alemán, en nueve categorías: contenido sexual, odio y discriminación, violencia y amenazas, contenido peligroso y criminal, autolesiones, salud, finanzas, leyes e información personal identificable.
La API de moderación se puede aplicar tanto a texto sin procesar como a texto conversacional. Mistral ha señalado que, en los últimos meses, ha habido un creciente interés en la industria y la comunidad de investigación por nuevos sistemas de moderación basados en inteligencia artificial, que pueden hacer que la moderación sea más escalable y robusta en diversas aplicaciones. La empresa afirma que su clasificador de moderación de contenido utiliza las categorías de políticas más relevantes para establecer guardrails efectivos y presenta un enfoque pragmático para la seguridad del modelo, abordando daños generados por el modelo, como consejos no calificados e información personal identificable.
Los sistemas de moderación impulsados por inteligencia artificial son útiles en teoría, pero también son susceptibles a los mismos sesgos y fallos técnicos que afectan a otros sistemas de IA. Por ejemplo, algunos modelos diseñados para detectar toxicidad pueden interpretar frases en el inglés vernáculo afroamericano (AAVE), que es una forma de gramática informal utilizada por algunos afroamericanos, como desproporcionadamente “tóxicas”. Además, publicaciones en redes sociales sobre personas con discapacidades podrían ser marcadas como más negativas o tóxicas por modelos de detección de sentimientos y toxicidad comúnmente utilizados.
Mistral asegura que su modelo de moderación es altamente preciso, aunque también admite que está en desarrollo. La empresa ha indicado que está trabajando con sus clientes para construir y compartir herramientas de moderación escalables, ligeras y personalizables, y continuará colaborando con la comunidad de investigación para contribuir a los avances en seguridad en este campo.