Moonbounce, una startup fundada por ex empleados de Apple y Facebook, anunció el viernes que ha recaudado 12 millones de dólares para expandir su plataforma de moderación de contenido impulsada por inteligencia artificial. La ronda de financiación fue co-liderada por Amplify Partners y StepStone Group, según reveló TechCrunch en exclusiva. La compañía desarrolló un sistema que convierte políticas de moderación en código ejecutable capaz de analizar y actuar sobre contenido problemático en menos de 300 milisegundos.
Brett Levenson, director ejecutivo de Moonbounce, fundó la empresa tras identificar deficiencias críticas durante su tiempo liderando la integridad empresarial en Facebook después del escándalo de Cambridge Analytica. La startup actualmente procesa más de 40 millones de revisiones diarias para más de 100 millones de usuarios activos en diversas plataformas, incluyendo aplicaciones de citas, compañías de IA y generadores de imágenes.
El problema estructural de la moderación de contenido tradicional
Cuando Levenson llegó a Facebook en 2019, descubrió que los revisores humanos debían memorizar documentos de política de 40 páginas traducidos automáticamente y tomar decisiones en aproximadamente 30 segundos por cada pieza de contenido marcado. Según Levenson, estas evaluaciones rápidas eran “ligeramente mejores que un 50% de precisión”, comparable a lanzar una moneda al aire.
Además, este enfoque reactivo permitía que el daño ya hubiera ocurrido días antes de cualquier intervención. La proliferación de chatbots de IA ha intensificado estos desafíos, generando incidentes de alto perfil donde sistemas automatizados proporcionaron orientación sobre autolesiones a adolescentes o permitieron que imágenes generadas por IA evadieran filtros de seguridad.
Cómo funciona la tecnología de moderación de contenido basada en código
Moonbounce implementa lo que Levenson denomina “política como código”, transformando documentos estáticos en lógica ejecutable estrechamente vinculada a la aplicación. La empresa entrenó su propio modelo de lenguaje grande que evalúa políticas de clientes, analiza contenido en tiempo real y ejecuta acciones en menos de 300 milisegundos.
El sistema funciona como una capa de seguridad adicional entre el usuario y la plataforma, independientemente de si el contenido es generado por humanos o por inteligencia artificial. Dependiendo de las preferencias del cliente, puede ralentizar la distribución mientras espera revisión humana o bloquear contenido de alto riesgo inmediatamente.
La compañía actualmente sirve tres verticales principales: plataformas con contenido generado por usuarios como aplicaciones de citas, empresas de IA que construyen personajes o compañeros virtuales, y generadores de imágenes de inteligencia artificial. Entre sus clientes se encuentran Channel AI, Civitai, Dippy AI y Moescape.
Presión legal impulsa demanda de soluciones externas de seguridad
Las empresas de IA enfrentan creciente presión legal y reputacional tras acusaciones de que chatbots han empujado a adolescentes y usuarios vulnerables hacia el suicidio. Plataformas como xAI’s Grok han sido utilizadas para crear imágenes de desnudos no consensuadas, evidenciando fallas en las barreras de protección internas.
Levenson afirmó que las compañías de inteligencia artificial buscan cada vez más ayuda externa para reforzar su infraestructura de seguridad. El ejecutivo de confianza y seguridad de Tinder explicó recientemente cómo la plataforma de citas logró una mejora de 10 veces en la precisión de detecciones utilizando servicios impulsados por modelos de lenguaje grande.
“La moderación de contenido siempre ha sido un problema que afecta a grandes plataformas en línea, pero ahora con modelos de lenguaje en el corazón de cada aplicación, este desafío es aún más desalentador”, dijo Lenny Pruss, socio general de Amplify Partners, en un comunicado.
Nuevas capacidades para redirigir conversaciones peligrosas
El equipo de 12 personas de Moonbounce, co-liderado por Levenson y su ex colega de Apple Ash Bhardwaj, desarrolla actualmente una capacidad llamada “dirección iterativa”. Esta función responde a casos como el suicidio en 2024 de un adolescente de Florida que se obsesionó con un chatbot de Character AI.
En lugar de rechazos abruptos cuando surgen temas dañinos, el sistema interceptaría conversaciones y las redirigiría, modificando instrucciones en tiempo real para empujar al chatbot hacia respuestas más activamente solidarias. “Esperamos poder agregar a nuestro conjunto de acciones la capacidad de dirigir el chatbot en una mejor dirección”, explicó Levenson.
La compañía planea expandir estas capacidades mientras mantiene su independencia. Levenson reconoció que Moonbounce encajaría bien en plataformas como Meta, pero expresó preocupación sobre adquisiciones que restrinjan el acceso a la tecnología. El desarrollo de la función de dirección iterativa y la expansión a nuevos verticales definirán la trayectoria de la startup en los próximos meses, mientras la industria tecnológica busca soluciones efectivas para salvaguardar usuarios vulnerables.

