El exempleado de Facebook que construye moderación de contenido para la era de la inteligencia artificial

Moonbounce, una startup fundada por ex empleados de Apple y Facebook, anunció el viernes que ha recaudado 12 millones de dólares para expandir su plataforma de moderación de contenido impulsada por inteligencia artificial. La ronda de financiación fue co-liderada por Amplify Partners y StepStone Group, según reveló TechCrunch en exclusiva. La compañía desarrolló un sistema que convierte políticas de moderación en código ejecutable capaz de analizar y actuar sobre contenido problemático en menos de 300 milisegundos.

Brett Levenson, director ejecutivo de Moonbounce, fundó la empresa tras identificar deficiencias críticas durante su tiempo liderando la integridad empresarial en Facebook después del escándalo de Cambridge Analytica. La startup actualmente procesa más de 40 millones de revisiones diarias para más de 100 millones de usuarios activos en diversas plataformas, incluyendo aplicaciones de citas, compañías de IA y generadores de imágenes.

El problema estructural de la moderación de contenido tradicional

Cuando Levenson llegó a Facebook en 2019, descubrió que los revisores humanos debían memorizar documentos de política de 40 páginas traducidos automáticamente y tomar decisiones en aproximadamente 30 segundos por cada pieza de contenido marcado. Según Levenson, estas evaluaciones rápidas eran “ligeramente mejores que un 50% de precisión”, comparable a lanzar una moneda al aire.

Además, este enfoque reactivo permitía que el daño ya hubiera ocurrido días antes de cualquier intervención. La proliferación de chatbots de IA ha intensificado estos desafíos, generando incidentes de alto perfil donde sistemas automatizados proporcionaron orientación sobre autolesiones a adolescentes o permitieron que imágenes generadas por IA evadieran filtros de seguridad.

Cómo funciona la tecnología de moderación de contenido basada en código

Moonbounce implementa lo que Levenson denomina “política como código”, transformando documentos estáticos en lógica ejecutable estrechamente vinculada a la aplicación. La empresa entrenó su propio modelo de lenguaje grande que evalúa políticas de clientes, analiza contenido en tiempo real y ejecuta acciones en menos de 300 milisegundos.

El sistema funciona como una capa de seguridad adicional entre el usuario y la plataforma, independientemente de si el contenido es generado por humanos o por inteligencia artificial. Dependiendo de las preferencias del cliente, puede ralentizar la distribución mientras espera revisión humana o bloquear contenido de alto riesgo inmediatamente.

La compañía actualmente sirve tres verticales principales: plataformas con contenido generado por usuarios como aplicaciones de citas, empresas de IA que construyen personajes o compañeros virtuales, y generadores de imágenes de inteligencia artificial. Entre sus clientes se encuentran Channel AI, Civitai, Dippy AI y Moescape.

Presión legal impulsa demanda de soluciones externas de seguridad

Las empresas de IA enfrentan creciente presión legal y reputacional tras acusaciones de que chatbots han empujado a adolescentes y usuarios vulnerables hacia el suicidio. Plataformas como xAI’s Grok han sido utilizadas para crear imágenes de desnudos no consensuadas, evidenciando fallas en las barreras de protección internas.

Levenson afirmó que las compañías de inteligencia artificial buscan cada vez más ayuda externa para reforzar su infraestructura de seguridad. El ejecutivo de confianza y seguridad de Tinder explicó recientemente cómo la plataforma de citas logró una mejora de 10 veces en la precisión de detecciones utilizando servicios impulsados por modelos de lenguaje grande.

“La moderación de contenido siempre ha sido un problema que afecta a grandes plataformas en línea, pero ahora con modelos de lenguaje en el corazón de cada aplicación, este desafío es aún más desalentador”, dijo Lenny Pruss, socio general de Amplify Partners, en un comunicado.

Nuevas capacidades para redirigir conversaciones peligrosas

El equipo de 12 personas de Moonbounce, co-liderado por Levenson y su ex colega de Apple Ash Bhardwaj, desarrolla actualmente una capacidad llamada “dirección iterativa”. Esta función responde a casos como el suicidio en 2024 de un adolescente de Florida que se obsesionó con un chatbot de Character AI.

En lugar de rechazos abruptos cuando surgen temas dañinos, el sistema interceptaría conversaciones y las redirigiría, modificando instrucciones en tiempo real para empujar al chatbot hacia respuestas más activamente solidarias. “Esperamos poder agregar a nuestro conjunto de acciones la capacidad de dirigir el chatbot en una mejor dirección”, explicó Levenson.

La compañía planea expandir estas capacidades mientras mantiene su independencia. Levenson reconoció que Moonbounce encajaría bien en plataformas como Meta, pero expresó preocupación sobre adquisiciones que restrinjan el acceso a la tecnología. El desarrollo de la función de dirección iterativa y la expansión a nuevos verticales definirán la trayectoria de la startup en los próximos meses, mientras la industria tecnológica busca soluciones efectivas para salvaguardar usuarios vulnerables.

What's Hot

error code: 524

Murex y Quant se asocian para integrar activos digitales en la infraestructura central de los mercados de capitales

El exempleado de Facebook que construye moderación de contenido para la era de la inteligencia artificial

El problema estructural de la moderación de contenido tradicional

Cómo funciona la tecnología de moderación de contenido basada en código

Presión legal impulsa demanda de soluciones externas de seguridad

Nuevas capacidades para redirigir conversaciones peligrosas

Flipboard lanza nuevos sitios web sociales para ayudar a editores y creadores a conectarse con la red social abierta

Gateway Capital anuncia el primer cierre de su Fondo II por 25 millones de dólares

La misión Artemis II es la última de la NASA a la Luna sin Silicon Valley

Gigante de telesalud Hims & Hers informa que su sistema de atención al cliente fue vulnerado

Amazon impone recargo por combustible a vendedores mientras guerra con Irán perturba mercados energéticos mundiales

OpenAI adquiere TBPN, el programa de negocios dirigido por fundadores que genera expectación

What's Hot

El exempleado de Facebook que construye moderación de contenido para la era de la inteligencia artificial

El problema estructural de la moderación de contenido tradicional

Cómo funciona la tecnología de moderación de contenido basada en código

Presión legal impulsa demanda de soluciones externas de seguridad

Nuevas capacidades para redirigir conversaciones peligrosas

Sigue leyendo