OpenAI y la empresa de datos de entrenamiento Handshake AI están solicitando a contratistas externos que carguen trabajo real que hayan realizado en empleos anteriores y actuales, según reveló un informe de Wired. Esta práctica forma parte de una estrategia más amplia entre las compañías de inteligencia artificial para generar datos de entrenamiento de alta calidad que eventualmente permitan a sus modelos automatizar más tareas de cuello blanco.
De acuerdo con el reporte, una presentación corporativa de OpenAI pide a los contratistas que describan tareas que han desempeñado en otros trabajos y que suban ejemplos de “trabajo real en el empleo” que hayan realizado efectivamente. La empresa especifica que los contratistas deben compartir documentos concretos, no resúmenes, incluyendo archivos de Word, PDF, PowerPoint, Excel, imágenes o repositorios de código.
Medidas de protección para datos sensibles en el entrenamiento de inteligencia artificial
OpenAI instruye a los contratistas que eliminen información propietaria e identificable personalmente antes de cargar los archivos, según indica el informe. Para facilitar este proceso, la compañía dirige a los trabajadores hacia una herramienta de ChatGPT llamada “Superstar Scrubbing” diseñada específicamente para limpiar datos sensibles de los documentos.
Sin embargo, expertos legales han expresado preocupaciones sobre este enfoque. Evan Brown, abogado especializado en propiedad intelectual, declaró a Wired que cualquier laboratorio de inteligencia artificial que adopte esta metodología “se está exponiendo a un gran riesgo” con un sistema que requiere “mucha confianza en sus contratistas para decidir qué es y qué no es confidencial”.
Riesgos de confidencialidad y propiedad intelectual
El método plantea interrogantes significativas sobre la protección de información corporativa sensible. Aunque OpenAI proporciona herramientas para eliminar datos confidenciales, la responsabilidad final recae en los contratistas individuales para identificar y eliminar apropiadamente material protegido antes de compartirlo con la plataforma de entrenamiento de inteligencia artificial.
Esta dependencia en el criterio humano introduce una variable de riesgo considerable, especialmente considerando que los contratistas pueden no estar completamente familiarizados con las políticas de confidencialidad de sus empleadores anteriores o actuales. Additionally, documentos que parecen inofensivos podrían contener información estratégica o metodologías propietarias no evidentes a primera vista.
Estrategia industrial para mejorar datos de entrenamiento
La iniciativa de OpenAI se enmarca dentro de una tendencia más amplia en la industria tecnológica. Múltiples empresas de inteligencia artificial están contratando trabajadores externos para producir conjuntos de datos especializados y de mayor calidad que puedan mejorar las capacidades de sus modelos en tareas profesionales complejas.
Este enfoque representa un cambio respecto a métodos anteriores de recopilación masiva de datos públicos de internet. Las compañías buscan ahora ejemplos auténticos de trabajo profesional que reflejen los estándares y formatos utilizados en entornos corporativos reales, lo que teóricamente permitiría a los sistemas de inteligencia artificial replicar con mayor precisión el trabajo de oficina.
Un portavoz de OpenAI declinó hacer comentarios cuando fue contactado sobre el reporte. La ausencia de declaraciones oficiales deja sin aclarar aspectos importantes sobre las salvaguardas específicas implementadas o las consecuencias potenciales si se filtra información confidencial a través de este programa.
La evolución de esta práctica dependerá probablemente de si surgen incidentes relacionados con violaciones de confidencialidad y de cómo respondan los reguladores ante estas metodologías de recopilación de datos. Mientras tanto, las empresas que han empleado a estos contratistas podrían necesitar revisar sus acuerdos de confidencialidad y evaluar posibles exposiciones de información propietaria a través de estos canales de entrenamiento de inteligencia artificial.

