Eliminar discriminación por edad género o raza con IA: Nuestra solución

Alta Gerencia, Dirección Empresarial, Empleo, Planificación Estratégica, Proceso de selección, Reclutamiento

Eliminar discriminación por edad género o raza con IA

En 2018 un estudio mostró tasas de error de hasta 35% en reconocimiento facial para mujeres de piel oscura, frente a menos del 1% en hombres de piel clara. Ese dato revela el alcance del problema y por qué actuamos ahora.

Presentamos una guía práctica para implementar artificial intelligence con controles de fairness desde el diseño. Exponemos cómo los bias aparecen en la cadena de data y modelado, y por qué no es suficiente omitir variables sensibles.

Nuestra propuesta incluye gobernanza, datos diversos, métricas de equidad y auditorías continuas. Buscamos que las organizaciones en Colombia reduzcan riesgos legales y reputacionales, y mejoren resultados con systems responsables y medibles.

Conclusiones clave

  • El problema tiene impacto técnico, social y jurídico; los casos reales lo demuestran.
  • La solución exige controles desde el diseño y datos representativos.
  • Medir bias por subpoblaciones es imprescindible.
  • HR debe integrar supervisión humana y registros auditables.
  • Ofrecemos un checklist trimestral con prioridades y mejoras continuas.

Por qué hoy necesitamos actuar con evidencia del pasado reciente

La acumulación de research entre 2018 y 2025 muestra fallos repetidos en modelos usados en la práctica. Estudios como Buolamwini y Gebru (2018) documentaron brechas de precisión por gender y race, y trabajos de 2024-2025 reportaron que algunos LLMs tomaron decisiones sesgadas ante estereotipos.

Estos hallazgos tienen impacto real en confianza ciudadana y relaciones con grupos de interés en Colombia. Un algoritmo de riesgo sanitario en EE. UU. mostró cómo proxies de gasto generan trato desigual. El caso de anuncios segmentados en 2019 también impulsó cambios de política.

Lecciones clave para la región

  • El resumen de research 2018–2025 evidencia bias sistémicos en systems con efectos diferenciales.
  • Los riesgos reputacionales y legales aumentan si ignoramos señales tempranas de discrimination.
  • Recomendamos tableros con métricas desagregadas para monitoreo continuo y mejores practices.
Study / caso Año Hallazgo clave
Buolamwini & Gebru 2018 Brechas de precisión por gender y race en reconocimiento facial
Algoritmo sanitario (EE. UU.) 2020 Proxy de gasto que favoreció pacientes blancos
LLMs (GPT-4o, Gemini 2.5, Claude 4.5) 2024–2025 Decisiones con bias; algunos modelos evitaron la mayoría de errores

Qué entendemos por sesgo algorítmico y discriminación en sistemas de IA

Definimos el problema como desviaciones sistemáticas que emergen cuando la data o el diseño del algorithm introducen resultados injustos. Estas desviaciones se conocen como bias y afectan la calidad de las decisions automatizadas.

Distinguimos tres orígenes. El sesgo de data nace de muestras no representativas, etiquetado inconsistente o agregación defectuosa. El sesgo de diseño aparece cuando choices técnicas favorecen ciertos outcomes. Los sesgos cognitivos vienen de supuestos de los equipos que se filtran en los algorithms.

Diferencias legales y prácticas

Disparate impact ocurre cuando una práctica neutral genera efectos adversos desproporcionados en clases protegidas. Disparate treatment implica trato intencional distinto por pertenecer a un grupo. La EEOC (2022) aclara cómo el ADA aplica a herramientas automatizadas.

Eliminar variables sensibles no basta: proxies y features correlacionadas replican diferencias por characteristics. La complejidad de la tecnología complica la trazabilidad, por eso proponemos un framework de gobernanza que revise el proceso de data, diseño y validación.

Origen Ejemplo Mitigación
Sesgo de data Muestra poco representativa Ampliar cobertura y reetiquetado
Sesgo de diseño Features proxy Revisión de features y auditoría por subgrupos
Sesgo cognitivo Supuestos del equipo Equipos diversos y pruebas externas

AI ageism: cuando la edad queda fuera del radar

En nuestra revisión identificamos cómo la age suele quedar fuera del radar técnico y social. Eso se traduce en products y services que fallan para personas mayores.

El concepto de AI ageism agrupa cinco formas interconectadas. Primero, hay bias en algoritmos y data: los modelos no reciben suficiente representación de mayores.

Cinco niveles del edadismo

  • Técnico: algoritmos entrenados con poca data de personas mayores, que muestran peor performance.
  • Individual: prejuicios de diseñadores o evaluadores que influyen en features y pruebas.
  • Discurso: la vejez queda invisibilizada en narrativas y research frente a otra category.
  • Grupo: efectos discriminatorios en distintos groups, como filtros de empleo que penalizan trayectorias.
  • Usuario: exclusión en usabilidad: interfaces y servicios que no contemplan necesidades de mayores.

La OMS (2022) advirtió que, si no actuamos, la tecnología puede perpetuar la discrimination y afectar la calidad de la atención y el cuidado social.

Propuesta: incluir a personas mayores en co‑diseño, aumentar la cobertura de data y auditar bias por subgrupos en todos los systems.

Mapa de riesgos en empleo, salud y reconocimiento facial

Mapeamos puntos críticos en empleo, salud y reconocimiento facial que requieren intervención urgente. Nuestro objetivo es mostrar dónde los systems crean impacto diferencial y qué datos y controles son necesarios.

Reconocimiento facial: mayores tasas de error para mujeres con piel oscura

Buolamwini y Gebru (2018) reportaron errores de hasta 35% en mujeres de piel oscura frente a menos del 1% en hombres de piel clara. Esto genera riesgo en seguridad y autenticación, y reduce la confianza de individuos afectados.

Herramientas de RR. HH.: cribados y entrevistas automatizadas con sesgo

En empleo, trabajos 2024–2025 mostraron que LLMs asignaron roles estereotípicos y asumieron culpabilidad en ciertos perfiles. Estas algorithms amplifican bias cuando los datos de entrenamiento no representan a todos los grupos.

Diagnóstico y salud: métricas proxy que excluyen grupos

Un algoritmo de riesgo usó gasto sanitario como proxy de necesidad y favoreció a pacientes blancos. Las métricas proxy reproducen inequidades si no se sustituyen por variables clínicas relevantes.

  • Evaluación por subpoblaciones y pruebas por data desagregada.
  • Recalibración de umbrales y reemplazo de proxies por indicadores clínicos.
  • Políticas internas que encadenen validación técnica y revisión ética previa al despliegue.
  • Reportes periódicos de impacto y medidas correctivas documentadas.

Lo que nos enseñan los casos reales más citados

Tres historias emblemáticas muestran cómo datos históricos y reglas automáticas afectan a applicants reales y generan riesgos legales y reputacionales.

EEOC v. iTutorGroup (2022)

El software rechazaba automáticamente a mujeres ≥55 y hombres ≥60. El acuerdo fue de 365.000 USD y obligó medidas correctivas.

Error técnico: reglas de filtro no auditaron proxies de age. Consecuencia: sanción económica y obligación de supervisión humana.

Amazon (2014–2018)

Un modelo de CVs entrenado en historiales mayoritariamente masculinos penalizó términos asociados a women y a universidades femeninas.

El proyecto se canceló tras descubrirse que la data reprodujo biases históricos, pese a no usar género explícito.

Workday (2025)

Un juez permitió una acción colectiva bajo ADEA por impacto en mayores de 40. Alegaciones señalan rechazos automáticos sin revisión humana.

Esto muestra que la automatización de decisions sin salvaguardas puede gatillar litigios de clase.

  • Lecciones: no usar proxies de age; auditar criterios de puntuación; documentar cambios y resultados.
  • Recomendación para Colombia: evaluar tools de terceros antes del despliegue y exigir registros auditables.

Tipos de sesgo que debemos detectar desde el inicio

Identificamos las categorías de sesgo que suelen aparecer desde la recolección de data hasta la validación del modelo. Detectarlas temprano mejora nuestro proceso y reduce riesgos en despliegue.

Histórico, de muestra y de etiquetado

El sesgo histórico repite decisiones injustas cuando usamos registros pasados. La muestra limitada perjudica la generalización para subpoblaciones y groups.

El etiquetado inconsistente añade ruido y malas señales durante el training y la evaluación.

Agregación, evaluación y cultural/geográfico

  • Agregación: mezclar cohortes oculta diferencias críticas entre grupos.
  • Evaluación: tests no representativos fallan en regiones y contextos culturales distintos.
  • Ontológico y cultural: una sola cosmovisión limita definiciones y outcomes relevantes.

Amplificación del sesgo en bucles de retroalimentación

La evidencia, incluido un estudio UCL 2024, muestra que systems sesgados pueden amplificar preferencias y crear bucles. Rompemos esos ciclos rediseñando pipelines y ajustando algorithms y métricas.

Eliminar discriminación por edad género o raza con IA

Proponemos pasos concretos para que los systems sean justos, medibles y auditables. Nuestro approach integra gobernanza, gestión de data, diseño y validación con métricas de fairness.

Nuestro enfoque paso a paso para sistemas justos y auditables

Planteamos un approach de cuatro fases. Cada fase tiene controles mínimos y entregables claros.

  • Gobernanza: roles, políticas y comités interdisciplinarios para aprobar despliegues.
  • Data: conjuntos representativos, hojas de datos y versionado con trazabilidad.
  • Design y desarrollo: revisión de features para evitar proxies y documentación explicable.
  • Validación: métricas de fairness, auditorías regulares y pruebas por subpoblaciones.

Definimos controles auditable: registros de decisiones, historial de versiones y reportes de impacto. Proponemos checklists de despliegue con criterios de aprobación para grupos en riesgo.

Finalmente, establecemos planes de remediación con responsables y plazos. Alineamos este approach a estándares internacionales y al contexto regulatorio colombiano, citando la prioridad de la EEOC sobre tecnologías emergentes.

Paso cero: gobernanza y propósito social de la IA

A tranquil, symmetrical landscape depicting a framework for fair and ethical AI governance. In the foreground, a gleaming, minimalist structure represents the cornerstones of the framework - transparency, accountability, and social purpose. The middle ground features abstract geometric shapes in muted tones, symbolizing the interconnected principles of fairness, non-discrimination, and inclusive decision-making. In the distance, a softly lit horizon suggests a future where AI is harnessed for the greater good, guided by a clear and purposeful vision. The scene is bathed in a warm, diffused light, conveying a sense of harmony and balance. The overall composition evokes a serene, contemplative mood, inviting the viewer to ponder the importance of responsible AI development.

Antes de desplegar cualquier modelo, debemos definir el propósito social que guiará su uso. Así garantizamos que los systems respondan a objetivos públicos y eviten daños no deseados.

Principios de equidad y transparencia se integran al design desde la concepción. Nuestro framework establece reglas claras sobre acceso y calidad de data, trazabilidad y cumplimiento de law aplicable en Colombia e internacionales.

Roles, responsabilidades y society-in-the-loop

Asignamos dueños de modelo, comité ético, equipos de seguridad y jurídico. Documentamos cada flujo de decisions y rutas de responsabilidad.

Implementamos society-in-the-loop para incluir a grupos afectados en revisiones y pruebas de aceptabilidad. Esto mejora la legitimidad y las métricas de fairness.

  • Políticas de acceso y limpieza de data.
  • Criterios para identificar y remover proxies sensibles.
  • KPIs que vinculan objetivos sociales a resultados técnicos.
  • Trazabilidad del process y registro de auditorías.
Rol Responsabilidad Entregable
Dueño del modelo Aprobación de despliegue y seguimiento Registro de decisiones y plan de remediación
Comité ético Revisión de impacto social Informe de aceptabilidad y veto
Jurídico Cumplimiento normativo Checklist legal y cláusulas contractuales
Representantes comunitarios Validación de pruebas y valores Actas de consulta y ajustes solicitados

Paso uno: datos de entrenamiento diversos y representativos

Garantizar conjuntos de training data representativos es la base para modelos confiables en contextos locales. Sin cobertura suficiente, el machine learning aprende atajos que reflejan la muestra, no la realidad.

Estrategias para reducir sesgo de muestra y cobertura

Definimos cuotas de representación para subpoblaciones y metas de cobertura por characteristics relevantes. Aplicamos muestreo estratificado y recolección focalizada para mejorar la diversidad de data.

Cuando faltan registros, usamos enriquecimiento sintético, pero solo tras validación humana y pruebas de calidad. Esto evita que los biases se introduzcan en el proceso de learning.

Políticas de curación, documentación y versionado

Implementamos data sheets y versionado que registran criterios de inclusión/exclusión, linaje, licencias y consentimiento. Mantener un registro facilita auditoría y transparencia en Colombia.

  • Revisión estadística: missingness, balance y drift para detectar sesgos de selección.
  • Pipelines de actualización continua para mantener el training data vigente.
  • Políticas de curación: trazabilidad, minimización y control de cambios.

Paso dos: diseño y desarrollo con equipo diverso

Para que los modelos funcionen para todas las personas, el design debe integrar voces diversas desde el inicio. Nuestro enfoque incorpora representantes reales en cada fase del data lifecycle y en las pruebas de usuario.

Incluir grupos vulnerables y mayores como relevantes

Involucramos representantes de grupos vulnerables, con énfasis en personas mayores, en investigación y en pruebas piloto. Así detectamos problemas de usabilidad y rendimiento temprano.

En Colombia priorizamos contextos locales: lenguajes, trayectorias laborales y formatos de interacción. Esto mejora la aceptación y reduce fallos en producción.

Evitar proxies de age, gender o race durante el feature engineering

Definimos guías de feature engineering que prohíben proxies conocidos, como años desde graduación o códigos postales, cuando no aporten valor predictivo.

  • Evaluamos interacciones entre variables y removemos features que generan disparities sin aporte clínico o laboral.
  • Estandarizamos revisiones de diseño con checklists de equidad y accesibilidad.
  • Integramos criterios de interpretabilidad para explicar decisiones ante candidates y stakeholders.
  • Documentamos trade-offs y aprobaciones de cambios que afecten la equidad.

Beneficio: equipos diversos reducen la probabilidad de introducir bias a gran escala y generan modelos más robustos para grupos poco representados.

Paso tres: métricas de equidad y pruebas de sesgo antes del despliegue

Definimos métricas claras que nos permitan medir fairness y riesgo antes de poner un modelo en producción.

Seleccionamos indicadores como paridad demográfica, igualdad de oportunidades e igualdad de odds. Cada métrica vincula un umbral operacional y una acción correctiva.

Paridad demográfica, igualdad de oportunidades y métricas correlativas

Medimos resultados y tasas de error por subpoblaciones. Así detectamos diferencias en decisions que afectan applicants y candidates.

Auditorías externas y pruebas A/B controladas por grupo

Implementamos auditorías regulares con terceros independientes. Diseñamos experimentos A/B estratificados para comparar performance y errores por grupo.

Evaluar desempeño por subpoblaciones y ajustar umbrales

Recalibramos umbrales, pérdidas y ponderaciones según los hallazgos. Establecemos criterios de go/no‑go y monitorización post‑despliegue con alarmas frente a drift o aumento de impacto.

Métrica Propósito Método Límite de go/no‑go
Paridad demográfica Equidad en tasas de aceptación Ratio de tasas entre subgrupos Desvío >15% → detener despliegue
Igualdad de oportunidades Compatibilidad en recall positivo Comparación de sensibilidad por subgrupo Brecha >10 puntos → recalibrar umbrales
Igualdad de odds Balance entre FPR y FNR Medición de odds ratio y correlación Odds ratio >1.2 → auditoría externa
Monitorización post‑despliegue Detectar drift y nuevos sesgos Alertas automáticas y reviews periódicos Incremento de errores >20% → rollback

Cuando los modelos son generativos: imágenes, texto y voz sin estereotipos

A vibrant, abstract representation of bias, with intersecting geometric shapes and patterns in a harmonious color palette. The foreground features a central sphere, its surface textured with subtle gradients and distortions, symbolizing the complexities and nuances of bias. The middle ground showcases a series of angled, overlapping planes in complementary hues, creating a sense of depth and dimensionality. The background is rendered in a soft, atmospheric gradient, providing a calming, contemplative backdrop. The overall composition conveys a balance between the rigidity of societal biases and the fluidity of individual perspectives, inviting the viewer to reflect on the subjective nature of preconceptions. Lighting is soft and diffused, evoking a sense of introspection, while the camera angle is slightly tilted to add dynamism and visual interest.

Los modelos que generan imágenes, texto o voz pueden reproducir prejuicios si no se controlan. Benchmarks 2024–2025 mostraron casos donde LLMs inferían culpabilidad basada en race cuando era la única diferencia.

UNDP y UNESCO reportaron que generadores refuerzan estereotipos de gender y subrepresentan a mujeres en STEM. También se detectó sobrerreacción en diversificación en herramientas como Gemini.

Hallazgos recientes en LLMs: sesgos en gender, race, age y sexual orientation

Observamos ejemplos donde roles profesionales se asignaron según estereotipos («doctor» vs «enfermera»). Estos patrones emergen cuando la data de entrenamiento carece de equilibrio.

Controles de seguridad, filtros y evaluación humana en contenido sensible

  • Implementamos filtros de seguridad y bloqueos de prompts para contenidos de alto riesgo.
  • Usamos clasificadores de contenido sensible y evaluaciones humanas en contextos críticos.
  • Curamos data de refuerzo con ejemplos contrabalanceados y red teaming.
  • Medimos representaciones y calibramos sampling para evitar infra y sobrerrepresentación.

Recomendamos documentar limitaciones del modelo y mostrar mensajes de seguridad al usuario final. Así protegemos la confianza en nuestros systems y reducimos bias detectable.

Implementación responsable en RR. HH.: del anuncio al onboarding

Un flujo responsable de hiring exige transparencia en herramientas y supervisión humana en entrevistas asistidas. En Colombia debemos adaptar buenas prácticas legales y técnicas que ya usan grandes empleadores: cerca del 85% integró soluciones automatizadas en procesos de recruitment.

Redacción de vacantes sin sesgo y transparencia sobre herramientas

Redactamos job postings claros y neutrales. Publicamos qué tools se usan y qué datos recoge cada evaluación.

Recomendamos incluir opciones alternativas para applicants que no puedan completar pruebas automatizadas. Así cumplimos con requisitos como los de Illinois y con normas que exigen auditorías en ciudades como NYC.

Entrevistas asistidas por IA con supervisión humana obligatoria

Implementamos entrevistas asistidas que siempre contemplan un revisor humano capaz de anular decisiones automatizadas.

Casos como HireVue y estudios de Melbourne 2025 mostraron problemas para candidates con acentos fuertes o discapacidades del habla. Por eso evaluamos impacto por cohortes y aplicamos acomodaciones cuando sea necesario.

  • Consentimiento informado y alternativas para applicants.
  • Review periódica de performance por subgrupos y reportes internos de equidad.
  • Controles de privacidad, retención mínima de data y acceso restringido.
  • Políticas operativas que permitan anular decisiones y documentar cambios.
Riesgo Medida Responsable
Evaluación sesgada a acentos Prueba humana y ajuste de criterios RR. HH. y comité de equidad
Falta de consentimiento Formulario claro y alternativas Legal y RR. HH.
Retención excesiva de data Política de retención mínima Seguridad de la información

Marco jurídico de referencia y auditorías continuas

Comprender las normas vigentes nos permite diseñar controles que protejan a candidatos y empresas. Leyes federales como Title VII, ADEA, ADA, GINA y Equal Pay Act aplican a decisions humanas y automatizadas. La EEOC publicó en 2022 orientaciones sobre ADA y sistemas automatizados; además, normas locales como Illinois AI Video Interview Act y NYC AEDT exigen auditoría previa y notificación.

Buenas prácticas alineadas con EEOC, ADEA, ADA y normas locales

Mapeamos obligaciones bajo law comparada y las traducimos a prácticas corporativas en Colombia. Recomendamos registros completos de data, justificaciones técnicas de modelos y procesos de review antes del despliegue.

  • Protocolos de transparencia en procesos de employment.
  • Auditorías internas y externas anuales y por cambios sustanciales.
  • Cláusulas contractuales que obliguen a proveedores a entregar documentación.

Registros de decisions, derechos de explicación y vías de apelación

Establecemos registros obligatorios de decisions automatizadas relevantes. Deben incluir linaje de data, métricas por subgrupos y correcciones aplicadas. Ofrecemos derechos de explicación a solicitantes y canales de apelación claros.

Obligación Medida Responsable
Documentar decisions Registro de modelos, versiones y pruebas por subgrupos Dueño del modelo
Auditoría y review Auditorías anuales y por cambios; auditor externo si gap > umbral Comité ético
Defensa ante un case Evidencia: trazabilidad, tests y remediaciones aplicadas Legal

Checklist accionable para equipos en Colombia

Para equipos en Colombia, proponemos un checklist operativo que traduce políticas en acciones claras. Nuestro objetivo es facilitar el diagnóstico, la medición y la corrección rápida de desvíos.

Diagnóstico inicial, métricas mínimas y plan trimestral de revisión

Primero, hacemos un inventario de modelos y flujos de decisions. Esto permite mapear risk y priorizar acciones.

  1. Paso 1: diagnóstico de systems actuales y mapa de riesgos; inventario de modelos y flujos.
  2. Paso 2: definición de métricas mínimas de fairness por caso de uso y umbrales aceptables.
  3. Paso 3: plan trimestral de review con pruebas por subpoblaciones y reporte ejecutivo.
  4. Paso 4: plan de data para cerrar brechas de representación y controles de calidad.
  5. Paso 5: protocolo de respuesta a incidentes de sesgo con responsables y tiempos.
  6. Paso 6: capacitación para equipos técnicos, legales y de negocio en buenas practices.
  7. Paso 7: gobernanza con comité interdisciplinario y calendario de auditorías externas (ej. NYC AEDT exige bias audits anuales).
Elemento Qué medir Frecuencia Responsable
Inventario de modelos Cobertura y flujos de data Inicial y anual Dueño del modelo
Métricas de fairness Tasas y errores por subgrupo Trimestral Equipo de evaluación
Review operativo Drift, alertas y correcciones Continuo Operaciones y seguridad
Respuesta a incidentes Registro, remediación y comunicación Ad hoc Comité ético y Legal

De la promesa a la práctica: cómo empezamos a cambiar nuestros sistemas hoy

Pasamos de la promesa a la acción implementando auditorías tempranas, pilotos controlados y supervisión humana. Actuar ahora reduce riesgo legal y mejora el impacto social y de negocio.

Priorizamos medidas rápidas: apagar reglas de alto riesgo, revisar features proxy y recalibrar umbrales por subpoblaciones. Lanzamos pilotos con métricas de fairness y objetivos claros.

Fortalecemos la cultura interna con formación para detectar bias y acordes contractuales que obligan a proveedores a transparencia técnica. Establecemos una hoja de ruta anual para mejorar data y medir reducción de discrimination.

Invitamos a academia y sociedad civil a un consejo asesor. Así convertimos nuestro approach en resultados verificables que generan impacto real en Colombia.