Con la irrupción de la Inteligencia Artificial (IA) y el Aprendizaje Automático en las herramientas forenses (lo que en la industria se conoce como TAR - Technology Assisted Review), el paradigma de búsqueda ha cambiado. Ya no dependemos exclusivamente de búsquedas sintácticas (palabras clave aisladas), sino de búsquedas semánticas y contextuales. La IA puede detectar el uso de lenguaje codificado, sinónimos, expresiones que reemplazan a otras, cambios inusuales en el tono de los correos, o identificar, por ejemplo, que cuando dos ejecutivos hablan de "entregar los zapatos", en realidad podrían estar coordinando el pago de un soborno.
Sin embargo, surge un dilema jurídico no menor. Si la IA necesita procesar el volumen total de las comunicaciones para entender estos contextos, ¿no estamos violando el principio legal de Minimización de Datos que exige "extraer exclusivamente lo necesario"?
La jurisprudencia y los estándares de Compliance concilian esta aparente contradicción basándose en tres pilares:
1. La máquina lee, el humano no: La Delegación Algorítmica
El daño a la privacidad no ocurre cuando un algoritmo matemático procesa información en un servidor cerrado y seguro, porque procesa ceros y unos. El daño real ocurre cuando un ser humano (el investigador) lee información íntima, médica o personal del empleado que no tiene relación con el caso. De hecho, si lo pensamos bien, la IA potencia la protección a la privacidad. En la búsqueda tradicional por palabras clave, procurar el término "fiesta" (buscando un evento de soborno) arrojaría tal vez cientos de falsos positivos obligando al investigador a leer correos personales sobre los cumpleaños de los hijos del empleado. La IA, al entender el contexto, descarta los correos familiares automáticamente y solo eleva a la pantalla del investigador los correos donde "fiesta" se asocia a transacciones comerciales o reuniones anómalas. La IA actúa como un escudo que filtra lo irrelevante antes de que el ojo humano lo contamine.
2. El límite temporal: Los Filtros Objetivos de Primera Línea
Que la IA sea capaz de buscar contextos no le da vía libre al investigador para revisar toda la historia de vida del empleado. El protocolo legal exige un modelo de embudo mediante el cual el primer filtro sigue siendo estrictamente temporal y jurisdiccional. Si la denuncia enmarca el fraude en el primer trimestre de 2024, el equipo forense acota la ingesta de datos a ese período específico. El motor de IA se activa para analizar contextos, pero solo dentro de ese perímetro temporal. El investigador sigue sin tener justificación para alimentar a la IA con los correos del año 2022, a menos que el análisis del 2024 revele evidencias de que el esquema delictivo viene de años anteriores (lo que justificaría legalmente la ampliación del alcance).
3. Trazabilidad y Explicabilidad
Para que el uso de IA sea válido ante un juez o un regulador de protección de datos (y tal como lo exige el RGPD), la herramienta no puede ser una caja negra que arroja resultados de manera mágica. La organización debe poder explicar por qué la IA seleccionó un documento. Las plataformas modernas de TAR utilizan el aprendizaje activo continuo (Continuous Active Learning). El investigador entrena a la máquina indicándole "Este correo es un ejemplo de fraude, y este otro es un correo personal legítimo". La máquina aprende el contexto y busca patrones similares. La legalidad se sustenta en que el algoritmo fue entrenado bajo parámetros estrictamente vinculados a la denuncia original, demostrando que no se realizó una expedición de pesca indiscriminada. Aquí nace un nuevo problema que se irá resolviendo con el tiempo, y radica en que se necesitan modelos pre entrenados para que una investigación sea eficiente, además de eficaz.
En síntesis, la inteligencia artificial no elimina el principio de minimización de datos; lo evoluciona. Cambia la minimización basada en la "ceguera de palabras clave" por una minimización más adaptada a las necesidades de expertos que hacen uso de IA, basada en la precisión contextual, logrando que el investigador humano vea mucha menos información privada, pero descubra mucha más verdad corporativa.
El caso Livingston v. City of Chicago, No. 16 CV 10156 (N.D. Ill. Sept. 3, 2020) es un precedente real y sumamente citado en el derecho tecnológico estadounidense, y, además, al no ser tan nuevo nos habla más de la lógica aplicable que de la disrupción tecnológica. En este litigio, los demandantes intentaron obligar a la ciudad de Chicago a utilizar un protocolo de búsqueda tradicional o a someterse a sus propias reglas para el uso de software. No obstante, la Corte Federal del Distrito Norte de Illinois con muy buen criterio falló a favor de la ciudad, validando su derecho a utilizar el aprendizaje activo para analizar y filtrar los correos electrónicos. En este sentido, el tribunal reafirmó que la parte que produce la información es quien está mejor posicionada para decidir qué tecnología y metodología utilizar para buscar sus propios datos.
Y en estas latitudes … ¿Están los jueces y reguladores preparados para estos nuevos desafíos?
Citas
(*) Socio de BDO en Argentina a cargo de las prácticas de Compliance & Forensics
Opinión
Xtrategia Group
opinión
ver todosKabas & Martorell
Ce Barrero



















































































































