Reconocimiento facial ilícito: cuando la investigación se convierte en superficie de ataque

Punto de partida

En investigación digital existe una distorsión peligrosa que suele pasar desapercibida; la idea de que si una herramienta funciona, entonces puede utilizarse. Ese es el punto donde se rompe el criterio.

Eso es lo que está ocurriendo con las APIs clandestinas de reconocimiento facial.

No se trata únicamente de una discusión legal o ética; se trata de un problema técnico real que impacta directamente al analista. La búsqueda de identidad, cuando se realiza sobre infraestructuras alimentadas por datos robados, deja de ser un proceso de investigación y pasa a ser una interacción con un sistema que no se controla.

Y en ese punto, la superficie de ataque cambia.

Cómo funciona realmente el reconocimiento facial

Desde una perspectiva técnica, estos sistemas no son simples buscadores de imágenes. Operan mediante modelos de inteligencia artificial que convierten un rostro en una representación matemática; un embedding facial que captura distancias, proporciones y patrones únicos.

La plataforma recibe una fotografía enviada por el usuario.
El sistema detecta el rostro y extrae puntos faciales relevantes.
Esos puntos se transforman en un vector biométrico o embedding.
El embedding se compara contra millones de registros previamente indexados.
La API devuelve coincidencias con identidad asociada, documentos y, en algunos casos, registros adicionales.

El proceso es eficiente, escalable y altamente preciso cuando se implementa correctamente.

Pero aquí aparece la diferencia crítica.

Estas APIs no están entrenadas ni operan sobre datasets legítimos.

Están alimentadas por información obtenida ilícitamente; bases de datos extraídas de sistemas como RENIEC, SIDPOL o registros de telecomunicaciones, integradas sin consentimiento, sin trazabilidad y fuera de cualquier marco de protección. Eso significa que cada coincidencia no solo es técnicamente válida, sino legalmente comprometida desde su origen.

El sistema funciona.

Pero su operación es ilegítima.

Cuando investigar expone al investigador

El flujo comienza como cualquier tarea operativa; una imagen, una consulta, una necesidad de identificar. El sistema responde en segundos, devuelve coincidencias, nombres, documentos, vínculos.

Funciona.

Ese es el problema.

Porque mientras el analista percibe eficiencia, el sistema está operando dentro de un entorno clandestino. No hay control sobre la infraestructura, no hay garantías sobre la integridad de los datos y no existe ningún mecanismo que asegure que la interacción termina en la consulta.

En realidad, ahí empieza.

La imagen no es un input, es un vector

Desde el punto de vista técnico, enviar una fotografía a este tipo de plataformas no es un acto neutro. La imagen contiene información, y cuando no la contiene, el canal la genera.

Metadatos EXIF con fecha, hora, dispositivo o ubicación.
Patrones de compresión y huellas del archivo.
Información de red asociada a la consulta.
Fingerprinting del dispositivo o del navegador.
Patrones de comportamiento del usuario durante la interacción.

Todo ese contexto, en un entorno controlado por actores externos, se convierte en inteligencia.

Eso implica que cada consulta no solo identifica a un tercero.

También expone al operador.

Y ese es el cambio de paradigma que muchos no están viendo.

El momento en que la investigación se convierte en ataque

La ruptura no ocurre en la consulta.

Ocurre en la respuesta.

Muchas de estas plataformas no devuelven únicamente datos; entregan archivos, reportes o resultados ampliados. Ese elemento introduce un vector clásico de ataque dentro de un flujo que el analista interpreta como legítimo.

Un archivo aparentemente inofensivo puede contener código diseñado para ejecutarse sin interacción visible, capturar credenciales, establecer persistencia o habilitar comunicación con infraestructura externa. No es un escenario teórico; es una técnica efectiva cuando el atacante controla tanto la fuente como el canal.

Ese es precisamente el tipo de análisis que se aborda en C|TMAD, Tactical Malware Analysis; entender cuándo un artefacto deja de ser un documento y pasa a ser un mecanismo de ejecución.

Porque el problema no es abrir el archivo.

El problema es no entender lo que contiene.

De reconocimiento facial a control remoto

Una vez ejecutado el payload, el compromiso no es evidente.

Se vuelve persistente.

El dispositivo comienza a comunicarse con infraestructura de Command and Control, utilizando canales diseñados para evadir controles tradicionales.

DNS tunneling: exfiltración de datos mediante subdominios en consultas DNS.
Telegram Bot API: recepción de comandos y envío de resultados a través de tráfico aparentemente legítimo.
HTTP/S steganography: ocultamiento de instrucciones o payloads dentro de tráfico web o imágenes.
JSON payload injection: manipulación de respuestas para ejecutar scripts en memoria y reducir rastros forenses.

En ese punto, el analista ya no está investigando.

Está siendo monitoreado.

Y su entorno, potencialmente, comprometido.

La lectura técnica de la imagen

El reconocimiento facial trabaja sobre imagen.

Pero la inteligencia no está en la imagen.

Está en su análisis.

Ese es el punto donde entra C|IAD, Imagery Analysis Intelligence; no como herramienta de identificación, sino como capacidad de interpretar el contexto, la procedencia, la manipulación y el riesgo asociado a un archivo visual.

Porque no toda imagen es confiable.

Y no toda imagen es segura.

Una fotografía puede ser utilizada para identificar a alguien, pero también para perfilar, rastrear o comprometer al que la utiliza. El valor de la imagen no está solo en lo que muestra.

Está en lo que permite hacer.

Ilegalidad del uso de datos robados

Este escenario no es ambiguo desde el punto de vista legal.

En el Perú, la Ley N.º 29733 establece que el tratamiento de datos personales, especialmente los biométricos, requiere consentimiento, finalidad específica y medidas de seguridad adecuadas. El uso de bases de datos obtenidas mediante filtraciones o accesos indebidos vulnera directamente estos principios.

Pero hay un punto más crítico.

El Decreto Legislativo 1700 introduce responsabilidad penal sobre el uso de datos obtenidos ilícitamente, estableciendo que el operador tiene el deber de presumir el origen irregular de la información cuando utiliza este tipo de herramientas.

Eso cambia completamente el escenario.

Porque el uso de estas APIs no es solo una mala práctica técnica.

Es una conducta sancionable.

Y en entornos institucionales, la responsabilidad no se limita al usuario.

Se extiende a la organización.

Lo más grave, sin embargo, es que el impacto no termina en la ilegalidad del dato utilizado ni en el riesgo técnico para el dispositivo comprometido. En la práctica, los entes de investigación también pueden terminar perdiendo investigaciones por el uso de estas herramientas.

Y la razón es simple.

Cada consulta no solo busca identificar a una persona; también genera un rastro sobre quién está siendo observado, desde qué entorno se le consulta y bajo qué contexto operativo se le está perfilando. Cuando esa interacción ocurre contra servidores controlados por delincuentes, la investigación deja de estar contenida dentro de la institución y comienza a filtrarse hacia infraestructura externa.

Ese punto cambia completamente el riesgo.

La perfilación ya no se dirige solo al objetivo de la consulta. También se dirige al usuario que investiga y al propio entorno institucional que realiza la búsqueda. En otras palabras, el sistema no solo devuelve posibles coincidencias faciales; al mismo tiempo, captura inteligencia sobre quién está consultando, a quién está buscando y con qué frecuencia.

Eso abre múltiples escenarios de afectación.

Filtración de objetivos investigados hacia servidores controlados por delincuentes.
Alertamiento anticipado de personas sometidas a perfilación o seguimiento.
Pérdida de ventaja operativa por exposición del interés institucional.
Compromiso de la trazabilidad y de la cadena de custodia de la información.
Responsabilidad penal y administrativa por uso de datos obtenidos ilícitamente.

La información sobre personas consultadas puede ser filtrada, revendida o utilizada para alertar a los propios investigados sobre acciones que se vienen desarrollando en su contra. En ese momento, la herramienta deja de ser un supuesto apoyo operativo y se convierte en un mecanismo de fuga de información sensible. Lo que debía servir para identificar, termina sirviendo para advertir. Lo que debía apoyar una investigación, termina comprometiéndola.

Ese riesgo no es secundario.

Es estructural.

Porque cuando el perfilamiento de objetivos llega a servidores criminales, la consulta deja de ser una acción interna y se transforma en una señal de inteligencia para el adversario. A partir de ahí, los delincuentes no solo conocen que están siendo observados; pueden inferir prioridades, líneas de investigación, interés institucional e incluso momentos de activación operativa.

Y cuando el adversario recibe esa información antes que la propia institución cierre su proceso, la investigación ya está dañada.

Por eso el problema no es solo que estas APIs trabajen con datos robados. El problema es que convierten la actividad investigativa en un flujo visible para actores externos. La consulta ya no produce únicamente resultados; produce exposición.

Y en investigación digital, exponer el interés sobre un objetivo equivale muchas veces a perder la ventaja.

El problema real

El reconocimiento facial no es el problema.

La inteligencia artificial no es el problema.

El problema es el ecosistema en el que se está utilizando.

Cuando una herramienta opera sobre datos robados, interactúa con infraestructura clandestina y expone al usuario que la utiliza, deja de ser una solución.

Se convierte en un punto de entrada.

Y ese punto de entrada no siempre se activa en el momento.

A veces se activa después.

Cuando el acceso ya fue establecido.

Cuando la persistencia ya está en curso.

Cuando la información ya salió.

En DENDRO no enseñamos herramientas; enseñamos a entenderlas. Porque en investigación digital, la diferencia no está en obtener resultados; está en saber qué estás poniendo en riesgo para conseguirlos.