Base de datos
Descripción de la Base oculta
La Base oculta, es la forma en cómo denominamos a la “Base Sexenal del Grupo de Contacto de Alto Nivel para la Atención de la Delincuencia Organizada (Grupo CANDADO)”, hallada en la filtración de correos de la Sedena que realizó el Colectivo Guacamaya el 29 de septiembre de 2022. Esta fue anonimizada y hecha pública por Data Cívica e Intersecta.
Con la información que se hizo pública a partir de la filtración de información, localizamos dos actualizaciones de la Base oculta que unimos en una sola base que va del 1 de enero de 2017 al 5 de agosto de 2018 y del 1 de diciembre de 2018 al 6 de diciembre de 2020. Juntas representan casi cuatro años de información de 2017 a 2020.
La Base oculta que publicamos en este micrositio registra en cada uno de sus renglones eventos violentos vinculados con la presunta delincuencia organizada, es decir, eventos en donde hubo personas fallecidas o heridas, o bien, eventos en los que hubo “fuego cruzado” y que las autoridades de seguridad vinculan de alguna manera con la delincuencia organizada.
La Base oculta incluye variables relacionadas a las características de los eventos (por ejemplo, lugar, fecha, si participa o no alguna autoridad de seguridad, el tipo de arma utilizada, etc.), las consecuencias de los eventos (por ejemplo, número de personas fallecidas, número de personas heridas, número de personas detenidas, número de armas aseguradas, etc.), así como el presunto grupo delictivo que participó en los eventos, en caso de que la información estuviera disponible.
Metodología para anonimizar la Base oculta
Ya que la Base oculta tal cual fue hallada en la filtración de información incluía datos personales de las víctimas, decidimos construir una versión anonimizada. La base anonimizada es la que publicamos en el presente micrositio.
Para anonimizar la base hicimos tres cosas: quitamos las variables que contenían datos personales o que pudieran hacer identificables a las víctimas (eliminamos las variables sobre nombre de las víctimas, alias, edad, ocupación, estado, civil, nacionalidad, poblado/ciudad en donde ocurrió el evento, colonia/carretera, calles/tramo carretero, coordenadas, etc.). Segundo, para algunas variables que contenían datos personales, pero que consideramos importante mencionar si se estaba registrando o no la información, las convertimos a dummies como se explicará más abajo. Finalmente, anonimizamos la variable descripción de los hechos, en donde se narra lo que ocurrió en los eventos, el reto en esta variable era quitar la información que pudiera hacer a la víctima identificable sin perder el sentido de la narración.
La variable descripción de los hechos se anonimizó utilizando una librería de código abierto para el procesamiento del lenguaje natural en Python llamada SpaCy. Esta librería es muy útil para identificar y extraer palabras de un texto en español. Utilizamos una muestra de 3,700 eventos (aproximadamente 6% de la Base oculta) para entrenar el modelo que identificó y extrajo los datos personales de las descripciones de los eventos. Después de realizar la limpieza con el modelo, revisamos cada una de las más de 58,000 descripciones a mano para corregir cualquier dato personal que no fuera detectado por el modelo.
Los criterios de anonimización en las descripciones de los eventos fueron las siguientes:
- Se mantuvo la información sobre el día de ocurrencia del evento, pero se eliminó el resto de la información más detallada sobre la temporalidad.
- Se mantuvo la información sobre el municipio en dónde ocurrieron los eventos, pero se eliminaron las referencias geográficas más específicas como nombres de colonias, calles, etc.
- Se eliminó la información sociodemográfica sobre las víctimas excepto el sexo.
- Se eliminaron los alias.
- Se eliminaron las descripciones de tatuajes.
- Se eliminaron placas o identificaciones o números de serie.
- Se eliminaron parentescos.
- Se eliminaron nombres de grupos delictivos.
Para el resto de las variables de la Base oculta, incluimos todas aquellas que consideramos de potencial interés público, siempre y cuando no tuvieran datos personales. Para tratar de mantener la mayor cantidad de información posible, convertimos algunas variables en dummies con valores de 0 y 1, para indicar si se registró o no información, sin tener que mencionar la información personal. Por ejemplo, la variable carpeta_de_investigacion
es igual a 1 si se reporta un número de carpeta de investigación vinculada al evento y 0 si no se reporta un número de carpeta de investigación vinculada al evento, pero no hacemos públicos los números de carpetas de investigación.
Finalmente, añadimos algunas variables nuevas a la base a partir de la información que ya contenía la Base oculta original, con el fin de hacer más sencilla la exploración y análisis de la base. Por ejemplo, creamos la variable participacion_autoridad
a partir de la variable modalidad
, para poder identificar fácilmente aquellos eventos en los que estuvo involucrada alguna autoridad de seguridad. Fuera de lo anterior, la base que publicamos contiene la misma información que la Base oculta encontrada en la filtración de información por parte del colectivo Guacamaya.
Por otro lado, la unidad de análisis de la Base oculta como se encontró en la información filtrada por el Colectivo Guacamaya estaba a nivel víctima. Sin embargo, decidimos agrupar la información a nivel evento porque notamos que las personas registradas por folio en la base original podían ser víctimas fallecidas, heridas y detenidas, pero su registro en la base no era consistente. Por ejemplo, cuando no había personas fallecidas en el evento, en la base original se registraba un folio de las personas heridas o detenidas, pero cuando había víctimas mortales se registraba a las personas heridas o detenidas en el mismo folio que las personas fallecidas. Por ello, decidimos agrupar la base a nivel evento e incluir el conteo de personas fallecidas, detenidas y heridas por evento.
La descripción y observaciones particulares de cada variable incluida en la Base oculta aparecen en el diccionario de datos.