Una “investigación” online de la información de los diputados del Congreso

Cuando empezamos con el proyecto de Qué hacen los diputados una de las primeras cosas que hicimos fue crear una hoja de cálculo con toda la información que conseguíamos de cada parlamentario. Internamente llamamos a la hoja “megaexcel” y es una base de datos fundamental para el proyecto.

megaexcel

Aspecto de la hoja de cálculo donde recopilamos la información sobre los diputados

La primera versión la conseguimos buscando en Google el nombre de cada diputado y apuntando lo que aparecía en la web del Congreso, páginas de partidos, redes sociales, universidades, medio de comunicación, etc., con unos siete u ocho colaboradores, algunos conocidos en persona y otros que se ofrecieron a ayudar en Twitter. Al cabo de 4 o 5 meses de haber empezado ya teníamos nuestra base de datos más o menos completa, que aún tocamos y mejoramos periódicamente.

Entretanto, parte de nuestro equipo empezó a adquirir conocimientos de web scraping (extracción de datos de páginas web de forma automática) y pudimos descargarnos toda la información relacionada con diputados en congreso.es. Esto nos permitió cruzar la información oficial con la que habíamos conseguido a mano y mejorar nuestra base de datos.

Ahora usamos el “megaexcel“ para poder consultar de forma rápida y precisa información de diputados o para establecer comparaciones entre ellos. La gran mayoría de post de periodismo de datos tienen su inicio en el análisis de la hoja, y muchos de ellos son detalles que hemos observado en procesos de comprobación o limpieza.

En el proyecto de la nueva web la hoja de cálculo también es fundamental, ya que de ella saldrá gran parte de la información que contendrá la ficha de cada diputado. Otro de los grandes trabajos de “hormiguita” fue sistematizar el formato de ciertas celdas para que al procesarla con un script se pudiera almacenar mejor su información en nuestra base de datos. Por ejemplo, en estudios, se almacenan en campos distintos el título y el centro donde se impartió.

Habrá también bastantes datos de diputados que no se importarán del “megaexcel”, sino que se obtendrán con scripts que periódicamente escrapearán la web del Congreso. Queremos tener la máxima información, que esté lo más actualizada posible y disponible para que cualquier ciudadano/a (incluyendo a los diputados/as) la pueda consultar y/o avisarnos de los errores o de que hay que modificar algún dato.

La web pasará a ser nuestra principal herramienta de consulta y trabajo de datos. Cualquier usuario podrá consultar los datos online de una forma fácil e intuitiva y exportarlos en múltiples formatos. El objetivo: seguir ampliando el Parlamento de personas que siguen el trabajo de los diputados en el Congreso.

¿Quieres formar parte de este parlamento ciudadano de personas?
Entra en la página de Qué hacen los diputados en Goteo

Método de trabajo

5 Responses to "Una “investigación” online de la información de los diputados del Congreso"

Deja un comentario