Massive standardization and geocoding of postal addresses through ETL processes using unified digital street map of Andalusia (CDAU) web services

Authors

  • Geoffroy Detry NOVALIS S.A.
  • Javier Villarreal Piqueras Gabinete de Mapas. Instituto de Estadística y Cartografía De Andalucía.
  • Joaquín López Flores Servicio de Estadísticas Sanitarias. Consejería de Salud y Consumo

DOI:

https://doi.org/10.59192/mapping.391

Keywords:

Postal code, Address standardization, Geocoding, ETL, Pentaho Data Integration, Unified Digital Street Map of Andalusia, ISE, Inventory of governmental headquarters and public services, REST, JSON, WPS

Abstract

The Inventory of headquarters and public services of «Junta de Andalucía» (ISE) offers a global vision of the location of the services provided by the Andalusian Regional Government, offering both the geographical location and the most relevant alphanumeric data. The ISE solves the problems associated with the great dispersion of data and formats in which each responsible body publishes them, integrating them into a single standardized PostgreSQL/PostGIS database that can be consulted through a web viewer and interoperable OGC web services. A major task of the project is to process the starting information so that the postal addresses are normalized and that each facility or headquarter is located through a geometric point. These operations (normalization and geocoding) are executed automatically using the web processing service (WPS) of the Unified Digital Street Map of Andalusia (CDAU), the official reference source for roads and portals in Andalusia. To facilitate the task, the queries have been automated within workflows implemented using the ETL Kettle tool, one of the products of the Pentaho Data Integration suite. To do this, the normalization and geocoding functions are recursively invoked through the REST communication protocol and the response returned in JSON format is interpreted, isolating the values of interest (road type, road name, gate number and set of coordinates) and generating the corresponding geometries.

Downloads

Download data is not yet available.

Author Biographies

Geoffroy Detry, NOVALIS S.A.

Máster universitario en Ingeniería Geomática y Geoinformación en la Universidad de Lieja (Bélgica). Con varios años de experiencia (universidad, público, sector privado) en Bélgica y África siempre en el mundo del SIG y de la gestión, estructuración, almacenamiento y difusión de la información espacial en general. Especializado en la gestión de bases de datos espaciales, específicamente en PostgreSQL/PostGIS. A través de la consultoría NOVALIS, trabaja con el Servicio de Producción Cartográfica del Instituto de Estadística y Cartografía de Andalucía para gestionar el flujo de datos y la información de los proyectos del Inventario de Sedes y Equipamientos (ISE) y del Sistema de Información de Poblaciones de Andalucía (SiPob).

Javier Villarreal Piqueras, Gabinete de Mapas. Instituto de Estadística y Cartografía De Andalucía.

Licenciado en Ciencias Biológicas. Con experiencia en los sectores público y privado, en 2013 se incorpora al Instituto de Estadística y Cartografía de Andalucía como asesor técnico trabajando en el desarrollo de proyectos mediante bases de datos espaciales PostgreSQL/PostGIS. Responsable de la dirección técnica de los proyectos «Datos Espaciales de Referencia de Andalucía (DERA)» y «Sedes y Equipamientos de la Junta de Andalucía (ISE)» desarrollados por el Instituto de Estadística y Cartografía de Andalucía.

Joaquín López Flores, Servicio de Estadísticas Sanitarias. Consejería de Salud y Consumo

Licenciado en Geografía e Ingeniero en Geodesia y Cartografía. Con experiencia en los sectores público y privado, entre 2012 - 2021 en el Instituto de Estadística y Cartografía de Andalucía como técnico GIS trabajando en el desarrollo de proyectos mediante bases de datos espaciales PostgreSQL/ PostGIS (Datos Espaciales de Referencia de Andalucía (DERA)y Sedes y Equipamientos de la Junta de Andalucía (ISE)). En 2022 se incorpora al Servicio de Estadísticas Sanitarias de la Consejería de Salud y Consumo como técnico geógrafo realizando tareas de planificación estadística, incluidas dentro del Plan Estadístico y Cartográfico de Andalucía, y desarrollo de una base de datos PostGIS con información de índole sanitario.

References

IECA. 2019. «Manual de buenas prácticas para la normalización de fuentes y registros administrativos de la Junta de Andalucía. Versión 2.0». 66p.

IECA. 2021. «Manual de integración – WS-CDAU y CdauProxyWS. Versión 2.11.0». 129p.

IECA. 2022. «Inventario de Equipamientos y Sedes de la Junta de Andalucía (ISE). Especificaciones del proyecto». 28p. https://www.juntadeandalucia.es/institutodeestadisticaycartografia/mapa_equipamientos/documentos/Especificaciones_ISE.pdf

Información sobre Pentaho Data Integration https://help.hitachivantara.com/Documentation/Pentaho/9.3/Products/Learn_about_the_PDI_client

Información sobre CDAU - https://www.callejerodeandalucia.es/portal/proyecto

Inventario de Sedes y Equipamientos de la Junta de Andalucía. Disponible en: http://www.juntadeandalucia.es/institutodeestadisticaycartografia/mapa_equipamientos/index.htm

Published

2023-05-12

How to Cite

Detry, G., Villarreal Piqueras, J., & López Flores, J. (2023). Massive standardization and geocoding of postal addresses through ETL processes using unified digital street map of Andalusia (CDAU) web services. REVISTA INTERNACIONAL MAPPING, 32(211), 18–24. https://doi.org/10.59192/mapping.391

Issue

Section

Artículos Científicos