Jun 062014
 

OpenStreetMap (OSM) es una base de datos geográfica que abarca el mundo entero. Se trata de un proyecto “crowdsource”, en el cual los datos contenidos en OpenStreetMap son generados por miles de colaboradores voluntarios. Esto hace que la cantidad y el tipo de la información contenida en OSM varía significativamente de un país a otro.

En este artículo presentamos un estudio del contenido la base de datos de OpenStreetMap de California.

El contenido de esta base de datos se puede explorar en nuestro sitio web Callejero California, o en su versión en lengua inglesa California Streets.

Cómo obtener la base de datos OSM de California

La base de datos de OpenStreetMap se puede obtener en forma de un único fichero “planet-latest.osm.bz2”. Pero este fichero contiene la información existente a nivel mundial, por lo que, a fecha de Junio de 2014, ocupa 35 GB en formato comprimido, y más de 500 GB sin comprimir.

Si lo que deseamos es obtener los datos correspondientes a un único país,para no tener que descargar y procesar este enorme volumen de datos, es posible descargar extractos que algunos sitios colaboradores de OpenStreeetMap ponen a disposición del público. La lista de sitios que contienen extractos por país se puede obtener aquí.

Nosotros hemos utilizado el extracto diario disponible en geofabrik.de. Para descargarlo, utilizamos el comando:

El fichero descargado está comprimido en formato bzip2, y ocupa 722 MBytes. En su interior, contiene un documento XML con tres tipos de elementos: nodos, vías (ways) y relaciones, que se comentan a continuación.

También es posible descargar de geofabrik.de ficheros de cambios incrementales diarios, para mantener actualizada la copia local de la base de datos. En el caso de California, los ficheros incrementales de los últimos tres meses se encuentran en la URL http://download.geofabrik.de/north-america/us/california-updates/000/000/.

El tamaño de estos ficheros nos da una idea de la actividad de mantenimiento realizada sobre los datos geográficos de California que contiene OSM. Lo podemos visualizar en un gráfico:

[visualizer id=”5547″]

Nodos

La base de datos OSM de California analizada contiene 40,397,420 nodos.

Cada nodo está identificado por un identificador numérico único, y consta básicamente de un par de coordenadas (latitud,longitud) que determinan un punto del mapa.

Opcionalmente, el nodo puede tener asociadas etiquetas (tags) que ofrecen información adicional sobre el mismo.

Ejemplo:

En el ejemplo podemos ver tres nodos que aparecen al comienzo del fichero descargado. Los dos primeros contienen únicamente sus identificadores y coordenadas, junto con información administrativa en forma de atributos asignados al tag <node>.

El tercer nodo tiene también una serie de etiquetas (“tags”) asociadas, que proporcionan información adicional. En el ejemplo, vemos que el nodo corresponde a una unión de carreteras (k=”highway”, v=”motorway_junction”)

 

Etiquetas de nodo (node tags)

Del total de nodos existente en el fichero descargado, 1,349,962 tienen una o más etiquetas asociadas.

Las etiquetas asociadas a un nodo son simplemente un par (k,v) en donde k (“key”) es el nombre de la etiqueta, y v (“value”) su valor.

Existen una serie de nombres de etiqueta normalizados (como “name” o “highway”, que se pueden ver en el ejemplo de arriba). Pero OSM no fuerza el uso de estos nombres, por lo que en la base de datos se pueden encontrar nombres no normalizados,  nombres que contienen errores ortográficos, y otros casos.

Resulta interesante analizar estadísticamente el total de apariciones de cada nombre de etiqueta. Las más frecuentes son:

Otros nombres de etiqueta interesantes, aunque el total de los mismos no sea tan elevado, son:

 

Nodos de tipo ‘amenity’

Los nodos que tienen asociada una etiqueta ‘amenity’ representan lugares que ofrecen algún tipo de servicio. Los más frecuentes en la base de datos de California son:

Resulta interesante observar que el primer puesto corresponde a lugares de culto. Según estos datos, en California hay diez lugares de culto por cada biblioteca.

Nodos de tipo ‘natural’

Los nodos con una etiqueta ‘natural’ representan accidentes geográficos naturales.

El total de cada uno de los valores asignados a la etiqueta ‘natural’ de los nodos de la base de datos OSM de California es:

Nodos de tipo ‘tourism’

Los nodos con etiqueta ‘tourism’ señalan puntos de interés turístico:

Como vemos, en esta categoría se encuentran tanto puntos de información turística, como lugares donde alojarse, y los puntos de interés turístico propiamente dichos: atracciones, museos, parques temáticos, etc.

Vias (Ways)

La base de datos OSM de California analizada contiene 2,504,072 vías.

Una vía es una secuencia ordenada de nodos, identificada de manera única mediante un identificador numérico.

Las vías se utilizan para indicar en el mapa límites administrativos, carreteras, ríos, etc.

Opcionalmente, una vía puede tener asociadas una serie de etiquetas que proporcionan información adicional sobre la misma.

Ejemplo:

En el ejemplo, podemos ver la definición de una vía que consta de ocho nodos. Al igual que ocurre con los nodos, la información administrativa se añade en forma de atributos version, changeset, etc del elemento <way>

Además, la vía tiene asociados varios tags que la identifican como una vía de servicio (k=”highway”, v=”service”) obtenida de la base de datos “tiger”. La via se encuentra en el condado de San Diego, y se denomina “A74”.

Etiquetas de vía (way tags)

En el ejemplo anterior, hemos visto que una calle es identificada mediante la etiqueta con nombre “highway” y valor “tertiary”.

Los nombres de etiquetas de vía más frecuentes en la base de datos OSM de California son:

Como vemos, “highway” es el nombre de etiqueta más frecuente, ya que se usa para identificar tanto carreteras como calles, caminos, senderos, y en general cualquier trayecto transitable. Aproximadamente un 30% de las vías tienen también un nombre asociado, y un número menor tienes asociadas otras características tales como la velocidad máxima, si es de sentido único, etc.

Además de los nombres de vía arriba indicados, otros nombres interesantes, aunque menos frecuentes, son:

 

 

Ways de tipo ‘highway’

Ways de tipo ‘natural’

Ways de tipo ‘waterway’

 

Relaciones

La base de datos OSM de California analizada contiene 17,391 relaciones.

Una relación permite agrupar en una entidad un conjunto de elementos. Normalmente, la relación tiene asociadas una serie de etiquetas que permiten asignarle un nombre, tipo, e información adicional. Al igual que los nodos y vías, cada relación está identificada de manera única por un identificador numérico.

Los miembros de la relación pueden ser vías, nodos, o incluso otras relaciones.

Ejemplo:

En este ejemplo, podemos ver cómo aparece representada en la base de datos OSM la carretera estatal 180 de California:

  • El tag “type=route” identifica la relación como un trayecto, y el tag “route=road” indica que se trata de una carretera.
  • Los tags “network=US:CA” y “ref=180” la identifican como la carretera estatal 180 de California.
  • Por último, el tag “wikipedia” indica la URL de un artículo de wikipedia que trata sobre esta carretera.

Etiquetas de relación

Entre las etiquetas que se asocian habitualmente a una relación, está la etiqueta “type”. En la base de datos analizada, los valores que aparecen asignados a la etiqueta type son:

Las relaciones de tipo “boundary” son las que definen las fronteras de regiones administrativas y políticas, áreas geográficas naturales, etc.

Todas las relaciones con la etiqueta “type=boundary” tienen también asociada una etiqueta “boundary=TIPO_DE_BOUNDARY”. Los totales de lo distintos valores asignados a la etiqueta “boundary”, por orden de mayor a menor, son:

 Publicado por en 7:50 am

 Deja un comentario

(requerido)

(requerido)