Analytics: Especies en Peligro de Extinción en Cuatro Parques Nacionales de Estados Unidos
Para este proyecto analicé los datos del Servicio de Parques Nacionales de Estados Unidos sobre especies en peligro de extición en los diferentes Parques Nacionales. Tomando el rol de un analista de biodiversidad, el objetivo es garantizar la supervivencia de las especies en riesgo para mantener los niveles de biodiversidad dentro de los parques. En ese sentido, identificaré los patrones que pueden llegar a existir en los diferentes tipos de especies que estan en peligro de extinción y su relación con los Parques Naturales donde habitan.
A lo largo del proyecto se encuentra:
- Limpieza de datos y estandarización.
- Distribución de las observaciones por parque.
- Conteo del estado de observaciones por categoría.
- ¿Es más probable que ciertos tipos de especies estén en peligro?
- ¿Son significativas las diferencias entre las especies y su estado de conservación?
Archivos y Tecnologías Utilizadas
El análisis fue hecho con dos archivos .csv descargados de kaggle. ‘observations.csv’ y ‘species_info.csv’. ‘observations.csv’ contiene información del número de veces que una especie fue observada en un Parque Nacional mientras que, ‘species_info.csv’ contiene el nombre de la especie, el nombre científico y el nombre comun de todos los animales observados.
Ahora bien, en terminos de las tecnologías utilizadas, python fue utilizado para el análisis de datos con las siguientes herramientas: pandas para limpiar, estandarizar y manipular datos, numpy para operaciones y análisis númerico, matplotlib y seaborn para gráficar y scipy.stats para el análisis estadístico.
Análisis
Distribución de las Observaciones por Parque Nacional

Figura 1: Observación de Especies por Parque Nacional
La distribución en la parte superior izquierda de la Figura 1 muestra la observación de especies en el Parque Nacional Great Smoky Mountains. Es una distribución simetrica unimodal con un promedio y una mediana de 74.14 y 74.0 respectivamente, lo que significa, que en promedio cuando se realizan observaciones en este parque se ven 74 especies. En la parte superior derecha se ve la distribución de las especies observadas en el Parque Nacional Yosemite. Es una distribución unimodal con un promedio de 148.24 y una mediana de 149.0 lo que significa, que cuando se hacen observaciones en el parque se observan en promedio 148 especies.
Continuando con lo expuesto anteriormente, la distribución en la parte inferior izquierda muestra la observación de especies en el Parque Nacional Bryce. Es una distribución simetrica unimodal con un promedio de 98.91 y una mediana de 99.0 lo que significa, que cuando se realizan observacion se ven en promedio 99 especies. Finalmente, la distribución en la parte inferior derecha corresponde a la observación de especies en el Parque Nacional Yellowstone. Es una distribución unimodal con un promedio de 247.86 y una mediana de 249.0 lo que significa que, cuando se hacen observaciones se ven en promedio 248 especies en el parque.
Conteo del Estado de Observaciones por Categoría.
Antes que nada, es importante anotar que existen cuatro diferentes estados de conservación en los que una especie en peligro de extinción puede categorizarse. Las Especies en Preocupación (Species of Concern) son especies que tienen una población que esta declinando o que necesitan entrar en estado de conservación. Las especies Amenazadas (Threatened) son especies que son vulnerables de estar en peligro de extinción en un futuro cercano mientras que, las especies en Peligro (Endangered) son especies que estan actualmente en un grave riesgo de extinguirse. Finalmente, En Recuperación (In Recovery) son especies que antes estuvieron en peligro de extinción pero que, actualmente toda o una parte significativa de su población no lo esta.
Con esto en mente, el conteo de especies por estado de conservación y el conteo de especies en estado de conservación por clase en los Parques Nacionales Great Smoky Mountains, *Yosemite¨, Yellowstone y Bryce se muestra a continuación:

Figura 2: Conteo de Especies por Estado de Conservación
La Figura 2 muestra que hay 191 especies en estado de conservación. 84.3% (161) de ellas se encuentran dentro de la categoria de Especies en Preocupación (Species of Concern) lo que significa, que estas son las especies a las que los protectores de parques y ecologistas deben enfocarse para evitar que se conviertan en especies Amenazadas (Threatened) o en Peligro (Endangered). Por otro lado, 16 especies (8.3%) estan en Peligro (Endangered), 10 especies (5.2%) estan Amenazadas (Threatened) y 4 especies (2%) estan en Recuperación (In recovery).

Figura 3: Conteo de Estado de Conservación por Clase
Complementando lo planteado previamente, la Figura 3 muestra el número de especies por clase en cada estado de conservación. Teniendo en cuenta que el 84.3% de las 191 especies que se encuentran en estado de conservación estan en categoria de Especies en Preocupación (Species of Concern), el 44.7% de estas son aves (birds), 26.7% son plantas vasculares (vascular plant), 17.4% son mamíferos (mammals), 3.1% son reptiles (reptiles), 3.1% son plantas no vasculares (non-vascular plants), 2.5% son anfibios (amphibians) y 2.5% son peces (fish). Por otro lado, los mamíferos son la clase de animales que se encuentran mas Amenazados y en Peligro de Extinción en los cuatro Parques Nacionales analizados.
¿Es más Probable que Ciertos Tipos de Especies estén en Peligro?
Tabla 1: Estado de Protección por Categoria
La Tabla 1 muestra el porcentaje de cada categoria animal que se encuentra actualmente en proteccion en los Parques Nacionales Great Smoky Mountains, Yosemite, Yellowstone, y Bryce. Los mamíferos (Mammals) son los animales que mas estan en estado de proteccion con el 17.04% de su población en ese estado, seguidos por las aves (Birds) que tienen el 15.369% de su población en protección. Los peces (Fish) y anfibios (Amphibians) continuan la lista con 8.861% y 8.730% de su población en ese estado. Por otro lado, las plantas vasculares (Vascular Plant) es la categoría animal con el menor número de su población bajo protección, con solo el 1.079% de sus 4216 miembros bajo ese estado.
¿Son Significativas las Diferencias entre las Especies y su Estado de Conservación?
Un test Chi-Cuadrado fue utilizado para determinar si diferentes especies tienen diferencias significativas en sus tasas de estado de conservación. En el test fueron utilizados chi2_contingency del modulo scipy.stats y un umbral de significancia de 0.05. En ese sentido, la tabla de contingencia para mamíferos (Mammals) y reptiles (Reptiles) se ve a continuación:
Tabla 2: Tabla de Contingencia para Mamiferos y Reptiles
La hipótesis nula (H0) y la hipótesis alternativa (H1) para el test son:
- H0: No hay asociación entre las tasas de estado de conservacion de mamíferos (Mammals) y reptiles (Reptiles).
- H1: Existe una asociación entre las tasas de estado de conservacion de mamíferos (Mammals) y reptiles (Reptiles).
Los valores esperados si NO hay asociación son:
- [[24.2519685 151.7480315], [10.7480315 67.2519685]]
Ahora bien, después de realizar el test Chi-Cuadrado se obtuvo un valor-p (P-Value) de 0.0388335. Así pues, se puede concluir con un 95% de confianza que SI hay una asociación entre las tasas de estado de conservación de mamíferos (Mammals) y reptiles (Reptiles). Se ha demostrado que los mamíferos tienen estadísticamente una tasa más alta de proteccion necesaria que los reptiles.