Análisis geoestadístico con ArcGIS parte 2. Análisis exploratorio de los datos

7 de mar. de 2011 • 15 min de lectura

Según Matheron (1992), la Geoestadística es la aplicación de la teoría de las variables regionalizadas a la estimación de los depósitos. A su vez una variable regionalizada, es una variable distribuida en el espacio de forma que presenta una estructura espacial de correlación. En fin cuando hablemos de Geoestadística se debe pensar en la variable y su relación espacial.

Ejemplo de variables regionalizadas en hidrogeología son la trasmisividad y conductividad hidráulica, la porosidad y el nivel piezométrico; a este último hacemos referencia en el presente artículo.

La mayoría de los métodos geoestadísticos sólo son óptimos si la variable de estudio sigue una distribución normal. Recordemos que la distribución normal tiene las siguientes propiedades:

Tiene una única moda, que coincide con su media y su mediana.
La curva normal es asintótica al eje de abscisas.
Es simétrica con respecto a su media. Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.
Cuanto mayor sea la desviación estándar, más se dispersarán los datos en torno a la media y la curva será más plana. Un valor pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución.
El coeficiente de sesgo es igual a cero (0).
La curtosis es igual a cero (0).

Para determinar si la variable sigue una distribución se deben aplicar alguna de las pruebas de normalidad como Prueba X², Kolmogorov, cálculo del coeficiente de asimetría, curtosis, mediana, mediana y la moda y su comparación de con los de la distribución normal.

Si a través de estas pruebas se concluye que la variable puede ser aceptada o se aproxima a una distribución normal, el problema se simplifica y se puede continuar con el análisis geoestadístico; de lo contrario, es necesario realizar una transformación de los datos que puede ser de raíz cuadrada o logarítmica (Carrera, 1990) y hacer nuevamente las verificaciones.

Este es un tema extenso y la idea de estos artículos es hacerlos algo prácticos, por ello al final dejaré bibliografía a la cual se puede consultar.

Para resumir, los pasos a seguir en el análisis exploratorio de los datos son los siguientes.

Organizar los datos de menor a mayor.
Calcular la tabla de frecuencia.
Realizar el histograma de frecuencias.
Calcular los parámetros geoestadístico.
Verificación de la normalidad con respecto a la media, moda y mediana.
Verificación de la normalidad con respecto a la asimetría horizontal (coeficiente de sesgo).
Verificación de la normalidad con respecto al coeficiente de variación.
Realización de la transformación de los datos, si es necesario.
Recalculo de los parámetros estadísticos y comparación para verificar la normalidad de los datos.

Los pasos 1 al 4 fueron realizados en el tutorial “Módulo de Geostadística Analyst con ArcGIS parte 1. Estadística descriptiva”, aquí se continuará con los pasos siguientes

Se continua con el ejemplo de los datos del monitoreo de niveles piezométricos que se muestran en la siguiente tabla.

Pozo	X	Y	NP
1	1.038.638	1.368.620	2,0076
2	1.034.835	1.344.198	2,1313
3	1.039.637	1.368.963	2,2000
4	1.039.628	1.368.960	2,2100
5	1.042.236	1.377.584	2,4449
6	1.039.030	1.370.440	2,4946
7	1.036.835	1.354.454	2,8554
8	1.043.217	1.357.777	2,9876
9	1.040.082	1.373.095	3,2347
10	1.039.392	1.374.231	3,2930
11	1.040.434	1.368.119	3,3317
12	1.039.720	1.368.500	3,3506
13	1.042.060	1.376.470	3,4291
14	1.041.545	1.369.212	3,6896
15	1.042.045	1.371.752	3,7990
16	1.040.269	1.377.908	3,9651
17	1.040.731	1.371.643	3,9980
18	1.042.360	1.376.070	4,2921
19	1.040.390	1.376.776	4,4900
20	1.035.335	1.356.941	4,5286
21	1.047.035	1.371.548	4,6227
22	1.042.020	1.370.310	4,6637
23	1.033.716	1.352.675	5,0499
24	1.042.570	1.377.470	5,1009
25	1.035.564	1.343.433	5,2438
26	1.042.520	1.368.530	5,3826
27	1.042.932	1.368.255	5,8690
28	1.044.694	1.371.405	6,0000
29	1.041.841	1.363.397	6,1496
30	1.040.838	1.356.677	8,0054
31	1.044.135	1.364.301	8,0724
32	1.046.740	1.377.526	8,0827
33	1.046.626	1.374.772	9,0188
34	1.042.604	1.360.903	9,2078
35	1.039.466	1.348.279	10,1156
36	1.041.429	1.333.870	10,2553
37	1.045.207	1.363.183	10,8373
38	1.044.733	1.360.337	11,5066
39	1.048.893	1.374.744	11,8241
40	1.040.383	1.355.006	12,2268
41	1.042.263	1.354.636	12,3280
42	1.039.411	1.336.953	12,8004
43	1.048.342	1.369.941	14,6244
44	1.046.214	1.355.644	14,9301
45	1.044.935	1.336.931	16,6351
46	1.041.256	1.339.628	18,1630
47	1.048.313	1.360.466	19,1410
48	1.044.224	1.348.328	24,0632
49	1.044.765	1.341.254	24,2354
50	1.046.735	1.356.327	25,5698
51	1.045.454	1.346.959	27,1534
52	1.050.523	1.361.111	30,0800
53	1.052.106	1.361.728	35,3188

Los parámetros estadísticos calculados anteriormente se resumen en la siguiente tabla.

Parámetro	Datos no agrupados	Observaciones
Media	9.3776
Mediana	5.869
Moda	4.378	Se tomó la moda calculada a través de la ecuación datos agrupados.
Desviación estándar	8.0421
Varianza	64.675
Coeficiente de Variación	85.8%
Curtosis	1.38
Sesgo o asimetría	1.46

5. Verificación de la normalidad con respecto a la media, moda y mediana.

Para que la distribución sea normal o se aproxime, la media, la moda y la mediana deben ser similares, se acepta una diferencia de una unidad entre ella.

Para el ejemplo de estudio tenemos.

Media = 9.3776
Mediana = 5.869
Moda = 4.378

Se observa la media, la mediana y la moda son diferentes, por lo cual los datos no cumplen el criterio de verificación con respecto a estos parámetros.

6. Verificación de la normalidad con respecto a la asimetría horizontal (coeficiente de sesgo).

Como el coeficiente de sesgo permite verificar la normalidad de los datos, en caso de existir asimetría horizontal, es decir los datos no se ajustan a una distribución normal, Wester-Oliver proponen evaluar lo siguiente.

0<|CS|<0.5, se acepta la función de distribución de probabilidad como normal, se puede aplicar el método geoestadístico a los datos.
0.5<|CS|<1, es necesario realizar una transformación de datos (normalización) de tipo raíz cuadrada.
|CS|>1, es necesario hacer una transformación de tipo logarítmico (ln o log)

En nuestro caso CS = 1.46, valor mayor que 1, por lo tanto es necesario aplicar una transformación de tipo logarítmico a los datos.

7. Verificación de la normalidad con respecto al coeficiente de variación.

Tanto la función de distribución de los datos como la varianza son funciones de la media la cual es altamente sensible a los valores extremos. En consecuencia se debe tener conocimiento de la afectación de estos valores extremos sobre la media, para ello se calcula el coeficiente de variación. En todo caso se debe verificar lo siguiente.

Si CV < 100, no hay problema con los valores extremos de los datos
Si 100<CV<=200, Los efectos causados por los valores extremos de los datos son tolerables
Si CV>200, se tiene problemas severos con los valores extremos de los datos.

Esto es importante, pues en caso de que los valores extremos de los datos afecten a la muestra o a la distribución de los mismos, se deberá analizar si es conveniente eliminarlos en caso que obedezcan a un error en la medición o hacer una transformación de los datos para reducir su influencia en la muestra.

En nuestro caso CV = 85.8 < 100, lo cual indica que no hay problemas con valores extremos.

En resumen, la función de distribución de los datos no se asemeja a una distribución normal dado que la media, la mediana y la moda son diferentes y además el CS>1. De acuerdo a los cálculos anteriores, es necesario realizar una transformación logarítmica (la cual consiste en tomar el dato y sacarle el logaritmo ya sea en base 10 o logaritmo natural), una vez realizada la transformación se vuelven a calcular todos los parámetros para realizar las respectivas verificaciones.

8. Realización de la transformación de los datos, si es necesario.

Transformación de los datos (ln).

Pozo	X	Y	NP	ln
1	1.038.638	1.368.620	2,0076	0,697
2	1.034.835	1.344.198	2,1313	0,757
3	1.039.637	1.368.963	2,2000	0,788
4	1.039.628	1.368.960	2,2100	0,793
5	1.042.236	1.377.584	2,4449	0,894
6	1.039.030	1.370.440	2,4946	0,914
7	1.036.835	1.354.454	2,8554	1,049
8	1.043.217	1.357.777	2,9876	1,094
9	1.040.082	1.373.095	3,2347	1,174
10	1.039.392	1.374.231	3,2930	1,192
11	1.040.434	1.368.119	3,3317	1,203
12	1.039.720	1.368.500	3,3506	1,209
13	1.042.060	1.376.470	3,4291	1,232
14	1.041.545	1.369.212	3,6896	1,306
15	1.042.045	1.371.752	3,7990	1,335
16	1.040.269	1.377.908	3,9651	1,378
17	1.040.731	1.371.643	3,9980	1,386
18	1.042.360	1.376.070	4,2921	1,457
19	1.040.390	1.376.776	4,4900	1,502
20	1.035.335	1.356.941	4,5286	1,510
21	1.047.035	1.371.548	4,6227	1,531
22	1.042.020	1.370.310	4,6637	1,540
23	1.033.716	1.352.675	5,0499	1,619
24	1.042.570	1.377.470	5,1009	1,629
25	1.035.564	1.343.433	5,2438	1,657
26	1.042.520	1.368.530	5,3826	1,683
27	1.042.932	1.368.255	5,8690	1,770
28	1.044.694	1.371.405	6,0000	1,792
29	1.041.841	1.363.397	6,1496	1,816
30	1.040.838	1.356.677	8,0054	2,080
31	1.044.135	1.364.301	8,0724	2,088
32	1.046.740	1.377.526	8,0827	2,090
33	1.046.626	1.374.772	9,0188	2,199
34	1.042.604	1.360.903	9,2078	2,220
35	1.039.466	1.348.279	10,1156	2,314
36	1.041.429	1.333.870	10,2553	2,328
37	1.045.207	1.363.183	10,8373	2,383
38	1.044.733	1.360.337	11,5066	2,443
39	1.048.893	1.374.744	11,8241	2,470
40	1.040.383	1.355.006	12,2268	2,504
41	1.042.263	1.354.636	12,3280	2,512
42	1.039.411	1.336.953	12,8004	2,549
43	1.048.342	1.369.941	14,6244	2,683
44	1.046.214	1.355.644	14,9301	2,703
45	1.044.935	1.336.931	16,6351	2,812
46	1.041.256	1.339.628	18,1630	2,899
47	1.048.313	1.360.466	19,1410	2,952
48	1.044.224	1.348.328	24,0632	3,181
49	1.044.765	1.341.254	24,2354	3,188
50	1.046.735	1.356.327	25,5698	3,241
51	1.045.454	1.346.959	27,1534	3,302
52	1.050.523	1.361.111	30,0800	3,404
53	1.052.106	1.361.728	35,3188	3,564

9. Recalculo de los parámetros estadísticos y comparación para verificar la normalidad de los datos.

a. Organizar los datos de menor a mayor.

Ya están organizados en la tabla anterior

b. Calcular la tabla de frecuencia.

No	Intervalo		Marca de clase	frecuencia absoluta	frecuencia absoluta acumulada	frecuencia relativa	frecuencia relativa acumulada
1	0,6969	- 1,0569	0,88	7	7	0,13	0,13
2	1,0569	- 1,4153	1,24	10	17	0,19	0,32
3	1,4153	- 1,7737	1,59	10	27	0,19	0,51
4	1,7737	- 2,1321	1,95	5	32	0,09	0,60
5	2,1321	- 2,4905	2,31	7	39	0,13	0,74
6	2,4905	- 2,8489	2,67	6	45	0,11	0,85
7	2,8489	- 3,2073	3,03	4	49	0,08	0,92
8	3,2073	- 3,5657	3,39	4	53	0,08	1,00

c. Realizar el histograma de frecuencias

d. Calcular los parámetros geoestadístico.

Los parámetros estadísticos se realizarán por la metodología de datos no agrupados a excepción de la moda, para ello se utilizará Excel.

Pozo	NP	ln	Media	(xi-media)²	(xi-media)⁴	(xi-media)³
1	2,0076	0,697	1,92	1,508	2,273	-1,851
2	2,1313	0,757	1,92	1,364	1,862	-1,594
3	2,2000	0,788	1,92	1,291	1,668	-1,468
4	2,2100	0,793	1,92	1,281	1,641	-1,450
5	2,4449	0,894	1,92	1,063	1,129	-1,095
6	2,4946	0,914	1,92	1,022	1,044	-1,033
7	2,8554	1,049	1,92	0,767	0,588	-0,671
8	2,9876	1,094	1,92	0,690	0,475	-0,573
9	3,2347	1,174	1,92	0,564	0,318	-0,423
10	3,2930	1,192	1,92	0,537	0,289	-0,394
11	3,3317	1,203	1,92	0,520	0,271	-0,375
12	3,3506	1,209	1,92	0,512	0,262	-0,367
13	3,4291	1,232	1,92	0,480	0,230	-0,332
14	3,6896	1,306	1,92	0,384	0,147	-0,238
15	3,7990	1,335	1,92	0,348	0,121	-0,205
16	3,9651	1,378	1,92	0,300	0,090	-0,164
17	3,9980	1,386	1,92	0,291	0,084	-0,157
18	4,2921	1,457	1,92	0,219	0,048	-0,103
19	4,4900	1,502	1,92	0,179	0,032	-0,076
20	4,5286	1,510	1,92	0,172	0,029	-0,071
21	4,6227	1,531	1,92	0,155	0,024	-0,061
22	4,6637	1,540	1,92	0,148	0,022	-0,057
23	5,0499	1,619	1,92	0,093	0,009	-0,029
24	5,1009	1,629	1,92	0,087	0,008	-0,026
25	5,2438	1,657	1,92	0,072	0,005	-0,019
26	5,3826	1,683	1,92	0,058	0,003	-0,014
27	5,8690	1,770	1,92	0,024	0,001	-0,004
28	6,0000	1,792	1,92	0,018	0,000	-0,002
29	6,1496	1,816	1,92	0,012	0,000	-0,001
30	8,0054	2,080	1,92	0,024	0,001	0,004
31	8,0724	2,088	1,92	0,027	0,001	0,004
32	8,0827	2,090	1,92	0,027	0,001	0,004
33	9,0188	2,199	1,92	0,075	0,006	0,021
34	9,2078	2,220	1,92	0,087	0,008	0,026
35	10,1156	2,314	1,92	0,152	0,023	0,059
36	10,2553	2,328	1,92	0,162	0,026	0,065
37	10,8373	2,383	1,92	0,210	0,044	0,096
38	11,5066	2,443	1,92	0,268	0,072	0,139
39	11,8241	2,470	1,92	0,297	0,088	0,162
40	12,2268	2,504	1,92	0,335	0,112	0,194
41	12,3280	2,512	1,92	0,345	0,119	0,202
42	12,8004	2,549	1,92	0,390	0,152	0,244
43	14,6244	2,683	1,92	0,574	0,330	0,435
44	14,9301	2,703	1,92	0,606	0,367	0,472
45	16,6351	2,812	1,92	0,786	0,618	0,697
46	18,1630	2,899	1,92	0,950	0,902	0,926
47	19,1410	2,952	1,92	1,055	1,112	1,083
48	24,0632	3,181	1,92	1,577	2,487	1,981
49	24,2354	3,188	1,92	1,595	2,544	2,015
50	25,5698	3,241	1,92	1,733	3,004	2,282
51	27,1534	3,302	1,92	1,895	3,592	2,609
52	30,0800	3,404	1,92	2,187	4,785	3,235
53	35,3188	3,564	1,92	2,688	7,226	4,407
	suma	102,02		32,205	40,295	8,510

e. Verificación de la normalidad con respecto a la media, moda y mediana.

Media = 1.92
Mediana = 1.77
Moda = 1.41

La diferencia entre la media, la mediana y la moda es menor que 1, por lo tanto la distribución de los datos cumple con esta condición.

f. Verificación de la normalidad con respecto a la asimetría horizontal (coeficiente de sesgo).

CS = 0.34 se cumple que 0<|CS|<0.5.

g. Verificación de la normalidad con respecto al coeficiente de variación.

CV = 41%, se cumple que CV<100

Por tanto la distribución de los datos se puede aceptar como normal, dado que la moda, la mediana y la media son similares; CS está entre 0 y 0.5 y CV<100. Por ello se puede continuar con el análisis geoestadístico.

La tercera parte de esta trilogía que corresponde a la herramienta Geostadistical Analyst la puedes consultar aquí.

Pedro Villegas

Ingeniero Civil, Master en Ingeniería con énfasis en hidrogeología

Diagrama 3D con Arcscene en Arcgis parte 3

Tercera parte de como crear un Diagrama de Bloque que nos muestre la distribución de las diferentes unidades geológicas con ArcScene en ArcGis »

hace 14 años • 3 min de lectura

3D Analyst

Diagrama 3D con Arcscene en Arcgis parte 2

Segunda parte de como crear un Diagrama de Bloque que nos muestre la distribución de las diferentes unidades geológicas con ArcScene en ArcGis »

hace 14 años • 2 min de lectura

3D Analyst

Diagrama 3D con ArcScene en Arcgis parte 1

Aprenderás a realizar un Diagrama de Bloque que nos muestre la distribución de las diferentes unidades geológicas con ArcScene en ArcGis »

hace 14 años • 2 min de lectura

Crear una aplicación web en ArcGis online. Coronavirus

Crear un mapa con ArcGis online

Mapa del Coronavirus en Colombia con ArcGis online

Mapeo de Inundaciones Utilizando Google Earth Engine

Pedro Villegas

Recomendado para ti

Diagrama 3D con Arcscene en Arcgis parte 3

Diagrama 3D con Arcscene en Arcgis parte 2

Diagrama 3D con ArcScene en Arcgis parte 1

Crear una aplicación web en ArcGis online. Coronavirus

Crear un mapa con ArcGis online

Mapa del Coronavirus en Colombia con ArcGis online

Mapeo de Inundaciones Utilizando Google Earth Engine

Suscríbete a nuestro Newsletter

Pedro Villegas

Recomendado para ti

Diagrama 3D con Arcscene en Arcgis parte 3

Diagrama 3D con Arcscene en Arcgis parte 2

Diagrama 3D con ArcScene en Arcgis parte 1