jueves, 1 de mayo de 2008

Sobre los métodos de ordenación

Diego Griffon B.
.
En su sentido más general, un método de ordenación es una herramienta que permite ordenar unidades de muestreo en gradientes (Palmer, 2008). Estos metodos comprenden un conjunto de técnicas mediante las cuales se puede adaptar un arreglo multivariado de puntos, de manera que cuando se los proyecta en un plano, cualquier patrón intrínseco que estos datos pudiesen tener se haga aparente en una inspección visual (Pielou (1984) citado en Clark, 2008).

Estos métodos permiten identificar las dimensiones más importantes en conjuntos de datos e ignorar el ruido presente en ellos, para de esta manera hacer aparente los patrones que puedan subyacer en los datos (Clark, 2008). Por lo tanto, su objetivo fundamental es ayudar al investigador a encontrar patrones en datos que de otra forma serian muy difíciles de interpretar (Afifi y Clark 1984; Clark, 2008). Los métodos de ordenación consisten en operaciones que se ejecutan sobre matrices, estas matrices presentan la información sobre los valores de las variables en las diferentes muestras (Palmer, 2008).

El propósito de estas técnicas es facilitar la interpretación de los valores de las variables observados en las muestras (Palmer, 2008). La ventaja fundamental de este tipo de técnicas radica en que permiten reducir el número de dimensiones inherentes a un problema y de esta manera facilitar su interpretación
(Palmer, 2008). La ordenación sirve para sumariar la información; por ejemplo, estas técnicas permiten graficar la abundancia de las especies en una comunidad en un espacio de ordenación de baja dimensionalidad, en donde especies y muestras similares son graficadas cercanamente, y por el contrario especies y muestras disimilares son graficadas alejadas unas de otras (Clark, 2008).

En ecología, los análisis de ordenación son comúnmente empleados para describir la relación entre los patrones de composición de especies y los gradientes medio ambientales que los influencian, es decir, permiten establecer los factores que estructuran una comunidad (Clark, 2008).

Los métodos de ordenación son herramientas exploratorias, por lo tanto en su utilización se goza de mucha libertad en la manipulación que a posteriori se puede hacer con los datos (Clark, 2008; Palmer, 2008); sin embargo, esta es también su mayor desventaja, ya que no permiten la ejecución de pruebas de hipótesis sensu stricto, por lo que las interpretaciones alcanzadas mediante la aplicación de estas técnicas tienen un alto componente de subjetividad y bajo ningún respecto son únicas. Sin embargo, se debe mencionar que los métodos de ordenación directos (e.g., análisis de correspondencia canónica) permiten poner a prueba de forma rigurosa la hipótesis nula de no existencia de relación entre las variables ambientales y la composición de especies en las muestras (Palmer, 2008).

Dado que la virtud fundamental de las técnicas de ordenación radica en que permiten reducir el número de dimensiones necesarias para interpretar un problema, estos análisis se consideran éxitos cuando los primeros ejes creados a través de ellas contienen información suficiente para interpretar los datos.

Estos métodos solo pueden llegar a ser exitosos si existe algún grado de redundancia en los datos (i.e., entre las variables evaluadas), ya que es ésta redundancia la que permite disminuir la dimensionalidad (Palmer, 2008).

Por ejemplo, un análisis de componentes principales (ACP), se considera exitoso en términos estadísticos cuando se logra capturar un considerable porcentaje de la varianza presente en los datos en los primeros componentes*
, ya que de esta manera se estará interpretando los datos tomando en cuenta un considerable porcentaje de la información contenida en la matriz de datos (Palmer, 2008).

Por su parte, un análisis de correspondencia (AC) se considera exitoso estadísticamente cuando la inercia en los primeros ejes es alta, ya que de esta manera se estarán interpretados los datos en función de ejes que representan la mayor asociación entre las variables y las muestras (Palmer, 2008).

En términos biológicos, ambos análisis serán exitosos, si mediante su implementación se logra interpretar, de una manera que pueda ser justificada biológicamente, los patrones observados en los resultados de las técnicas.

Como ya se menciono, para que estos análisis tengan relevancia, i.e., logren disminuir la dimensionalidad del problema, debe existir redundancia en la información contenida en la matriz de datos a partir de la cual se realizan los análisis, siendo esta la primera condición para su correcta implementación.

Si se decide realizar un ACP, las variables utilizadas deben tener un comportamiento lineal, es decir, deben presentar un dirección única en la cual se incrementen sus valores. Esto hace que la técnica tenga una reducida aplicabilidad en ecología, en donde se conjetura que muchas variables no tienen comportamientos lineales; e.g., en el análisis de cenoclinas, solo es recomendare el uso de esta técnica en presencia de gradientes cortos (Palmer, 2008). Utilizar esta técnica en presencia de variables con comportamientos no lineales, produce el llamado “efecto de herradura”, en el cual uno de los ejes se “curva” con respecto al otro y no representa un gradiente secundario real (Palmer, 2008).

Por su parte, si la elección es un AC, el método asume que las variables tienen un comportamiento unimodal, es decir, asume que excite un valor óptimo de las variables, a partir del cual en forma radial disminuye su valor (Palmer, 2008). Esto hace que esta técnica tenga una mayor aplicabilidad en ecología, ya que, por ejemplo, se puede utilizar en presencia de gradientes largos (Palmer, 2008).

Bajo ciertas condiciones, el AC puede sufrir de llamado “efecto de arco”, el cual consiste en una distorsión de uno de los ejes con respecto del otro. Sin embargo, este efecto es menos grave que el de herradura, dado que los extremos de los gradientes no aparecen en el biplot en sentido contrario al eje de variación (como ocurre en el efecto herradura). Es importante mencionar que este efecto (arco) produce que los extremos de los gradientes aparezcan “comprimidos” en los gráficos. El efecto arco es causado por la no linealidad de las curvas de respuesta de las variables.

En ambas técnicas, si el comportamiento de las variables es otro a los ya descritos (algo muy posible en datos biológicos (Potvin y Roff, 1993)), se obtendrán representaciones graficas distorsionadas de los sentidos y direcciones de variación de las variables.

*Tomando en cuenta que las variables estudiadas estén medidas en métricas con similares magnitudes de variación, si no se cumple este requisito, se debe efectuar el análisis sobre matrices en la que se hayan estandarizado las varianzas, e.g., matriz de correlación.


Bibliografía

Afifi, A. A. y V. Clark. 1984. Computer-Aided Multivariate Analysis. Van Nostrand Reinold Company. New York.
Clark, C. 2005. An Introduction to Ordination. San Francisco State University. En: http://online.sfsu.edu/~efc/classes/biol710/ordination/ordination.htm. Activa el 20 de febrero de 2008.
Palmer, M. 2008. Ordination Methods for Ecologists. Oklahoma State University. Department of Botany. En: http://ordination.okstate.edu/ Activa el 20 de febrero de 2008.
Potvin, C. y D. Roff. 1993. Distribution-free methods: Viable alternatives to parametric statistics. Ecology: 74: 17-28.