domingo, 6 de abril de 2008

Sobre el diseño de experimentos en agroecología

Diego Griffon B.
.
Es un hecho que llama la atención, el que en ciencias agrícolas y biológicas se diseñen y analicen la abrumadora mayoría de los experimentos en función del uso casi exclusivo del ANAVAR (Cottingham et al., 2005). Esto se debe, entre otras razones, a la simplicidad y elegancia de la técnica, aunado a la influencia del brillante trabajo de Ronald Fisher, quien utilizó el ANAVAR amplia y exitosamente en experimentos de genética cuantitativa y de índole agronómica (Gore, 2003; Armstrong y Milton, 2004).

El ANAVAR tiene por objetivo responder a preguntas cualitativas del tipo (Cottingham et al., 2005): ¿la variable respuesta Y se comporta de igual manera bajo diferentes niveles de las variables independientes Xi?. Es decir, esta metodología es apropiada para conducir y analizar experimentos de perturbación, experimentos considerados fundamentales en la agroecología, siendo esta otra razón por la cual su uso es tan habitual en el área.

Sin embargo, no esta de más evaluar el comportamiento del ANAVAR con respecto a alguna de sus alternativas. El objetivo fundamental del ANAVAR es comparar el efecto de diferentes niveles de un(os) factor(es) sobre una variable respuesta. Este objetivo también es abordado por la técnica de regresión, la cual estudia la pregunta (Cottingham et al., 2005): ¿Como cambia una variable dependiente ante cambios en variables independientes?

Por lo antes dicho, nos damos cuenta que bajo ciertas condiciones, una interrogante particular puede ser abordada por cualquiera de estas técnicas (Cottingham et al., 2005). Por lo tanto, es interesante realizar una comparación a mayor profundidad de ambas metodologías.

El ANAVAR responde a sus preguntas de manera cualitativa, es decir, nos da información sobre la presencia o no de efectos de las variables independientes sobre las variables dependientes; por su parte, el análisis de regresión, nos ofrece información cuantitativa sobre la magnitud de los cambios en la variable dependiente, ocasionados por variaciones en las variables independientes (Cottingham et al., 2005).

De esta manera, el ANAVAR se aplica al estudio de variables independientes discretas o para variables continuas que se puedan trasformar a discretas (Cottingham et al., 2005). La regresión aborda el problema de una manera cuantitativa, en el sentido de que nos informa de cambios cuantitativos en la variable dependiente, en función de cambios de igual índole en las variables independientes, por lo tanto, en esta técnica solo se pueden utilizar variables cuantitativas (Cottingham et al., 2005).

A pensar de esta diferencia en cuanto al tipo de variables utilizadas, ambas técnicas presentan muchas similitudes. Particularmente importante es el hecho de que en ambas técnicas se utiliza el mismo modelo matemático. El modelo utilizado es un modelo lineal aditivo, el cual en forma de algebra lineal viene dado por la siguiente expresión (Cottingham et al., 2005):

Donde Y representa la variable respuesta (dependiente), X representa la matriz de variables independientes, b representa la matriz de los parámetros asociados a las variables independientes y finalmente e representa a los errores.

Sin embargo, es importante resaltar que el ANAVAR y la regresión lineal múltiple ponen a prueba hipótesis diferentes, en el caso del ANAVAR, se somete a prueba la hipótesis nula: los tratamientos no presentan diferencias en sus efectos sobre la variable respuesta, mientras que en la regresión lineal la hipótesis nula es:
la variable dependiente (Y) no es predicha por ninguna función lineal de X.

Otra diferencia entre el ANAVAR y la regresión se encuentra en las características de las entradas (aij) en la matriz de variables independientes (X). En el ANAVAR como ya se mencionó, estas entradas son de tipo discreto, mientras que en el caso de la regresión las variables son continuas (Cottingham et al., 2005).

Las entradas en la matriz b, en el caso de la regresión determinan la forma de la relación entre la variable dependiente y las independientes; en el caso del ANAVAR las entradas de esta matriz nos ofrecen información sobre las medias de los tratamientos (Cottingham et al. 2005).

A pesar de su similitud en cuanto al modelo matemático utilizado, estas técnicas se fundamentan en supuestos diferentes. En el caso de la regresión lineal, se asume que la relación entre la variable dependiente y las independientes es lineal (i.e., se puede utilizar una línea recta para describir la relación), en el ANAVAR no existe este supuesto. El supuesto de linealidad restringe en gran medida el uso de la regresión lineal, siendo esta una ventaja del ANAVAR sobre esta técnica (Cottingham et al., 2005).

Otra diferencia fundamental entre las dos técnicas, la encontramos en el número de parámetros utilizados. En ambos casos los parámetros utilizados están determinados por el número de columnas en la matriz X. De manera general, en el ANAVAR esta matriz presenta más columnas que en la regresión. Esto se debe, a que en el ANAVAR cada tratamiento genera una columna. En el caso de la regresión, las columnas representan: i.- el intercepto con las ordenadas, ii.- los efectos de los factores evaluados (una por cada factor) y iii.- las interacciones entre los factores (una por cada combinación) (Cottingham et al., 2005).

Debido a lo antes dicho, resulta la que es quizás la diferencia fundamental entre las dos técnicas. Dado que la regresión en términos generales involucra un menor numero de parámetros (i.e., columnas en la matriz X), esta técnica tiene una mayor potencia que el ANAVAR (Cottingham et al., 2005).

En el caso del ANAVAR, la potencia de la prueba esta determinada por el numero de replicas de los tratamientos. La potencia de una regresión esta determinada por el número de variables independientes evaluadas y el número de unidades experimentales disponibles (Cottingham et al., 2005).

Es por esto que Cottingham et al. (2005) concluyen que siempre que la pregunta en estudio pueda ser abordada por ambas técnicas, se debe preferir utilizar la regresión. Por supuesto, en el caso de que la pregunta en estudio, solo permita utilizar variables independientes del tipo cualitativo, nuestra única opción es el ANAVAR; mas aun, aunque nuestras variables independientes sean cuantitativas, si no se puede representar su relación con Y, mediante un modelo lineal, también nos vemos obligados a elegir un ANAVAR.

Una importante característica de la regresión, que no se encuentra en el ANAVAR, es que esta técnica resulta en la generación de un modelo predictivo del comportamiento de Y dados valores en X. Por lo tanto, si nuestro objetivo es generar modelos predictivos, algo muy útil y necesario en agroecología, nuestra única alternativa es la regresión (Cottingham et al., 2005).

Por lo hasta aquí comentado, se hace evidente que ambas técnicas tienen ventajas y desventajas. El “procedimiento óptimo” pudiese ser uno en el cual se diseña el experimento para que los datos sean analizados mediante una regresión, pero tomando en cuenta en el diseño la posibilidad de que no se cumplan los supuestos de la técnica. El experimento debe ser diseñado de una manera tal que podamos realizar también un ANAVAR a partir de los datos obtenidos. Por lo tanto, el diseño debe asegurar que ambos análisis tengan una potencia adecuada, de manera de no sacrificar calidad en el análisis de ser necesario utilizar el ANAVAR (Cottingham et al., 2005).

Una última recomendación, en el caso de las regresiones, la técnica es muy sensible a la ocurrencia de errores o sesgos en la estimación de las variables independientes, dado que se asume explícitamente que estas son medidas sin errores. Una manera de evitar este problema, es diseñar experimentos en los cuales se realicen múltiples mediciones independientes de la variable respuesta para los diferentes niveles de los factores (Cottingham et al., 2005).

Es importante recordar aquí, que la potencia de la regresión esta determinada por el numero de unidades experimentales, no por el numero de replicas por tratamiento. Por lo tanto, asignar unidades experimentales a replicaciones, no afecta la potencia, pero si disminuye los problemas de errores en la medición de las variables (Cottingham et al., 2005).

Finalmente Cottingham et al. (2005) proponen que en el “procedimiento optimo” el diseño debe balancear dos objetivos que compiten entre si: i.- tener suficientes niveles de las variables independientes para obtener un modelo cuantitativo significativo, ii.- proteger el experimento contra los errores en la medición de las variables, haciendo replicas de los tratamientos; de esta manera, también se logra que en el caso de ser necesario recurrir a un ANAVAR, este tenga una potencia adecuada. Claro esta, estos objetivos compiten suponiendo que existe alguna limitante de índole práctica en el número total de unidades experimentales disponibles.


Bibliografía:


Armstrong, R. y Hilton, A. 2004. The use of Analysis of Variance (ANOVA) in applied microbiology. Microbiologist. D. p. 18-21

Cottingham K.L., Lennon J.T. and Brown B.L. 2005. Knowing when to draw the line: designing more informative ecological experiments. Frontiers in Ecology and The Environment 3: 145-152.

Gore, A. P. 2003. Statistical Analysis of Designed Experiments. Current Science, V. 84, N. 5. p. 717.