Supongámos que has estado ahorrando durante un tiempo y quieres empezar a invertir en activos financieros (para este ejemplo, digamos que en acciones). En Mexico hay aproximadamente 140 empresas listadas en la Bolsa Mexicana de Valores y la pregunta más natural es ¿cómo deberías repartir tu capital entre estas 140 acciones para poder obtener el mejor rendimiento y al mismo tiempo el menor riesgo posible?

Teoría de Portafolios de Markowtiz para Científicos de Datos

Esta pregunta (de forma más general, por supuesto) fue estudiada por Markowitz en 1952 en un artículo llamado Portfolio Selection, donde la gran contribución de este personaje fue plantear este problema de forma matemática y poder utilizar métodos disponibles en su tiempo para resolver dicho problema (me refiero a la programación cuadrática, en la cuál no profundizaré pero de la cual puedes leer más [aquí].(https://en.wikipedia.org/wiki/Quadratic_programming))

El planteamiento del problema hecho por Markowitz consistía entonces en encontrar el vector de pesos \(x^* \in R^N\) (se llama vector de pesos porque la entrada \(i\) de este vector contenía la proporción del capital que debía ser asignado al activo \(i\)) que mimice el riesgo y maximice el retorno del portafolio. Matemáticamente, esto puede escribirse de la siguiente manera:

\[x^*(\gamma) = \text{arg min} \quad x^t \Sigma x - \gamma x^T \mu\]

Hay que notar que el riesgo del portafolio en esta ecuación se encuentra en el término \(x^t \Sigma x\) (y que se está tratando de minimizar) y las ganancias del portafolio se encuentrán en el término \(x^T \mu\) (el cuál tiene signo negativo, por lo que se está tratando de maximizar). También se tiene un parámetro \(\gamma\) que es un factor de aversión al riesgo. Mientras más alto sea el parámetro, menos adverso al riesgo es el inversionista (es decir, la solución le da más importancia a obtener ganancias esperadas y le resta importancia a reducir el riesgo del portafolio).

A grandes rasgos, este es el problema estudiado en la teoría de Portafolios de Markowitz, y en el futuro espero poder profundizar en el tema e interpretar las soluciones que se obtienen al utilizar esta teoría, así como la forma de restringir este planteamiento para modificar las soluciones de acuerdo a distintas soluciones que modifican el planteamiento inicial.

Como puedes ver, hay dos componentes que era necesario estimar para poder plantear el problema: el estimador de la matriz de varianza covarianza (o el estimador de correlación en algunos casos) y el estimador de los retornos esperados, siendo importante resaltar que la calidad de estos estimadores tiene un impacto directo en la calidad de la solución obtenida ( es decir, si usas estimadores que no son precisos, entonces obtienes soluciones que no van a funcionar como se espera en la práctica).

Un mejor estimador: El RIE

Los investigadores Bouchaud y Potters estudiaron la interacción que existe entre los estimadores y las soluciones obtenidas en el 2011 (puedes consultar más información aquí) y encontraron que el estimador de correlación muestral (que es el que la mayoría de las personas utiliza y el que calculas cuando utilizas numpy con np.corrcoef o pandas con DataFrame.corr) está sesgado al trabajar en la alta dimensionalidad (es decir, con un data set que tiene gran número de columnas y gran número de filas), pues en estos casos el estimador muestral capta relaciones entre los activos que son producto del azar y no necesariamente están presentes en los datos históricos. Es por esto que éstos mismos autores han estudiado otro tipo de estimadores para poder así quitar el “ruido” que se produce en el estimador muestral al trabajar en alta dimensionalidad y, por consecuencia, mejorar de forma indirecta los resultados que se obtienen al utilizar métodos de diversificación al mejorar los estimadores que se utilizan.

Fue así como se desarrolló el RIE (o estimador rotacionalmente invariante, por sus siglas en inglés), del cual puedes encontrar más aquí y que está desarrollado utilizando resultados relativamente nuevos de probabilidad libre y teoría de matrices aleatorias. Entre estos resultados está la posibilidad de cuantificar la contribución de los efectos del azar a la matriz de correlación muestral (bajo supuestos asintóticos y distribucionales).

El objetivo de este estimador entonces es corregir el sesgo del estimador muestral cambiando sus valores propios (más aquí sobre lo que son los valores propios de una matriz) utilizando estos resultados, de forma que se “limpie” al estimador de correlación muestral del ruido estocástico.

Para mi tesis en el CIMAT necesitaba calcular este estimador, y no logré encontrar una implementación en Python que siguiera la metodología original de los autores y fuera consistente al aplicarse con datos reales, por lo que me dí a la tarea de implementar el cálculo de este estimador yo mismo (la forma en la que puedes instalar y usar la implementación del RIe la puedes encontrar [aquí](https://github.com/jduarte00/rie_estimator).

Aplicando el RIE en datos reales

Dado que el RIE utiliza resultados relativamente nuevos ¿realmente podemos estar seguros de que funciona mejor que el estimador de correlación muestral que siempre utilizamos?

Para contestar esta respuesta, aplique el RIE a datos financieros reales, en particular a los activos del índice S&P 500 (el cuál contiene más de 500 acciones y nos permite trabajar en la alta dimensionalidad), utilizando un periodo de tiempo desde el 2012 hasta el 2020 y utilizar los datos del 2021 para verficar como se hubiera comportado el portafolio.

Una vez obtenido el RIE, calculé la frontera óptima utilizando el estimador muestral de la matriz de correlación que todos conocemos (líneas azules) y también calculé dicha frontera pero esta vez utilizando el RIE (líneas rojas). Los resultados son los siguientes:

Las líneas punteadas son calculadas utilizando el riesgo dentro de muestra (es decir, el riesgo del portafolio utilizando solo los datos del 2012 hasta el 2020) y las líneas sólidas son calculadas utilizando el riesgo fuera de muestra (es decir, el riesgo del portafolio en el 2021). La teoría nos dice que el riesgo real del portafolio está entre el riesgo dentro de muestra y el riesgo fuera de muestra, por lo que mientras más cerrado es el espacio entre las fronteras óptimas, más se acerca nuestro estimador al riesgo real, y es posible observar que utilizar el RIE reduce la brecha entre estas dos fronteras, con lo que se comprueba empíricamente que el RIE es más preciso que el estimador muestral.