Hola amigxs 🤗
Hoy vamos a hablar sobre feature selection, una técnica de feature engineering que se utiliza para seleccionar las características más relevantes para un modelo de machine learning.
Antes de entrar en detalles, es importante aclarar que el feature engineering es el proceso de preparar los datos para el modelado. Esto incluye la selección, creación y transformación de las características que utilizaremos en nuestro modelo. La feature selection, por su parte, se refiere específicamente a la selección de características.
¿Por qué es importante la feature selection?
Bueno, a veces tenemos muchas características disponibles para un problema dado, pero no todas son necesarias o relevantes para el modelo.
Utilizar todas las características disponibles puede hacer que el modelo sea menos preciso o incluso más lento al ejecutarse.
Además, utilizar características irrelevantes o redundantes puede afectar negativamente el rendimiento del modelo.
¿Cómo podemos seleccionar las características más relevantes para nuestro modelo?
Hay varias técnicas que podemos utilizar, y la elección de la técnica depende del conjunto de datos y del tipo de modelo que estemos construyendo.
Algunas técnicas comunes incluyen:
Filtrado
Esta técnica se basa en medidas estadísticas para seleccionar las características más relevantes. Por ejemplo, podríamos utilizar la correlación de Pearson para seleccionar las características más correlacionadas con la variable objetivo.
Aquí te dejo un ejemplo de cómo podríamos utilizar la correlación de Pearson en Python:
Wrapper
Esta técnica utiliza el modelo de machine learning como un “envoltorio” para seleccionar las características. Por ejemplo, podríamos utilizar un modelo de regresión lineal y ir eliminando características una a una, eval.
Aquí te dejo un ejemplo de cómo podríamos utilizar la técnica de wrapper en Python:
Embedded
Esta técnica incluye la selección de características como parte del proceso de entrenamiento del modelo. Por ejemplo, algunos algoritmos de árboles de decisión incluyen una función de selección de características automática.
Un ejemplo de cómo podríamos utilizar la técnica de embedded en Python es el siguiente:
Espero que hayas podido entender cómo funcionan las diferentes técnicas de feature selection y cómo podríamos utilizarlas en Python.
Recuerda que la feature selection es una tarea clave en el proceso de modelado de machine learning, ya que nos ayuda a mejorar la precisión y el rendimiento de nuestros modelos al eliminar características irrelevantes o redundantes.
Para terminar, quiero dejarte con una reflexión final: A veces nos tentamos a utilizar todas las características disponibles pensando que más es mejor. Sin embargo, como hemos visto, utilizar características irrelevantes o redundantes puede afectar negativamente el rendimiento del modelo.
Por eso, la feature selection es clave para construir modelos más precisos y robustos. Así que no olvidemos dedicar tiempo y esfuerzo a esta tarea durante el proceso de modelado.
¡Ojala que hayas disfrutado este artículo sobre feature selection!
Si tienes alguna duda o quieres compartir algún ejemplo de cómo has utilizado esta técnica en tu trabajo como Data Scientist, no dudes en dejar un comentario. ¡Hasta la próxima! 🤗