Ahora que tenemos los ingredientes, ¡es hora de cocinar el cerebro de nuestro asistente!
- Paso 4: Aprendiendo a Entender Palabras (Vectorización y Entrenamiento de Modelos)
Aquí es donde la magia de la Inteligencia Artificial empieza de verdad

- Convirtiendo palabras en números (
TfidfVectorizer
): Nuestro asistente no entiende palabras, ¡solo números! Así que, cada palabra y cada par de palabras en los artículos se convierte en un número que representa su importancia. Es como darle un "código secreto" a cada término médico.
- Primeras lecciones (
LogisticRegression
y LinearSVC
): Le presentamos dos "maestros" a nuestro asistente: la Regresión Logística y el Clasificador de Vectores de Soporte. Ambos aprenden a conectar esos códigos secretos numéricos con las categorías médicas. Cada maestro aprende a decir "sí" o "no" a cada categoría (es decir, "Este artículo es Cardiovascular" o "No lo es").
- Ajustando sus gafas (Optimización de Umbrales): Nuestro asistente predice con una "probabilidad" (un número entre 0 y 1). Si dice 0.7 de probabilidad de ser "Cardiovascular", ¿es suficiente para etiquetarlo así? Aquí, ajustamos esos "umbrales" o puntos de corte para cada categoría, como ajustar unas gafas para que vea lo más claro posible.
- Eligiendo al mejor maestro: Comparamos qué tan bien lo hizo cada maestro. La Regresión Logística con sus gafas bien ajustadas fue la ganadora en esta primera ronda.