Ahora que tenemos los ingredientes, ¡es hora de cocinar el cerebro de nuestro asistente!

4.jpg

  1. Convirtiendo palabras en números (TfidfVectorizer): Nuestro asistente no entiende palabras, ¡solo números! Así que, cada palabra y cada par de palabras en los artículos se convierte en un número que representa su importancia. Es como darle un "código secreto" a cada término médico.
  2. Primeras lecciones (LogisticRegression y LinearSVC): Le presentamos dos "maestros" a nuestro asistente: la Regresión Logística y el Clasificador de Vectores de Soporte. Ambos aprenden a conectar esos códigos secretos numéricos con las categorías médicas. Cada maestro aprende a decir "sí" o "no" a cada categoría (es decir, "Este artículo es Cardiovascular" o "No lo es").
  3. Ajustando sus gafas (Optimización de Umbrales): Nuestro asistente predice con una "probabilidad" (un número entre 0 y 1). Si dice 0.7 de probabilidad de ser "Cardiovascular", ¿es suficiente para etiquetarlo así? Aquí, ajustamos esos "umbrales" o puntos de corte para cada categoría, como ajustar unas gafas para que vea lo más claro posible.
  4. Eligiendo al mejor maestro: Comparamos qué tan bien lo hizo cada maestro. La Regresión Logística con sus gafas bien ajustadas fue la ganadora en esta primera ronda.