Nuestro asistente no nace sabiendo; necesita aprender de muchos ejemplos. Es como enseñarle a un niño a leer, mostrándole miles de libros.
- Paso 3: La Gran Recopilación (Carga y Preprocesamiento de Datos)
Aquí, nuestro asistente "lee" un montón de artículos médicos. Pero no los lee como nosotros; los convierte en algo que él pueda entender.

- Carga de datos: Recopilamos miles de artículos, cada uno con su título, resumen y las categorías correctas ya asignadas por expertos.
- Uniendo las piezas: Juntamos el título y el resumen de cada artículo en un solo "texto grande".
- Traducir a su idioma: Las categorías que están en palabras (como "Cardiovascular") las convertimos a números (0 o 1). ¿Por qué? Porque a veces un artículo puede ser sobre el corazón Y el cerebro, y nuestro asistente necesita entender que puede tener varias etiquetas.
- La Prueba de Fuego: Dividimos todos estos artículos en dos grupos: uno para que nuestro asistente "estudie" (entrenamiento) y otro para hacerle un "examen sorpresa" (prueba). Nos aseguramos de que ambos grupos tengan una mezcla similar de categorías, para que el examen sea justo.