
Apostar por Inteligencia Artificial creada en Cuba será siempre un ganar-ganar en el panorama tecnológico; y así lo demuestra CecilIA: un modelo de lenguaje cubano capaz de entender y reproducir matices culturales y contextuales propios de la nación caribeña y de Latinoamérica.
Desarrollado por el Grupo de Investigaciones en Inteligencia Artificial (IA) de la Facultad de Matemática y Computación de la Universidad de La Habana (UH), en colaboración el Grupo de Procesamiento del Lenguaje y Sistemas de Información de la Universidad de Alicante, la microempresa cubana SYALIA S.R.L., su par española EPISTEMIAL, y la Secretaría de Cultura de España, CecilIA nació oficialmente el pasado 26 de mayo, día que concluyó su primer entrenamiento, anunciaron los creadores en el contexto de la Convención Saber UH 2025.
En la presentación de CecilIA que tuvo lugar el viernes 4 de julio en la sede de la Unión Nacional de Juristas de Cuba en La Habana, Suilán Estévez, decana de la Facultad de Matemática y Computación de la UH, puntualizó esta IA constituye un paso de avance significativo en la creación de sistemas tecnológicos de Inteligencia Artificial adaptados a las particularidades lingüísticas y culturales de la región, “superando limitaciones de modelos internacionales que carecen de sensibilidad local”.
Su fin no es solo procesar el idioma, sino también las particularidades culturales, sociales y lingüísticas del país, como modismos, expresiones y referencias culturales típicas que ayuden después a escribir textos, analizar sentimientos en redes sociales cubanas, reconocer nombres propios específicos de Cuba o traducir con sensibilidad a las variantes del español cubano.
CecilIA fue “entrenada” con un amplio repertorio de textos, que incluye más de 400 obras literarias cubanas relevantes, documentos oficiales, y una vasta representación de la cultura y el idioma en sus variantes regionales, que abarcan los últimos 10 años de producción textual, detalló en el espacio Yudivián Almeida, coordinador de la Especialidad de Ciencias de Datos de la Facultad de Matemática y Computación de la UH.
Explicó que parte de un modelo predeterminado denominado Salamandra 2B, especializado en español, sobre el cual se realizaron ajustes para adaptar a CecilIA a las características específicas del “español cubano y latinoamericano”.
“Durante 48 horas continuas, los creadores entrenamos esta herramienta, utilizando infraestructura tecnológica avanzada que permite manejar modelos con miles de millones de parámetros, garantía para la precisión, coherencia y eficiencia en el procesamiento del lenguaje con un enfoque especial en el que se habla en Cuba”, destacó Almeida.
Para ello se tomaron datos de fuentes como Ecured (65 %), ediciones de la última década de los periódicos nacionales Granma y Juventud Rebelde (20 %), 400 obras de la literatura cubana (9,5 %). Así como una colección extensa de la Gaceta Oficial de Cuba (1,5 %), enciclopedias con “cubismos” (0,6 %) y otros textos cubanos (3,4 %).
Se trata de un modelo mediano o pequeño de lenguaje, que en comparación con otros mayores en el mundo, tienen más limitaciones en comprensión profunda y razonamiento complejo, con mayor dependencia de la calidad de datos utilizados para su creación.
“Debido a las características culturales, infraestructura tecnológica y capacidades económicas del país, se tomó a Salamandra 2b como el punto de partida para la creación de un modelo de lenguaje cubano, una decisión estimulada por las relaciones académicas entre ambos equipos desarrolladores, había comentado recientemente Almenida a la revista Juventud Técnica.
Al referirse a los modelos de lenguaje Salamandra, indicó que son multilingües, de código abierto y entrenados de cero con datos abiertos en infraestructura avanzada; y cuentan con distintas versiones, según el número de parámetros. La más pequeña es el 2b.
Para dar vida a CecilIA confluyeron conocimientos de estudiantes, investigadores y profesionales de diversas áreas, incluyendo lingüística, informática, literatura y teatro, lo que enriqueció el enfoque cultural y técnico del proyecto.
Almeida reafirmó que poseer en Cuba modelos de lenguaje propios como CecilIA, creados a partir de texto cubano es fundamental a fin de poder tener en el futuro otras aplicaciones de IA generativa que capturen los matices de las variantes lingüísticas cubana, la cultura, tradiciones e historia de la nación.
En la entrevista con JT, a cargo del periodista Raúl Abreu, el doctor en Ciencias especificó que esta IA es muestra de soberanía tecnológica, fomenta la innovación tecnológica local y aumenta la accesibilidad y democratización del uso de aplicaciones basadas o que usen modelos generativos.
“De esta forma, dijo, se puede trabajar mejor en la creación de sistemas computacionales más eficientes y especializados en sectores concretos”.
CecilIA marca, como lo hizo aquella Cecilia Valdés del siglo XIX, una pauta fundamental en la cultura y el ecosistema social cubano.
El nombre de la IA, refirieron sus creadores, rinde homenaje al emblemático personaje de la literatura cubana que hoy sirve de testimonio de cómo se pensó y vivió la nación en aquellos tiempos; mientras que CecilIA se consolida como el crear y potenciar la Cuba de hoy, para mantener las raíces de la isla y llevarlas al futuro.
En Latinoamérica también existe el proyecto Latam-GPT, el primer modelo de inteligencia artificial centrado en el procesamiento del lenguaje, desarrollado para captar la riqueza cultural y lingüística de la región.
A cargo del Centro Nacional de Inteligencia Artificial de Chile, la idea reúne el esfuerzo conjunto de más de 30 entidades de diferentes partes de la región y utiliza una infraestructura computacional latinoamericana que une recursos locales y plataformas en la nube.
Sus desarrolladores han puntualizado que posee aproximadamente 17,5 terabytes de información inédita, proveniente en gran parte de fuentes externas a internet, que fue posible mediante la recopilación de datos sobre lenguas indígenas y la colaboración de múltiples actores regionales que contribuyeron para lograr este modelo abierto y diseñado para reflejar la diversidad cultural, histórica y lingüística de América Latina y el Caribe.