Utiliza un lenguaje natural para ayudar en las tareas cotidianas de instituciones y empresas
Orai ha desarrollado un chatbot en euskera capaz de ayudar en el día a día a empresas e instituciones. Kimu, se llama. Su ligereza permite instalarlo en servidores y ordenadores de empresas e instituciones, lo que contribuye a preservar la privacidad y confidencialidad de los datos. El modelo es capaz de comprender y ejecutar las tareas solicitadas por el usuario en euskera utilizando un lenguaje natural.
«Puede utilizarse para elaborar traducciones y resúmenes, responder preguntas sobre documentos, extraer información, corregir o adecuar textos…», ha explicado Xabier Saralegi, responsable de Tecnologías NLP de Orai. No obstante, en función de las necesidades de empresas e instituciones, existe la posibilidad de especializar el modelo para realizar determinadas tareas y de ese modo mejorar la calidad de los resultados.
Reducido tamaño
Una de las principales ventajas de Kimu es su reducido tamaño: cuenta con 9.000 millones de parámetros y se encuadra en la categoría de pequeños modelos de lenguaje (SML Small Language Models) dentro de los LLM. Los pequeños modelos de lenguaje libres ofrecen resultados competitivos en las grandes lenguas (castellano, inglés, etc.), pero no en las lenguas con recursos limitados, como es el caso del euskera. De hecho, los investigadores de Orai investigan, entre otras cosas, cómo integrar las competencias del euskera en pequeños modelos de lenguaje a través de la transferencia lingüística.
Frente a ChatGPT, DeepSeek, Claude y otros LLM, los modelos SLM ofrecen una calidad competitiva, sobre todo cuando se adaptan para desempeñar determinadas tareas, y presentan, en general, algunas ventajas notables: son más ligeros y rápidos, requieren menos recursos y consumen menos energía.
Para conseguir grandes modelos de lenguaje, es fundamental manejar cantidades inmensas de datos y texto, algo que es difícil de obtener en lenguas de recursos limitados. El equipo investigador de Orai analiza diversas estrategias para conseguir soluciones válidas para el euskera, basándose para ello en modelos libres que ofrecen buenos resultados en otras lenguas.
Modelo instruido
El método utilizado solo requiere un corpus de textos para realizar la adaptación lingüística. Al modelo fundacional que no sabe bien euskera se le enseña euskera utilizando un corpus. «En la experimentación hemos utilizado el corpus Zelai Haundi, creado por Orai, un corpus de 500 millones de palabras, que alberga únicamente contenidos de licencia libre», han explicado los investigadores de Orai.
Aunque Kimu se ha creado para el euskera, ofrece buenos resultados también en otras lenguas: castellano, inglés, italiano…Por ello, el equipo de Orai, ha experimentado también con el suajili y el galés comprobando si sirve también para otras lenguas de recursos limitados consiguiendo mejorar notablemente a modelos base ya existentes.
Fuente: Diario Vasco. GCI
