¿Cómo funciona ChatGPT y los LLM? Como GPT, Claude, LlaMA

Tiempo de lectura: 3.15 minutos

Póster del artículo ¿Cómo funciona ChatGPT y los LLM? Como GPT, Claude, LlaMA

¿Qué es ChatGPT?

ChatGPT es una aplicación, basada en GPT, un modelo de lenguaje desarrollado por OpenAI.

GPT también es accesible a través de la API de OpenAI, y a través de Copilot.

Pero, ¿qué es GPT?

¿Qué es GPT?

Es un large language model, o LLM por sus siglas en inglés.

Es decir, es un modelo de lenguaje, tan grande, que puede generar texto como si de un humano se tratase.

Su nombre, Generative Pre-trained Transformer, describe la arquitectura que usa.

Pero debes tener en cuenta que no es el único LLM.

  • Gemini es un LLM desarrollado por Google.
  • LlaMA por Facebook.
  • Claude por Anthropic.

¡No te preocupes si no lo entiendes perfectamente aún!

Hoy vamos a ver:

  1. Qué es un LLM
  2. Cómo funcionan; y por último,
  3. Revisar aplicaciones empresariales de los LLM.

¿Qué es un LLM?

¡Excelente pregunta!

¿Qué es un large language model o un gran modelo de lenguaje?

Es una instancia de lo que se conoce como foundation model, o modelos fundacionales.

Los modelos fundacionales están pre entrenados, con grandes cantidades de datos no etiquetados, y con auto-supervisión.

Estos modelos aprenden de los patrones que hay en los datos, de tal manera que producen resultados generalizables y adaptables.

Y los modelos de lenguaje son instancias que aplican estos modelos fundacionales específicamente al texto, y a cosas similares, como el código que usamos para programar.

Los LLM son instancias de los modelos fundacionales

Ahora bien, estos grandes modelos de lenguajes, se entrenan con grandes conjuntos de datos de texto, como:

  • libros,
  • artículos y
  • conversaciones.

Decimos "grandes", porque estos modelos pueden tener tamaños de decenas de gigabytes y estar entrenados con cantidades enormes de datos de texto.

Potencialmente, se entrenan con petabytes de datos.

Los LLM tienen un tamaño de decenas de GB

Para poner esto en perspectiva:

Un archivo de texto de, aproximadamente, 1 gigabyte de tamaño, puede almacenar alrededor de 178 millones de palabras.

!Son muchas palabras en tan solo 1 GB!

¿Y cuántos gigabytes hay en un petabyte? Bueno, aproximadamente 1 millón.

En 1 GB tenemos aproximadamente 178M de palabras y en 1 Petabyte tenemos aproximadamente 1M de Gigabytes

Sí, es realmente una cantidad enorme de datos.

Ahora bien, los LLM también se encuentran entre los modelos más grandes en cuanto al número de parámetros.

Un parámetro es un valor que el modelo puede cambiar de forma independiente durante su proceso de aprendizaje, y mientras más parámetros tiene un modelo, más complejo puede ser.

Por ejemplo, GPT-3:

  • Está pre entrenado con 45 terabytes de datos,
  • y utiliza 175 mil millones de parámetros de aprendizaje automático.
Mientras más parámetros tiene un LLM más complejo puede ser

¿Cómo funcionan los LLMs?

Entonces, ¿cómo funcionan?

Podemos verlo de esta manera.

Un LLM consta de 3 componentes:

  • datos,
  • arquitectura y, por último,
  • entrenamiento.
Para comprender cómo funcionan los LLM tenemos 3 componentes: datos, arquitectura y entrenamiento

Ya hemos hablado de la enorme cantidad de datos de texto que se utilizan en estos modelos.

En cuanto a la arquitectura, es una red neuronal, y en el caso de GPT, específicamente es un transformer.

La arquitectura de transformador permite al modelo manejar secuencias de datos, como oraciones o líneas de código.

Los transformadores están diseñados para entender el contexto de cada palabra en una oración, considerando su relación con todas las demás palabras.

Esto permite al modelo construir una comprensión integral de la estructura de la oración y del significado de las palabras dentro de ella.

Luego, esta arquitectura se entrena, con una gran cantidad de datos.

Durante el entrenamiento, el modelo aprende a predecir la siguiente palabra en una oración.

Por ejemplo, para "El cielo es...":

  • Comenzará con una suposición al azar, como "El cielo es... azúcar".
  • Pero con cada iteración, el modelo ajusta sus parámetros internos para reducir la diferencia entre sus predicciones y los resultados reales.
  • El modelo sigue haciendo esto, mejorando gradualmente sus predicciones, hasta que pueda generar oraciones coherentes de manera confiable.
  • No más "azúcar". Ahora el modelo entiende que es "azul".

Es importante tener en cuenta que:

El modelo puede afinarse con un conjunto de datos más específico, y así perfeccionar su comprensión para realizar una tarea específica con mayor precisión.

Este ajuste se conoce como Fine Tuning y es lo que permite que un modelo de lenguaje general se convierta en un experto de tareas más específicas.

Aplicaciones empresariales

Pero, ¿cómo encaja todo esto en el punto número 3? ¿Cómo se usan empresarialmente?

Veamos:

  • Para aplicaciones de servicio al cliente, las empresas pueden usar LLMs para crear chatbots inteligentes, que puedan atender una amplia variedad de consultas, liberando a los agentes humanos para que se ocupen de problemas más complejos.

  • Otro uso muy interesante es la creación de contenido, ya que los LLMs pueden ayudar a generar artículos, correos electrónicos, publicaciones para redes sociales, e incluso guiones para videos de YouTube.

  • Los LLMs también pueden contribuir al desarrollo de software, ayudando a generar y revisar código.

Y bien, estos son tan sólo algunos de los ejemplos más comunes hoy en día.

Pero los modelos de lenguaje siguen evolucionando, y seguramente continuaremos descubriendo aplicaciones cada vez más innovadoras.

Bonus: Explicación en video

Si te interesa aprender este tema viendo un video, puedes visitar mi canal de YouTube, o bien reproducir el video desde aquí mismo:

Despedida

¡Espero que este tema te haya parecido tan interesante como a mí!

Si tienes alguna pregunta, o aporte, házmelo saber.

Y si quieres aprender a programar, para posteriormente desarrollar proyectos de software usando inteligencia artificial, te invito a obtener una suscripción y seguir mis cursos 😉.

¡Muchas gracias por leer hasta el final!

# inteligencia artificial

Logo de Programación y más

Comparte este post si te fue de ayuda 🙂.

Regístrate

Accede a todos los cursos, y resuelve todas tus dudas.

Cursos Recomendados 🚀

Imagen para el curso Laravel y Android

Laravel y Android

Curso intensivo. Incluye el desarrollo de una API, su consumo, y autenticación vía JWT. También vemos Kotlin desde 0.

Iniciar curso
Imagen para el curso Aprende Javascript

Aprende Javascript

Domina JS con este curso práctico y completo! Fundamentos, ejemplos reales, ES6+, POO, Ajax, Webpack, NPM y más.

Iniciar curso
Imagen para el curso Docker y Microservicios

Docker y Microservicios

Aprende por qué es importante y cómo funciona Docker, con este nuevo curso práctico!

Iniciar curso

Espera un momento 🎁 ...

¿Te gustaría aprender a programar, gratis?

Mago de Programación y más

Sólo debes registrarte 😉.