Dentro de ChatGPT: Comprensión OpenAIModelos de la base del transformador

Generative Pretrained Transformers

ChatGPT tomó al mundo por sorpresa con sus elocuentes respuestas similares a las humanas impulsadas detrás de escena por IA avanzada. Específicamente, debe sus capacidades de lenguaje natural a una familia de modelos llamados Generative Pretrained Transformers (GPT) desarrollado por una empresa de investigación OpenAI.

En esta publicación, desmitificaremos cómo funcionan estos modelos de transformadores y cómo permiten ChatGPTImpresionante actuación de .

GPT: modelos básicos para PNL

Generative Pretrained Transformers

En un nivel alto, los modelos GPT son poderosos "modelos básicos" destinados a tareas de lenguaje natural como la generación de texto.

ellos son los primeros preentrenado en corpus de texto masivos, ingiriendo hasta cientos de miles de millones de palabras de fuentes como sitios web, libros y Wikipedia. Esto permite a los GPT analizar en profundidad patrones en el lenguaje humano.

Después del preentrenamiento, los modelos pueden ser afinado en conjuntos de datos más específicos para personalizar sus capacidades. Por ejemplo, un objetivo clave de ajuste para ChatGPT era la capacidad de conversar: permitir un diálogo de ida y vuelta basado en hechos.

En versiones sucesivas, OpenAILos modelos GPT de se han vuelto dramáticamente más avanzados a medida que conjuntos de datos más grandes y la potencia computacional ampliaron lo que era posible.

Dentro de GPT: la arquitectura transformadora

En el fondo, los modelos GPT aprovechan una arquitectura de aprendizaje profundo basada en la atención conocida como transformador.

Los transformadores supusieron un gran avance en el procesamiento del lenguaje natural, superando a los métodos más antiguos en tareas como la traducción que requieren comprender el contexto de las palabras. Sus innovaciones clave:

  • Capas de autoatención Analizar cómo cada palabra se relaciona entre sí en una oración.
  • Esto permite que los modelos transformadores como GPT comprendan en profundidad relaciones intrincadas en el texto en lugar de procesarlas secuencialmente.

Durante el entrenamiento previo, la arquitectura transformadora de GPT le permite descubrir los patrones contextuales altamente complejos presentes en el lenguaje humano a partir de sus enormes conjuntos de datos.

Luego, durante el ajuste fino de aplicaciones como ChatGPT, el modelo básico puede generar nuevas oraciones coherentes y significativas que se ajusten a las estructuras aprendidas.

GPT-3.5: La inicial ChatGPT Fundación

La primera versión utilizada para alimentar. ChatGPT fue GPT-3.5, una variante aumentada de GPT-3.

El propio GPT-3 sorprendió al mundo cuando se lanzó en 2020 debido a la calidad, coherencia y creatividad de sus resultados.

Al aprovechar las capacidades de GPT-3 y realizar ajustes personalizados para las capacidades de conversación, GPT-3.5 habilitó ChatGPTLa impresionante funcionalidad de diálogo fluido.

GPT-4: 2-5 veces más capaz, 98% menos computación

Sin embargo, en la verdadera moda de la IA de vanguardia, las iteraciones de GPT avanzan rápidamente. Recientemente, OpenAI dio a conocer lo último GPT-4 que, según se informa, es entre 2 y 5 veces más capaz en la mayoría de las tareas lingüísticas y requiere un 98 % menos de potencia informática.

Aprovechar GPT-4 podría permitir ChatGPT para alcanzar nuevas alturas en métricas como la calidad de salida, la precisión de los hechos, la profundidad del diálogo y más.

Y es probable que el modelo de tren de la base del transformador siga acelerando a partir de aquí. Dado que se espera una ampliación continua de datos y computación en futuras versiones de GPT, hay gran entusiasmo por lo que pronto será posible.

Sin embargo, dejando de lado las capacidades novedosas, sigue siendo importante interpretar estos modelos con cautela: tienen limitaciones notables a pesar del revuelo en torno a sus resultados. Pero el desarrollo responsable podría permitir aplicaciones enormemente beneficiosas.

¡Así que mira este espacio! Probablemente todavía solo hayamos arañado la superficie de lo que, en última instancia, puede lograr una IA poderosa pero segura.

Dentro de ChatGPT: Comprensión OpenAIModelos de la base del transformador

Deje un comentario

Su dirección de correo electrónico no será publicada. Las areas obligatorias están marcadas como requeridas *

Inicio