大语言模型(LLM,Large Language Model)是指一种使用海量文本数据训练出来的人工智能模型,主要用于理解和生成自然语言。它们属于生成式AI(Generative AI)的一种,核心技术通常是基于深度学习中的 Transformer 架构。
特性 | 说明 |
---|---|
📚 大规模数据训练 | 通常使用互联网上的大量文本,比如维基百科、新闻、论坛、书籍等 |
🧠 多层神经网络 | 模型拥有上亿到上千亿个参数,比如 GPT-4 的参数量估计达千亿级 |
🌐 多语言理解 | 能处理多种语言的输入和输出,不限于英语 |
✍️ 多功能性 | 能执行问答、翻译、写作、代码生成、摘要等多种任务 |
训练阶段(Pretraining):
微调阶段(Fine-tuning):
推理阶段(Inference):
模型 | 开发者 | 备注 |
---|---|---|
GPT(GPT-3, GPT-4) | OpenAI | ChatGPT 的核心技术 |
LLaMA | Meta | 开源可用,适合本地部署 |
Claude | Anthropic | 强调对齐性和安全性 |
Gemini(原PaLM) | Google DeepMind | 整合在 Google AI 工具中 |
ERNIE | 百度 | 中文优化版大语言模型 |
没错上面的内容就是OpenAI ChatGPT生成的回答。