相比传统 Transformer 的改进.
NLP 任务的特点:
三大模型的优势与问题:
1: 为什么现在的LLM都是Decoder only的架构? - 知乎 (zhihu.com)
参考 为什么现在的LLM都是Decoder-only的架构? - 科学空间|Scientific Spaces (kexue.fm)
BERT 是 Encoder-Only 的代表; T5 和 BART 是 encoder-decoder 架构的代表; GPT 是 decoder-only 架构的代表.
a. 在理论上 Encoder 的双向注意力会存在低秩问题, 可能会削弱模型表达能力; encoder-decoder 架构在某种场景下表现得更好可能是由于它多了一倍参数, 同等参数量和同等推理成本下, decoder-only 更具优势
b. 过去的研究表明 decoder-only 架构的泛化性能更好; 许多工作表明 decoder-only 模型在各种下游任务上 zero-shot 或者 few-shot (in-context) 的泛化能力都更强
c. decoder-only 结构支持 KV Cache, 效率更高
d. OpenAI 作为开创者带来的风气.
2: 目前主流的(开源) LLM 都有哪些?
GPT 家族, LLaMA 家族和 PaLM 家族. (不过没怎么见过 PaLM 家族)
3: 目前主流的(开源) MLLM 都有哪些?
4: Prefix LM 和 Causal LM 的区别.