Categories
程式開發

中文版GPT-3來了?智源研究院發布清源CPM —— 以中文為核心的大規模預訓練模型


語言模型是指對自然語言文本進行概率建模的模型,它不僅可以估計任意一個給定文本序列的概率,也可以用來預測文本序列中某個位置上詞的出現概率,是自然語言處理中最基本的問題。

中文版GPT-3來了?智源研究院發布清源CPM —— 以中文為核心的大規模預訓練模型 1

2018年以来,预训练语言模型 (Pretrained Langauge Model, PLM) 的研究风起云涌。与此前有监督学习范式不同的是,预训练语言模型能够充分利用大规模的无标注数据学习通用的语言模型,然后再使用下游任务的少量有标注数据进行模型微调。与直接训练具体任务模型相比,在预训练语言模型基础上微调得到的模型在自然语言处理各大任务上均取得了显著的性能提升。

中文版GPT-3來了?智源研究院發布清源CPM —— 以中文為核心的大規模預訓練模型 2

在GPU 多機多卡並行算力和海量無標註文本數據的雙重支持下,預訓練模型實現了參數規模與性能齊飛的局面,取得了人工智能和深度學習領域的革命性突破。國際著名互聯網企業和研究機構互相競爭,將模型規模和性能不斷推向新的高度。 BERT之後,短短兩年時間,最新發布的GPT-3 已經達到1750億參數規模、上萬塊GPU 的驚人訓練規模。在人工智能與深度學習領域圍繞超大規模預訓練模型展開的“軍備競賽”日益白熱化,成為對海量數據、並行計算、模型學習能力的全方位考驗。

中文版GPT-3來了?智源研究院發布清源CPM —— 以中文為核心的大規模預訓練模型 3

預訓練模型規模以平均每年10倍的速度增長(最後一列計算時間為使用單塊NVIDIA V100 GPU訓練的估計時間。M-百萬,B-十億)

中文版GPT-3來了?智源研究院發布清源CPM —— 以中文為核心的大規模預訓練模型 4

預訓練模型研究發展圖