GPT (言語モデル)

Generative Pre-trained Transformer（GPT）は、OpenAIによる言語モデルのファミリーである。通常、大規模なテキストデータのコーパスで訓練され、人間的な文章を生成する。

Transformerアーキテクチャのデコーダー部分のみを使用し、Universal Language Model Fine-tuning(ULMFiT)と同じ言語モデルアプローチを採用している^[1]。テキスト生成、翻訳、文書分類など諸々の自然言語処理に合わせてファインチューニングできる。名称に含まれる"pre-trained"（事前訓練）とは、大量のテキストコーパスによる最初の訓練プロセスを指し、モデルは、各節に続く単語を予測するよう学習する。これによりもたらされる強固な基盤によって、各処理固有の下流処理が限定的なデータ量であってもモデルが適切に動作する。

GPT-1

2018年6月11日、OpenAIは"Improving Language Understanding by Generative Pre-Training"というタイトルの論文をリリースし、その中でGPT（Generative Pre-trained Transformer）を導入した^[2]。

この時点では最高のパフォーマンスを行うニューラル自然言語処理モデルは、主に手動でラベル付けされた大量のデータからの教師あり学習を採用していた。この教師あり学習への依存は、十分に注釈が付けられていないデータセットの使用を制限するだけでなく、非常に大規模なモデルの訓練に莫大な費用と時間がかかっていた^[2]^[3]。多くの言語（スワヒリ語やハイチ・クレオール語など）は、コーパス構築に使用できるテキストが不足しているため、このようなモデルを使用して翻訳や解釈をすることが難しい^[3]。これに対して、GPTの「半教師あり」アプローチには2つの段階が含まれていた。2つの段階は、言語モデリングの目的を使用して初期パラメータを設定する教師なし生成「事前訓練」段階と、これらのパラメータがターゲットとするタスクに適合された教師あり識別「ファインチューニング」段階である^[2]。

訓練には NVIDIA Quadro P600 を8枚30日使用し、実行効率33%のため、0.96ペタFLOPS・日となった。^[4]

シリーズ一覧

「OpenAI」も参照

名称	用途	アーキテクチャ	パラメータ数	訓練データ	リリース日
GPT-1	汎用	12-level, 12-headedのTransformerデコーダ（エンコーダなし）、linear-softmaxによりフォローされる。	1億1700万	BookCorpus：^[5] 様々なジャンルの7000冊の未発表書籍からの4.5GBのテキスト	000000002018-06-11-00002018年6月11日^[4]
GPT-2	汎用	GPT-1 + 正規化/初期化	15億	WebText（40GB）	000000002019-02-14-00002019年2月14日
GPT-3	汎用	GPT-2 + スパースアテンション	1750億^[6]	570GBのプレーンテキスト、4000億のトークン。主にCommonCrawl, WebText, English Wikipedia, および2つの書籍コーパス（Books1およびBooks2）.	000000002020-06-11-00002020年6月11日^[7]
Codex	プログラミング	GPT-3をプログラミング用途に調整			000000002021-08-10-00002021年8月10日^[8]
InstructGPT	会話	GPT-3を人間のフィードバックによる指示に従うよう微調整^[9]			2022年3月4日
GPT-3.5	汎用	非公開	非公開	非公開	000000002022-03-15-00002022年3月15日
ProtGPT2	タンパク質配列^[10]	GPT-2 large（36層）と同様	7億3800万	UniRef50からのタンパク質配列（計4488万、検証のために10%を使用した後）	000000002022-07-27-00002022年7月27日
BioGPT	生物医学のコンテンツ^[11]^[12]	GPT-2 medium（24層、16 heads）と同様	3億4700万	PubMedの空でない項目（計150万）	000000002022-09-24-00002022年9月24日
ChatGPT	会話	GPT-3.5を使用し、教師あり学習とRLHF^[13]の両方でファインチューニングされている（転移学習のアプローチ）^[14]	非公開	非公開	000000002022-11-30-00002022年11月30日
GPT-4	汎用、マルチモーダル^[15]	テキスト予測とRLHFの両方で訓練されている。詳細非公開^[16]	非公開	非公開	000000002023-03-14-00002023年3月14日

出典

^ Lewis Tunstall、Leandro von Werra、Thomas Wolf 著、中山光樹訳『機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発』オライリー・ジャパン、東京都新宿区四谷坂町、2022年8月3日、9頁。ISBN 978-4-87311-995-3。
^ ^a ^b ^c “Improving Language Understanding by Generative Pre-Training”. OpenAI. pp. 12 (11 June 2018). 26 January 2021時点のオリジナルよりアーカイブ。23 January 2021閲覧。
^ ^a ^b Tsvetkov, Yulia (22 June 2017). “Opportunities and Challenges in Working with Low-Resource Languages”. Carnegie Mellon University. 31 March 2020時点のオリジナルよりアーカイブ。23 January 2021閲覧。
^ ^a ^b “Improving language understanding with unsupervised learning” (英語). openai.com. 2023年3月18日閲覧。
^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. pp. 19–27. arXiv:1506.06724.
^ Ouyang, Long; Wu, Jeff; Jiang, Xu et al. (4 March 2022). “Training language models to follow instructions with human feedback”. arXiv:2203.02155 [cs]. https://arxiv.org/abs/2203.02155 23 March 2023閲覧。.
^ “Improving language understanding with unsupervised learning” (英語). openai.com. 2023年3月18日閲覧。
^ “OpenAI Codex”. 5 May 2023閲覧。
^ “Aligning language models to follow instructions”. openai.com. 23 March 2023閲覧。
^ Ferruz, N., Schmidt, S. & Höcker, B. (27 July 2022). “ProtGPT2 is a deep unsupervised language model for protein design.”. Nature Communications Volume 13 (1): 4348. Bibcode: 2022NatCo..13.4348F. doi:10.1038/s41467-022-32007-7. PMC 9329459. PMID 35896542.
^ Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H (24 September 2022). “BioGPT: generative pre-trained transformer for biomedical text generation and mining.”. Brief Bioinform 23 (6). doi:10.1093/bib/bbac409. PMID 36156661.
^ Matthias Bastian (2023年1月29日). “BioGPT is a Microsoft language model trained for biomedical tasks”. The Decoder. 2023年3月18日閲覧。
^ “Introducing ChatGPT” (英語). openai.com. 2023年3月16日閲覧。
^ Quinn, Joanne (2020). Dive into deep learning: tools for engagement. Thousand Oaks, California. p. 551. ISBN 9781544361376. オリジナルのJanuary 10, 2023時点におけるアーカイブ。 10 January 2023閲覧。
^ テキストと画像の両方を入力として受け付ける。
^ OpenAI (2023年). “GPT-4 Technical Report”. 2023年3月18日閲覧。

カテゴリ

[1] Lewis Tunstall、Leandro von Werra、Thomas Wolf 著、中山光樹訳『機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発』オライリー・ジャパン、東京都新宿区四谷坂町、2022年8月3日、9頁。ISBN 978-4-87311-995-3。

[gpt1paper-2] “Improving Language Understanding by Generative Pre-Training”. OpenAI. pp. 12 (11 June 2018). 26 January 2021時点のオリジナルよりアーカイブ。23 January 2021閲覧。

[tsvetkov-3] Tsvetkov, Yulia (22 June 2017). “Opportunities and Challenges in Working with Low-Resource Languages”. Carnegie Mellon University. 31 March 2020時点のオリジナルよりアーカイブ。23 January 2021閲覧。

[language-unsupervised-4] “Improving language understanding with unsupervised learning” (英語). openai.com. 2023年3月18日閲覧。

[5] Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. pp. 19–27. arXiv:1506.06724.

[6] Ouyang, Long; Wu, Jeff; Jiang, Xu et al. (4 March 2022). “Training language models to follow instructions with human feedback”. arXiv:2203.02155 [cs]. https://arxiv.org/abs/2203.02155 23 March 2023閲覧。.

[7] “Improving language understanding with unsupervised learning” (英語). openai.com. 2023年3月18日閲覧。

[8] “OpenAI Codex”. 5 May 2023閲覧。

[9] “Aligning language models to follow instructions”. openai.com. 23 March 2023閲覧。

[10] Ferruz, N., Schmidt, S. & Höcker, B. (27 July 2022). “ProtGPT2 is a deep unsupervised language model for protein design.”. Nature Communications Volume 13 (1): 4348. Bibcode: 2022NatCo..13.4348F. doi:10.1038/s41467-022-32007-7. PMC 9329459. PMID 35896542.

[pmid36156661-11] Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H (24 September 2022). “BioGPT: generative pre-trained transformer for biomedical text generation and mining.”. Brief Bioinform 23 (6). doi:10.1093/bib/bbac409. PMID 36156661.

[12] Matthias Bastian (2023年1月29日). “BioGPT is a Microsoft language model trained for biomedical tasks”. The Decoder. 2023年3月18日閲覧。

[13] “Introducing ChatGPT” (英語). openai.com. 2023年3月16日閲覧。

[14] Quinn, Joanne (2020). Dive into deep learning: tools for engagement. Thousand Oaks, California. p. 551. ISBN 9781544361376. オリジナルのJanuary 10, 2023時点におけるアーカイブ。 10 January 2023閲覧。

[15] テキストと画像の両方を入力として受け付ける。

[16] OpenAI (2023年). “GPT-4 Technical Report”. 2023年3月18日閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

GPT (言語モデル)

GPT-1

シリーズ一覧

出典

Suggest as cover photo

Thank you for helping!

Install Wikiwand

Don't forget to rate us

Tell your friends about Wikiwand!

Enjoying Wikiwand?

Tell your friends and spread the love:

Your preferred languages

All languages

Follow Us

Don't forget to rate us

Our magic isn't perfect

Thank you for helping!

Oh no, there's been an error