⇧ amazing...
大規模言語モデル(LLM:Large Language Models)とは?
Wikipediaさんによりますと、
大規模言語モデル(だいきぼげんごモデル、英: large language model、LLM)は、多数のパラメータ(数千万から数十億)を持つ人工ニューラルネットワークで構成されるコンピュータ言語モデルで、膨大なラベルなしテキストを使用して自己教師あり学習または半教師あり学習によって訓練が行われる。
LLMは2018年頃に登場し、さまざまなタスク(仕事)で優れた性能を発揮している。これにより、自然言語処理の研究の焦点は、特定のタスクに特化した教師ありモデルを訓練するという以前のパラダイムから転換した。
⇧ パラダイムシフトを達成した生成方法で実現したモデルということみたい。
⇧ う~む、「ブラックボックス」という便利な言葉...
Wikipediaさんの2023年8月28日(月)時点の情報だと、これまでに29個のモデルが公開されてる模様。
名称 | 公開日 | 開発者 | パラメータ数 | コーパスサイズ | ライセンス |
---|---|---|---|---|---|
BERT | 2018年 | 3.4億 | 33億 | Apache 2.0 | |
XLNet | 2019年 | ~340 million | 33 billion words | ||
GPT-2 | 2019年 | OpenAI | 15億 | 40GB(~10000000000 100億トークン) | MIT |
GPT-3 | 2020年 | OpenAI | 175000000000 1,750億 |
499000000000 4,990億トークン |
public web API |
GPT-Neo | 2021年3月 | EleutherAI | 27億 | 825 GiB | MIT |
GPT-J | 2021年6月 | EleutherAI | 6000000000 60億 |
825 GiB | Apache 2.0 |
Megatron-Turing NLG | 2021年10月 | Microsoft and Nvidia | 530000000000 5,300億 |
338600000000 3,386億トークン |
Restricted web access |
Ernie 3.0 Titan | 2021年12月 | Baidu | 260000000000 2,600億 |
4 Tb | プロプライエタリ |
Claude | 2021年12月 | Anthropic | 52000000000 520億 |
400000000000 4,000億トークン |
Closed beta |
GLaM (Generalist Language Model) | 2021年12月 | 1200000000000 1.2兆 |
1600000000000 1.6兆トークン |
プロプライエタリ | |
Gopher | 2021年12月 | DeepMind | 280000000000 2,800億 |
300000000000 3,000億トークン |
プロプライエタリ |
LaMDA(Language Models for Dialog Applications) | 2022年1月 | 137000000000 1,370億 |
1.56T語, 168000000000 1,680億トークン |
プロプライエタリ | |
GPT-NeoX | 2022年2月 | EleutherAI | 20000000000 200億 |
825 GiB | Apache 2.0 |
Chinchilla | 2022年3月 | DeepMind | 70000000000 700億 |
1400000000000 1.4兆 トークン |
プロプライエタリ |
PaLM(Pathways Language Model) | 2022年4月 | 540000000000 5,400億 |
768000000000 7,680億トークン |
プロプライエタリ | |
OPT (Open Pretrained Transformer) | 2022年5月 | Meta | 175000000000 1,750億 |
180000000000 1,800億トークン |
Non-commercial research |
YaLM 100B | 2022年6月 | Yandex | 100000000000 1,000億 |
1.7TB | Apache 2.0 |
Minerva | 2022年6月 | 540000000000 5,400億 |
385億トークン | プロプライエタリ | |
BLOOM | 2022年7月 | Large collaboration led by Hugging Face | 175000000000 1,750億 |
350000000000 3,500億トークン (1.6TB) |
Responsible AI |
Galactica | 2022年11月 | Meta | 120000000000 1,200億 |
350000000000 1,060億トークン |
CC-BY-NC-4.0 |
AlexaTM (Teacher Models) | 2022年11月 | Amazon | 20000000000 200億 |
1300000000000 1.3兆 |
public web API |
LLaMA(Large Language Model Meta AI) | 2023年2月 | Meta | 65000000000 650億 |
1400000000000 1.4兆 |
Non-commercial research |
GPT-4 | 2023年3月 | OpenAI | 非公開 | 非公開 | public web API |
Cerebras-GPT | 2023年3月 | Cerebras | 13000000000 130億 |
Apache 2.0 | |
Falcon | 2023年3月 | Technology Innovation Institute | 40000000000 400億 |
1000000000000 1兆トークン (1TB) |
プロプライエタリ |
BloombergGPT | 2023年3月 | Bloomberg L.P. | 50000000000 500億 |
3,630億トークン | プロプライエタリ |
PanGu-Σ | 2023年3月 | Huawei | 1085000000000 1.085兆 |
3,290億トークン | プロプライエタリ |
OpenAssistant | 2023年3月 | LAION | 17000000000 17 billion |
1.5 trillion tokens | Apache 2.0 |
PaLM 2(Pathways Language Model 2) | 2023年5月 | 340000000000 340 billion |
3600000000000 3.6 trillion tokens |
Proprietary |
⇧ 最早、資本力の闘いですかね...
ただ、
FlexGenとは
FlexGenは2023年2月にリリースされた、LLMの処理を行うための生成エンジンです。FlexGenには大きな特徴が2点あります。
- GPUを1つ積んだPCでLLMの処理が行えるようになる。
- 高いスループットを持つ。スループットとは、FlexGenの論文上では生成スループットと呼んでおり、入力として与えられた文章やフレーズから生成されるトークン数(単語や句読点などの意味を持つ最小単位)を、入力テキストを処理しトークンを生成するまでの時間で割った値と定義しています。つまり、1秒あたりどの程度のトークンを生成できるかをスループットとしています。
特に一点目のインパクトが強いです。パラメータ数が特に多いLLMの処理は、GPUを並列したPCや大規模なレンタルサーバー・クラウド上で行うことが主でした。しかし、FlexGenによって一般的なPCでもそのようなLLMの処理を行えるようになりました。
LLM推論にGPUは1つでいい?FlexGenについてまとめてみた - Platinum Data Blog by BrainPad
⇧「FlexGen」という存在の登場で、ある程度のスペックのマシンでも「大規模モデル」を動作させることができるようになったとか。
Meta(旧:Facebook, Inc)が公開してるCode Llamaとは?
GitHubで公開されてる情報によると、
Code Llama is a family of large language models for code based on Llama 2 providing state-of-the-art performance among open models, infilling capabilities, support for large input contexts, and zero-shot instruction following ability for programming tasks.
We provide multiple flavors to cover a wide range of applications: foundation models (Code Llama), Python specializations (Code Llama - Python), and instruction-following models (Code Llama - Instruct) with 7B, 13B and 34B parameters each. All models are trained on sequences of 16k tokens and show improvements on inputs with up to 100k tokens. 7B and 13B Code Llama and Code Llama - Instruct variants support infilling based on surrounding content.
Code Llama was developed by fine-tuning Llama 2 using a higher sampling of code. As with Llama 2, we applied considerable safety mitigations to the fine-tuned versions of the model. For detailed information on model training, architecture and parameters, evaluations, responsible AI and safety refer to our research paper.
Output generated by code generation features of the Llama Materials, including Code Llama, may be subject to third party licenses, including, without limitation, open source licenses.
⇧ とのこと。
公式の説明によると、
How Code Llama works
Code Llama is a code-specialized version of Llama 2 that was created by further training Llama 2 on its code-specific datasets, sampling more data from that same dataset for longer. Essentially, Code Llama features enhanced coding capabilities, built on top of Llama 2.
It can generate code, and natural language about code, from both code and natural language prompts (e.g., “Write me a function that outputs the fibonacci sequence.”)
It can also be used for code completion and debugging. It supports many of the most popular languages being used today, including Python, C++, Java, PHP, Typescript (Javascript), C#, and Bash.
https://ai.meta.com/blog/code-llama-large-language-model-coding/
⇧ とあるように、プログラミング言語のコードを生成する補助ツールとして利用できるっぽい。
ネットの情報を見た感じでは、
コード生成AIを巡っては、米Microsoft(マイクロソフト)参加の米GitHub(ギットハブ)が2022年6月に「GitHub Copilot」の一般提供を開始。米Amazon Web Services(アマゾン・ウェブ・サービス、AWS)も「Amazon CodeWhisperer」の一般提供を2023年4月に始めた。米Google(グーグル)も同様に「Codey」などのコード生成AIを提供している。
⇧ とあるので、
類似の機能としては、
- GitHub Copilot ←有償。Microsoft
- Amazon CodeWhisperer ←無償。Amazon
- Codey ←有償(Google Cloudの「Vertex AI」サービス経由)。Google
などがあるので、「Meta(旧:Facebook, Inc)」が参入してきた感じかしら?
で、「Code Llama」は公開されたばかりだからなのか、残念ながら、「VS Code(Visual Studio Code)」といったコードエディターや、「Eclipse」といった「統合開発環境(IDE:Integrated Development Environment)」には対応していないっぽい。
まぁ、「GitHub Copilot」のドキュメントを見た感じ、
⇧「Eclipse」には対応していなさそうなので、「Code Llama」も「Eclipse」に対応する気が無いのかも知らんけど...
GitHubの「GitHub Copilot」のドキュメントには記載が見当たらなかったけど、
⇧「VS Code(Visual Studio Code)」にも対応しているっぽい。
「Code Llama」については、暫くは、
⇧ 自分で環境を整えての利用になるっぽいですね。
Pythonによる環境汚染を防ぐために、「venv」とかで環境作ってから試す感じですかね。
それにしても、「Eclipse」の蚊帳の外感が半端ない...
「統合開発環境(IDE:Integrated Development Environment)」とかの機能として利用できないってなると、「ChatGPT」使ってるのと結局のところ変わらんような感じな気がするから、「GitHub Copilot」のように早いところ「統合開発環境(IDE:Integrated Development Environment)」への対応を進めて欲しいですな。
あわよくば、「Eclipse」へ対応させて欲しいかな。
毎度モヤモヤ感が半端ない...
今回はこのへんで。