VS CodeのGitHub Copilotでレート制限が頻発して作業にならず、ローカル環境はスペックの問題がある

情報技術系のコミュニティサイト「Stack Overflow」で、ユーザーからの質問数が大きく減ってしまったことが分かりました。

Stack Overflowの質問数が2025年12月時点で前年比78％減少、開発者がAIツールに切り替えた影響か - GIGAZINE

Stack Overflowでは、ピークに達した2014年初頭には1カ月に20万件を超える質問が寄せられていましたが、2023年以降大きく減少し、2025年12月時点ではわずか3862件にまで急減しました。この数は前年比で78％減となっています。

Stack Overflowの質問数が2025年12月時点で前年比78％減少、開発者がAIツールに切り替えた影響か - GIGAZINE

ソーシャルサイト・Hacker Newsのユーザーは「Stack Overflowの神髄は質問への回答を得られることです。ただ、同じ回答をより早く得られるなら、Stack Overflowは必要ありません。Stack Overflowの衰退は2016年頃から始まっていますが、これは他の回答源が増加したことによるものだと推測します。回答源の例はRedditです。2016年以降、Googleで技術質問を検索すると、Stack Overflowと並んでRedditへのリンクが頻繁に表示されるようになりました。決定的な打撃は言うまでもなく大規模言語モデルです。一定の質問に対して即座にStack Overflowレベルの回答を提供できますし、もちろんユーザーを侮辱することもありません」とコメントしています。

Stack Overflowの質問数が2025年12月時点で前年比78％減少、開発者がAIツールに切り替えた影響か - GIGAZINE

⇧ まぁ、「Stack Overflow」などのサイトの「回答」は「玉石混淆」と言った感じなのだが、「ファクトチェック」のために参照する形にはなると思われますし、そもそも、「AI」が回答できない内容であれば、「Stack Overflow」などで未解決な問題の可能性が高いような気がするので、既存の質問を繰り返すリスクが減るといった意味では良い気がしますな。

結局のところ、利用できる時間は有限なことから、「ファインダビリティ（Findability）」の問題に行き着くことになると思うので、より早く「回答」に辿り着ける方法を選択することになりますからな...

とりあえず、「AI」は「幻覚（ハルシネーション）」の問題もあるので、「Stack Overflow」などのサイトが閉鎖されると「ファクトチェック」などが厳しくなるので悩ましいところではありますな...

VS CodeのGitHub Copilotでレート制限が頻発して作業にならず、ローカル環境はスペックの問題がある

これからは、「AI」との「協業」の時代という話を聞くことが多くなってきたので、「VS Code（Visual Studio Code）」で「GitHub Copilot」を利用してみたのだが、

⇧ とあるように、

『Sorry, you have been rate-limited. Please wait a moment before trying again. Learn More Server Error: Sorry, you have exceeded your Copilot token usage. Please review our Terms of Service. Error Code: rate_limited』

というエラーが頻出して、全くもって作業にならない...

で、暫く時間を置いて実行するも、上記のエラーが頻発し、やがて、

⇧ とあるように、

『You've reached your monthly chat messages quota. Upgrade to Copilot Pro (30-day free trial) or wait for your allowance to renew.』

という警告が出る始末...

体感として、利用時間が30分にも満たないぐらいであったのだが、1か月分を使い切ったということらしい...

普通に「Python」のコーディングしていただけなのに、「レート制限」が発生し続けて挙句の果てに1か月が経つまで利用できないということで、「開発」が全く進まな～い。

そもそも、「幻覚（ハルシネーション）」のせいで、「ぼったくり」の被害に遭ったと言っても過言では無い、質の悪い「ユーザーエクスピリエンス（UX：User eXperience）」だったこともあり、途方に暮れている...

「VS Code（Visual Studio Code）」の公式の「ドキュメント」によりますと、

code.visualstudio.com

https://code.visualstudio.com/docs/copilot/faq

⇧ とあり、「GitHub」の「ドキュメント」を参照してくれとある。

「GitHub」の公式の「ドキュメント」によりますと、

docs.github.com

⇧「レート制限」に関する具体的な指標が無いのよね...

う～む...

「ChatGPT」氏に頼らざる得ないということですかね...

一応、

atmarkit.itmedia.co.jp

　VS Code 1.99でAIチャット機能が統合されたことにより、下記のようなことが可能になりました。

VS Codeエディタ内で生成AIと直接対話が可能になり、シームレスにコードの作成、修正、問題点の提示を指示できる
生成AIが関連ファイルやテスト実行結果、アプリケーションエラーなどを自律的に収集し、アドバイスや修正案を提示する
MCPを用いた外部サービスやツールが、VS Codeとシームレスに連携できる

　これらの新機能とともに、Ollamaを利用したローカルモデルや「Gemini」「Claude」などOpenAI以外のモデル、「OpenRouter」を通じて多様なモデルが利用可能になりました。

「Visual Studio Code」と「Ollama」で簡単に始められる、安心・安全なローカルAI活用術：クラウドサービスだけじゃない！ローカルPCやサーバ、Kubernetesで生成AI（5） - ＠IT

⇧ 上記サイト様にありますように、自分で環境構築した「ローカル」環境を利用できるようになったようなのだが、我輩のPCのスペック（RAMが8GBしかない）的に実現は無理そうである...

ネットの情報を漁っていたところ、

techracho.bpsinc.jp

VSCode（Codex）からローカルLLM（Ollama）に接続して動かしてみた話｜TechRacho by BPS株式会社

⇧ 上記サイト様にありますように、潤沢なスペックのPCをお持ちであれば実現できそうなのだが...

「コーディングエージェント」の「モデル」を「ローカル」で動作する環境を導入する際の「要件」を「ChatGPT」氏に質問してみたところ、以下のような回答が返ってきた。

📊 VS Code × ローカルLLM コーディング支援（拡張 + 実行方式 + モデル + マシン要件）

拡張機能	ローカルLLM 対応	対応実行方式	代表的モデル	推奨 CPU	推奨 RAM	推奨 GPU/VRAM	備考
Continue	✔️	Ollama / LM Studio / Local API	Qwen2.5-Coder, LLaMA, gpt-oss	6–12 コア	16–32GB	8–16GB	Continue 設定で LM Studio サーバー API を Provider として指定可能。
llama.vscode	✔️	llama.cpp / Local API	LLaMA 系	6–12 コア	16–32GB	8–24GB	ローカルモデルを FIM 形式で補完/チャット可能
Cline	✔️	Ollama / LM Studio / Local API	Qwen / DeepSeek	6–12 コア	16–32GB	8–24GB	拡張設定で “LM Studio” Provider 例あり（コミュニティ報告）。
Roo Code / Kilo Code	✔️	Ollama / LM Studio	Qwen / GPT-OSS	6–12 コア	16–32GB	8–24GB	Local API 経由でサーバー接続
Pieces for VS Code	✔️	Ollama / LM Studio	任意ローカル	6–12 コア	16–32GB	8–24GB	ローカル/クラウドモデル切替対応
GitHub Copilot（標準）	△	Ollama / 調整中	Ollama 実行モデル	6–12 コア	16–32GB	8–24GB	“BYOM” でローカルモデル選択可だがオンライン依存の可能性あり

🧠 ローカル LLM 実行方式（補完）

実行方式	何をするか	ローカルサーバ対応	例
Ollama	コマンド/GUI でローカルモデル実行	✔️	Common local inference tool
LM Studio	GUI でモデル実行 + ローカルAPIサーバー立てる	✔️	モデル実行 & VS Code から接続可能（Local API）
llama.cpp / llama-server	軽量ローカル推論	✔️	FIM 補完向き

まぁ、「RAM」については、最低限「16 GB」とあるが、「コーディングエージェント」の「モデル」を「ローカル」で動作する環境を導入する部分以外の開発環境の構築なども考慮すると最低限「RAM」は「32 GB」は必要な気がしますな...

ネットの情報を漁っていたところ、

tech-lab.sios.jp

必要なスペック目安

ローカルLLMを動かすために必要なスペックは、モデルサイズによって大きく異なります。

ノートPCで動くローカルLLM完全ガイド【2025年12月版】 | SIOS Tech Lab

⇧ 上記サイト様が「マシン」の「スペック」の「要件」を整理してくれておりました。

「GPU（Graphics Processing Unit）」も関係してくるのだが、

digital-base.co.jp

2025年時点でのおすすめ構成例（ローカルAIサーバ）

ローカルLLM向けモデルごとのハードウェアの選び方

⇧ 上記サイト様によりますと、2025年時点だと、上記のような「スペック」が推奨となるようなのだが、

www.itmedia.co.jp

　先週（12月21日週）、ASUS JAPANから同社のグラフィックスカード事業30周年を記念した特別版のGeForce RTX 5090搭載モデル「ROG Matrix GeForce RTX 5090」が数量限定で売り出された。

75万円のGeForce RTX 5090が瞬殺！ 26万円マザーや4画面付き水冷ヘッドなど年末の「超」ハイエンド製品まとめ：古田雄介の「アキバPickUP！」（1/4 ページ） - ITmedia PC USER

　価格は74万9000円弱と高価だが、多くのショップが販売開始初日に売り切れとなり、週末には街からほぼ払底していた。

⇧ 恐ろしい価格帯なのだが、売り切れになったという...

「開発」で本格的に「AI」を活用しようとするとなると、最早、個人の財力でどうにかなるレベルでは無くなってきてますな...

ちなみに、

gigazine.net

半導体開発企業のBolt GraphicsがGPU「Zeus」を2025年3月6日に発表しました。ZeusはGeForce RTX 5090と比べて10倍のパストレーシング性能を備えているほか、VRAMを1カード当たり384GB、2Uラック当たり180TBまで増設可能です。

GeForce RTX 5090より10倍高性能なGPU「Zeus」が登場、VRAMを1カード当たり384GBまで増設可能でパストレーシングやHPCに特化 - GIGAZINE

Bolt Graphicsは現在流通しているGPUを「レガシーGPU」と呼んでおり、レガシーGPUには「レンダリングやシミュレーションに時間がかかる」「VRAM容量が少ない」「消費電力が大きい」という問題があると指摘しています。これらの問題点を解消するべく開発されたGPUがZeusです。

GeForce RTX 5090より10倍高性能なGPU「Zeus」が登場、VRAMを1カード当たり384GBまで増設可能でパストレーシングやHPCに特化 - GIGAZINE

ZeusはGPUとして初めて「VRAMの増設」に対応しており、1カード当たり384GBのVRAMを搭載可能です。2Uサーバー構成の場合、メモリ容量は最大180TBです。

GeForce RTX 5090より10倍高性能なGPU「Zeus」が登場、VRAMを1カード当たり384GBまで増設可能でパストレーシングやHPCに特化 - GIGAZINE

⇧ 2025年3月頃に、新たな「GPU」のニュースがあったが、

b.aries67.com

⇧ 上記サイト様で、従来の「GPU」との違いが解説されている。

一応、

www.techpowerup.com

When Bolt Graphics made its appearance early this year, it was quite a shock to see a new entrant in the already very competitive consumer/prosumer GPU market. However, Bolt promises that its Zeus GPU is an entirely different beast, focused on areas such as path tracing in games, CAD workloads, HPC simulations, and film/TV. Its Zeos GPU is a unique design too, with expandable memory.

https://www.techpowerup.com/339561/bolt-graphics-zeus-gpu-dev-kits-arrive-2026-for-gaming-hpc-and-cad

⇧ 上記サイト様にありますように、「映像」系の処理に焦点を当てたような技術領域なのかもしれないが、「ベンチマーク」次第では、従来の「GPU」から切り替える「クリエーター」が出てきそうではある。

「Bolt Graphics」の「Zeus」という「GPU」が、「ゲームチェンジャー」になる感じなんですかね？

話が脱線しましたが、「コーディングエージェント」の「モデル」を「ローカル」で動作する環境を導入するについては、省メモリで高性能な「モデル」が「OSS（Open Source Software）」として公開されるのを期待するしかないということでしょうかね...

予想していたこととは言え、「お金」の力で解決する「金の弾丸」が横行した世界になって参りましたな...

まさに、

マタイ効果（マタイこうか、英語: Matthew effect）またはマタイ原理（マタイげんり、英語: Matthew principle）とは、条件に恵まれた研究者は優れた業績を挙げることでさらに条件に恵まれるという現象のことであり、それは科学界以外の様々な分野でも見ることができる。「金持ちはより金持ちに、貧乏人はより貧乏に」と要約できる。

マタイ効果 - Wikipedia

この概念は名声や地位の問題にも当てはまるが、要約の文字通り経済資本の累積的優位性にも当てはめることができる。

マタイ効果 - Wikipedia

⇧ 上記の事象を体現しておりますな...

「エンジニア」の世界にも格差社会が訪れて来ましたな...

まぁ、これまでも「案件ガチャ」とかあったのだけど、状況が更に悪化してきているということですかね...

「開発プロジェクト」において「コーディングエージェント」の「導入」の「予算」を考慮してくれる「企業」があれば良いのだが、「日本」の「企業」だと余力が無さそうなのよね...

ちなみに、

aws.amazon.com

https://aws.amazon.com/jp/cdp/coding-agent/

⇧「AWS（Amazon Web Services）」の「ランニングコスト」の「見積もり」では、

月額合計料金：190 (USD) ÷ 10ユーザー = 19 USD/1ユーザーあたり

⇧ ということらしく、

1ドルが、「156.52」円とした場合、

19 USD × 156.52 円 = 2,973.88 円

⇧ ということで、1人あたり、およそ月額3000円という「コスト」になる模様。

仮に「自己学習」のために導入するとなった場合、我輩のような薄給の「エンジニア」では負担が厳しいのよな...

最早、「自己学習」の「モチベーション」が上がることはあり得ませんな...

毎度モヤモヤ感が半端ない…

今回はこのへんで。