MySQLのテーブル結合について整理してみる

「GQL（Graph Query Language）」は「SQL（Structured Query Language）」プロジェクトが承認されて以来、初めての新しいデータベース言語プロジェクトという位置付けらしい。（「Neo4jを使ったクリンゴン語の自然言語解析（案浦浩二さん）」によると35年ぶりとなるって話でした）

「SQL（Structured Query Language）」のプロジェクトが、

SQL規格は1986年に統一標準規格が発表されるまでは、その統一標準規格が存在しない状況であった。

SQL - Wikipedia

⇧ 1986年以前に始まったとすると、確かに、2021年現在から見れば、35年ぶりってことになるのかな？

喫緊の課題としては、乱立してる「PGQL（Property Graph Query Language）」を

Right now there are three property graph query languages that are closely related.

f:id:ts0818:20210307193844p:plain

The GQL Manifesto - One Property Graph Query Language

⇧ 上図のような感じに、「GQL（Graph Query Language）」に統一したいってことみたいね。

脱線しましたが、今回は「MySQL」について調査してみたなので、「SQL（Structured Query Language）」の話ってことですかね。

「NoSQL」とか「NewSQL」も「SQL（Structured Query Language）」のお仲間ってことなのかね。

レッツトライ～。

「RDBMS（Relational Database Management System）」の歴史

Wikipediaさんに聞いてみた。

1969年、エドガー・F・コッドは画期的な論文を発表してRDBMSを提唱した。

この論文は1970年に、ACMの学術誌に「A Relational Model of Data for Large Shared Data Banks（大規模共有データバンクのデータ関係モデル）」として掲載された。コッドは、この論文とその後に発表した論文で、「リレーショナル」（「関係に基づく」）の概念とは何かを定義した。

関係データベース管理システム - Wikipedia

⇧ 1969年が「リレーショナル」の定義の始まりっぽいですね。

コッドが提唱したRDBMSが備えるべき条件として、「コッドの12の規則」が有名である。しかし関係モデルの初期の実装の多くは、コッドの12の規則の全てを満たすには至らなかった。そのためRDBMSという用語は、当初と比べてより広い意味でのデータベースシステムを対象として使われることが、多くなってきている。

関係データベース管理システム - Wikipedia

⇧「コッドの12の規則」を満たすことが「RDBMS（Relational Database Management System）」ということらしいですと。

「コッドの12の規則」はというと、

コッドの12の規則（コッドの12のきそく、英語：Codd's 12 Rules）とは、データベース管理システム (DBMS) が関係に基づいたシステム（関係データベース管理システム、RDBMS）であると判断するために必要な基準として、エドガー・F・コッドが提唱した規則である。エドガー・F・コッドは、データベースにおける関係モデルを考案した人物である。

コッドの12の規則 - Wikipedia

しかし実際には、コッドの12の規則は非常に厳しい基準であり、データベース言語 SQL のみをデータベースにアクセスするインタフェースとするシステムでさえ、コッドの12の規則のいくつかを満たすことはできていない。

コッドの12の規則 - Wikipedia

⇧ どんだけシビアな規則なんだ...

シビア過ぎて、

現在では、RDBMSという用語は、次のようなシステムに対して使われている。

システムの利用者が、データをいくつかの関係 (複数の行と複数の列からなる表) の形で、扱うことができるシステム
システムの利用者が、表形式のデータを参照・更新する手段として、関係演算 (制限、射影、結合、和などの関係代数や関係論理) を、使うことができるシステム

関係データベース管理システム - Wikipedia

⇧ とりあえずの暫定処置として的な扱いで「RDBMS（Relational Database Management System）」について考えときましょう、ってことなんですかね？

そして、衝撃の事実...

どのようなデータベース管理システム (DBMS) が、「リレーショナル」DBMSといえるのか（もしくはいえないのか）については、議論の対象となっている。データベースに携わる人の多くに受け入れられたRDBMSの定義は、まだできていない。

関係データベース管理システム - Wikipedia

現在は、RDBMSの選定を行う際は、コッドの12の規則の全てを満たすという要件は考慮されない。情報技術 (IT) を担う組織におけるデータ管理を担う人々にとってのTCO（総保有コスト）が、とても重視される。

関係データベース管理システム - Wikipedia

一部の人々は、このような現状は不幸であり皮肉であると考えている。なぜなら、コッドの12の規則の有用性を確信している人の見解では、この RDBMS としての基準を正確に満たすことにより、DBMSの信頼性と一貫性と生産性と処理性能を高めることができ、それゆえTCOの抑制に大きく役立つはずであった。RDBMSの基準を正確に満たすことによるこのような利点は、実際に、DBMSを真のRDBMSとしようと努めている人々にとって、とても大きな動機づけとなっている。

関係データベース管理システム - Wikipedia

⇧ まさかの「RDBMS（Relational Database Management System）」の定義については現在進行形の形という...

我々は一体、何を拠り所とすれば良いのだろう...

現在、RDBMSの実装のほとんどが、データベース言語としてSQLを採用している。しかしSQLに代替するデータベース言語（データベース言語仕様Dに基づいたTutorial Dなどのデータベース言語）が提唱され、実装が行われている。ただしSQLに代替するデータベース言語を採用し実装している商用のRDBMSは非常に少ない。

関係データベース管理システム - Wikipedia

D は、クリス・デイトとヒュー・ダーウェンが著書 (共著) The Third Manifesto で提案した、関係データベースのデータベース言語が満たすべき要件の集合である。 D自体はデータベース言語ではない。デイトとダーウェンは、2008年現在で広く使われているデータベース言語SQLを、関係モデルを正確に実装していないとして、批判している。

D (データベース言語仕様) - Wikipedia

⇧ まさかの「RDBMS（Relational Database Management System）」の「要件定義」っぽいものが存在するらしいけど、普及してないみたいね...

MySQLのテーブルの結合

「RDBMS（Relational Database Management System）」の現状については、知りたくない情報の諸々を垣間見てしまったのですが、実業務では待ったなしで利用せざるを得ない状況ですと。（「NoSQL」とか「NewSQL」とか「データウェアハウス」とか「RDBMS（Relational Database Management System）」以外の選択肢もあるとは思いますが）

で、「RDBMS（Relational Database Management System）」を使ってる場合に避けて通れないのが、「テーブルの結合」ですかね。

f:id:ts0818:20210304110649p:plain

SQLで使えるテーブルの結合のやり方は、inner joinと、3通りのouter join、さらにcross joinの5つです。ただし、Webシステムでよく使われるオープンソースのデータベース管理ソフトのMySQLは、full outer join は使えません。とはいえ、他のデータベース管理ソフトから移植することもあります。SQLを使う機会のあるWebエンジニアの方は、ぜひ、理解しておきましょう。

https://style.potepan.com/articles/17010.html

⇧ 上記サイト様が「テーブルの結合」の種類について説明してくれておりました。

実際に「テーブルの結合」の実行イメージについては、

qiita.com

⇧ 上記サイト様が詳しいです。

で、一旦、脱線して、「テーブルの結合」で使用されてる「アルゴリズム」があるらしいので、どんなものがあるのか確認。