DISTINCT, COUNT, そしてNULL

本エントリはFirebird Advent Calendar 2017の14日目です。

DISTINCT, COUNT, そしてNULL

唐突ですが、次の文章のうち間違っているものは? SELECT文で。。。。

(1) 行数を数えるときにはCOUNT(*)
(2) 行数を数えるときにはCOUNT(カラム名)でも(1)と同じ
(3) カラムのユニークな行数を数えるときはCOUNT(DISTINCT カラム名)
(4) 複数カラムのユニークな行数を数えるときはCOUNT(DISTINCT カラム名1, カラム名2)

じゃ確認してみましょう。

create table t1(i1 int, i2 int);
insert into t1 values(1,1);
insert into t1 values(1,2);
insert into t1 values(2,3);
select count(*) from t1;

COUNT
=====================
3

select count(i1) from t1;

COUNT
=====================
3

(1),(2)ともによさそうに見えますね。。。。ってちょっと待ったー! もう一行nullを含む行を追加してみましょう。

insert into t1 values(null,3);

select count(*) from t1;

COUNT
=====================
4

select count(i1) from t1;

COUNT
=====================
3

そう、実は集約関数はNULLを除外します。ただし「COUNT(*)」は例外的にNULLを除外しないのです。
そのため、上記のような違いが現れます。Firebirdに限らず、標準SQLに準拠しているものはすべてそうなります。

SQLのCOUNT(*)とCOUNT(列名)では結果が異なる(山本隆の開発日誌)

select count(distinct i1) from t1;

COUNT
=====================
2

これはまず、distinctで1,2,nullの三行になり、count(列名)はnullを除外するので、2となります。
これはcountを除いた以下のクエリで一目両全です。(3)はOKそうですね。

select distinct i1 from t1;

I1
============
&ltnull&gt
1
2

次に(4)にトライしてみると。。。。エラーですね。

select count(distinct i1,i2) from t1;
Statement failed, SQLSTATE = 42000
Dynamic SQL Error
-SQL error code = -104
-Token unknown - line 1, column 25
-,

そう、Firebirdを含めたほとんどのRDBMSではCOUNT(DISTINCT マルチカラム)は許されていないのです。
そのため、よく代案として利用されるのが、DISTINCTをサブクエリにした以下のクエリや、DISTINCTの代わりにGROUP BYを使うものです。

select count(*) from (select distinct i1,i2 from t1);

COUNT
=====================
4

もう一つはカラムを、そのカラムに出てこないデリミタを入れてCONCATするものです。

select count(distinct i1 || '-' || i2) from t1;

COUNT
=====================
3

OK, って一行減ってますね。。。。これもcountを除くと意味がわかります。

select distinct i1 || '-' || i2 from t1;

CONCATENATION
=======================
&ltnull&gt
1-1
1-2
2-2

NULLをCONCATするとNULLになり、それはCOUNTに計上されません。そのため巷のDISTINCTをサブクエリに
する方法は、データにNULLがあると正しくないのです。厳密にいうと、こうなります。

select count(*) from (select distinct i1,i2 from t1 where i1 is not null and i2 is not null);

COUNT
=====================
3

本ブログエントリの最初のほうで「ほとんどのRDBMSではCOUNT(DISTINCT マルチカラム)は許されていない」
と記述しましたが、唯一許されているのがMySQLです。

create table t1(i1 int, i2 int);
insert into t1 values(1,1);
insert into t1 values(1,2);
insert into t1 values(2,3);
insert into t1 values(null,3);

select count(distinct i1,i2) from t1;
+-----------------------+
| count(distinct i1,i2) |
+-----------------------+
| 3 |
+-----------------------+
1 row in set (0.03 sec)

ということで、正しくでるのですが、DISTINCTしたマルチカラムそれぞれにIS NOT NULLをANDでつけていないクエリで
NULLを含むデータを投入して「結果が違う〜」という向きがいるので、それはこのような違いがある、ということを
覚えておいてください!

結果(1),(3)はOK, (2)は違う(カラムがnot nullならOK), (4) はMySQLだけ、ということになります。

JUGEMテーマ：コンピュータ

DISTINCT, COUNT, そしてNULL

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？