close
Highcharts Logo

シンプルに視覚化

Highchartsは、開発者があらゆるWebおよびモバイルプラットフォームにチャートを簡単に追加できるようにします。
Javascript、Angular、React、VueJS、iOS、R、.NET、Python、その他に対応しています。

カテゴリカルデータ入門

データは今やあらゆるところにあり、データリテラシー、 すなわちデータから有意義な情報を得てそれを批判的に考える能力は必須です。 データリテラシーを向上させる一つの方法は、データセットのデータ型を知ることです。

データの種類を理解することで、 データから貴重な洞察を得るために最も適した数学的手法や可視化の種類を選ぶのに役立ちます。

データには主に2種類あります。カテゴリカルデータと連続データです。今回はカテゴリカルデータについて説明します。

以下のデモでは、データ型の階層構造を表示しています。

カテゴリカルデータタイプと、データセットから最良の洞察を得るために役立つ統計的方法について見ていきましょう。

値が品質、等級、レベル、またはその他の特性(例:幸せ/中立/悲しい、低い/高い、暗い/明るい)を表す場合、 データはカテゴリカルとしてラベル付けされます。

カテゴリカルデータには、名目データ(Nominal)と順序データ(Ordinal)があります。

1.名目データ(ノミナルデータ)

順序が関係ないカテゴリカルデータの一種です。名目データの例は以下の通りです。

  • 男性/女性
  • 国名
  • 色 など

名目データを見分けるには、次の質問を自分に問いかけてみてください。「変数の順序を変えると意味が変わるか?」 もし変わらないなら、名目データです。

1.1. 統計的手法

名目データを調べるために主に使われる統計的手法は以下の通りです。

  • 頻度
  • 割合
  • パーセンテージ

1.2. 可視化

名目データを可視化するために主に使われるのは、棒グラフ、円グラフ、ドーナツグラフです。 以下の棒グラフは、大陸別の世界人口を示しています。オセアニアとヨーロッパの位置を入れ替えても、データの意味は同じです。

2.順序データ

順序付けられた品質変数を表し、各変数の単位数が同じでない場合、データは順序的です。 順序データの例は以下の通りです。

  • レベル
    • 低・中・高の3つのレベルがあり、それぞれのレベルには異なる測定単位があります。例えば、幸福感や痛みなどのレベルです。
  • 一日の時間帯
    • 朝:日の出から午前11時59分までで、約6時間または6単位の時間です。
    • 昼:午後12時から午後5時までで、5時間または5単位の時間です。
    • 夕方:午後5時1分から午後8時までで、3時間または3単位の時間です。
    • 夜:午後8時1分から日の出までで、約10時間または10単位の時間です。
  • 教育段階
    • 幼稚園:3歳から5歳までで、1学年です。
    • 小学校:5歳から14歳までで、8学年です。
    • 高校:14歳から18歳までで、3学年です。
    • 大学:18歳から22歳までで、4年から5年の教育期間があります。
    • 大学院:年齢はさまざまです。

2.1. 統計的方法

順序データを調べるための主な統計的ツールは以下の通りです。

  • 頻度
  • 割合
  • パーセンテージ

2.2. 可視化

名目データと同様に、棒グラフ、ドーナツグラフ、円グラフなどが順序データの可視化によく使われます。

以下の円グラフは、2018年1月のブラウザ市場シェアを可視化したものです。 データは、最も多く使われているブラウザから最も人気のないブラウザまで順に並べられています。

カテゴリカルデータとは何か、データセットを調べるためにどのような数学的ツールを使用すればよいかがお分かりいただけたと思います。