- Примеры
- Классификация категориальных переменных
- Номинальные категории
- Порядковый категориальный
- Бинарные категории
- Статистика с категориальными переменными
- Графическое представление категориальных переменных
- Решенные упражнения
- Упражнение 1
- Пример 2
- Пример 3
- Ссылки
Категориальная переменная является один используется в статистике , чтобы назначить нечисловым или качественную характеристику или свойство какого - либо объекта, отдельного человека, субъекта, состояния или процедуры. Можно определить все виды категориальных переменных в соответствии с каждой потребностью.
Примерами категориальных переменных являются: цвет кожи, пол, группа крови, семейное положение, тип материала, форма оплаты или тип банковского счета, и они часто используются на ежедневной основе.

Рисунок 1: Цвет - категориальная переменная. Источник: pixabay
Вышеуказанные являются переменными, но их возможные значения являются качественными, то есть качества или характеристики, а не числовыми измерениями. Например, возможные значения переменной пола: мужской, h embra.
Когда эта переменная сохраняется в компьютерной программе, ее можно объявить как текстовую переменную, и единственными допустимыми значениями будут те, которые уже названы: Male, Female.
Однако одна и та же переменная пола может быть объявлена и сохранена как целое число, если Male присвоено 1, а Female - 2. По этой причине категориальные переменные иногда называют перечислимым типом.
Основная характеристика категориальных переменных заключается в том, что в отличие от других переменных, таких как непрерывные и дискретные переменные, с ними невозможно производить арифметические операции. Однако с ними можно вести статистику, как будет видно позже.
Примеры
Обратите внимание на следующие примеры категориальных переменных и их возможные значения:
- Group_Sanguíneo, диапазон значений: A, B, AB, O
- Civil_Status, категориальные значения: холост (A), женат (B), вдова (C), разведен (D).
- Tipo_de_Material, Категории или значения: 1 = дерево, 2 = металл, 3 = пластик
-Form_of_Payment, Ценные бумаги или категории: (1) Денежные средства, (2) Дебет, (3) Перевод, (4) Кредит
В предыдущих примерах номер был связан с каждой категорией совершенно произвольным образом.
Тогда можно было бы подумать, что эта произвольная числовая ассоциация делает ее эквивалентной дискретной количественной переменной, но это не так, поскольку с этими числами нельзя выполнять арифметические операции.
Чтобы проиллюстрировать идею, в переменной Form_of_Payment операция суммы не имеет смысла:
(1) Наличные + (2) Дебет никогда не будет равняться (3) Перевод
Классификация категориальных переменных
Рейтинг основан на том, есть ли у них неявная иерархия или количество возможных результатов больше двух или двух.
Категориальная переменная с только одним возможным результатом не является переменной, это категориальная константа.
Номинальные категории
Когда они не могут быть представлены числом или иметь какой-либо порядок. Например, переменная: Type_of_Material имеет номинальные значения (Дерево, Металл, Пластик), у них нет иерархии или порядка, даже когда каждому ответу или категории присваивается произвольный номер.
Порядковый категориальный
Переменная: Academic_performance
Номинальные значения: высокое, среднее, низкое.
Хотя значения этой переменной не являются числовыми, они имеют неявный порядок или иерархию.
Бинарные категории
Это номинальные переменные с двумя возможными ответами, например:
-Переменная: ответ
-Номинальные значения: True, False
Обратите внимание, что переменная Response не имеет неявной иерархии и имеет только два возможных результата, поэтому это двоичная категориальная переменная.
Некоторые авторы называют этот тип двоичной переменной и не считают, что он принадлежит к категориальным переменным, которые ограничиваются теми, у которых есть более трех возможных категорий.
Статистика с категориальными переменными
Статистику можно вести с категориальными переменными, даже если они не являются числовыми или количественными переменными. Например, чтобы узнать тенденцию или наиболее вероятное значение категориальной переменной, используется режим.
В этом случае режим - это наиболее повторяющийся результат или значение категориальной переменной. Для категориальных переменных невозможно вычислить ни среднее, ни медианное значение.
Среднее значение не может быть вычислено, потому что вы не можете выполнять арифметические операции с категориальными переменными. Нет и медианы, потому что количественные или категориальные переменные не имеют порядка или иерархии, поэтому невозможно определить центральное значение.
Графическое представление категориальных переменных
Для определенной категориальной переменной можно найти частоту или количество повторений результата этой переменной. Если это делается для каждого результата, то можно построить график частоты по каждой категории или результату.
Вот несколько примеров того, как категориальные переменные могут быть представлены графически.
Решенные упражнения
Упражнение 1
Компания хранит данные о 170 сотрудниках. Одна из переменных в этих записях: Estado_Civil. Эта переменная имеет четыре категории или возможные значения:
Холост (A), женат (B), вдовец (C), разведен (D).
Хотя это нечисловая переменная, можно узнать, сколько всего записей находится в определенной категории и может быть представлено в виде гистограммы, как показано на следующем рисунке:

Рисунок 2. Представление результатов категориальной переменной. Источник: самодельный
Пример 2
Обувной магазин отслеживает свои продажи. Среди переменных, которые управляют их записями, есть цвет обуви для каждой модели. Переменная:
Цвет обуви, модель AW3
Это категориальный тип и пять категорий или возможных значений. Для каждой категории этой переменной суммируется количество продаж и устанавливается их процентное соотношение. Результаты представлены на графике следующего рисунка:

Рисунок 3. Категориальная переменная Color _Shoe. В этой переменной установлен белый режим. Источник: самодельный.
Тогда можно сказать, что из модной модели обуви AW3 наиболее часто продается белая, за ней следует черная.
Также можно сказать, что с вероятностью 70% следующая проданная обувь этой модели будет белой или черной.
Эта информация может быть полезна для магазина при размещении новых заказов или даже может применять скидки на наименее продаваемые цвета из-за избытка запасов.
Пример 3
Для определенной группы доноров крови вы хотите представить количество людей, принадлежащих к определенной группе крови. Графический способ визуализации результатов - это пиктограмма, которая находится внизу таблицы.
Первый столбец представляет переменную group_sanguíneo и ее возможные результаты или категории. Во втором столбце представлено в иконической или графической форме количество людей в каждой категории. В нашем примере в качестве значка используется красная капля, каждая из которых представляет 10 человек.

Рисунок 4. Пиктограмма. Источник: самодельный
Ссылки
- Ханская академия. Анализ категориальных данных. Получено с: khanacademy.org
- Формулы Вселенной. Качественная переменная. Получено с: univesoformulas.com
- Minitab. Это категориальные, дискретные и непрерывные переменные. Получено с: support.minitab.com
- Учебник по Excel. Характеристика переменных. Получено с: help.xlslat.com.
- Wikipedia. Статистическая переменная. Восстановлено с wikipedia.com
- Wikipedia. Категориальная переменная. Восстановлено с wikipedia.com
- Wikipedia. Категориальная переменная. Восстановлено с wikipedia.com
