Кластерный анализ (на примере сегментации потребителей) часть 1

Кластерный анализ

Предположим вы глава отдела по маркетингу и взаимодействию с потребителями в телекоммуникационной компании. Вы понимаете, что все потребители разные, и что вам необходимы различные стратегии для привлечения различных потребителей. Вы оцените мощь такого инструмента как сегментация клиентов для оптимизации затрат. Для того, чтобы освежить ваши знания кластерного анализа, рассмотрим следующий пример, иллюстрирующий 8 потребителей и среднюю продолжительность их разговоров (локальных и международных). Ниже данные:

image

Для лучшего восприятия нарисуем график, где по оси x будет откладываться средняя продолжительность международных разговоров, а по оси y — средняя продолжительность локальных разговоров. Ниже график:

image

Заметка: Это похоже на анализ расположения звезд на ночном небе (здесь звезды заменены потребителями). В дополнение, вместо трехмерного пространства у нас двумерное, заданное продолжительностью локальных и международных разговоров, в качестве осей x и y.
Сейчас, разговаривая в терминах галактик, задача формулируется так – найти положение черных дыр; в кластерном анализе они называются центроидами. Для обнаружения центроидов мы начнем с того, что возьмем произвольные точки в качестве положения центроидов.

Евклидово расстояние для нахождения Центроидов для Кластеров

В нашем случае два центроида (C1 и C2) мы произвольным образом поместим в точки с координатами (1, 1) и (3, 4). Почему мы выбрали именно эти два центроида? Визуальное отображение точек на графике показывает нам, что есть два кластера, которые мы будем анализировать. Однако, впоследствии мы увидим, что ответ на этот вопрос будет не таким уж простым для большого набора данных.
Далее, мы измерим расстояние между центроидами (C1 и C2) и всеми точками на графике использую формулу Евклида для нахождения расстояния между двумя точками.

Примечание: Расстояние может быть вычислено и по другим формулам, например,

  1. квадрат евклидова расстояния – для придания веса более отдаленным друг от друга объектам
  2. манхэттенское расстояние – для уменьшения влияния выбросов
  3. степенное расстояние – для увеличения/уменьшения влияния по конкретным координатам
  4. процент несогласия – для категориальных данных
  5. и др.

Колонка 3 и 4 (Distance from C1 and C2) и есть расстояние, вычисленное по этой формуле. Например, для первого потребителя

Принадлежность к центроидам (последняя колонка) вычисляется по принципу близости к центроидам (C1 и C2). Первый потребитель ближе к центроиду №1 (1.41 по сравнению с 2.24) следовательно, принадлежит к кластеру с центроидом C1.

image

Ниже график, иллюстрирующий центроиды C1 и C2 (изображенные в виде голубого и оранжевого ромбика). Потребители изображены цветом соответствующего центроида, к кластеру которого они были отнесены.

image

Так как мы произвольным образом выбрали центроиды, вторым шагом мы сделать этот выбор итеративным. Новая позиция центроидов выбирается как средняя для точек соответствующего кластера. Так, например, для первого центроида (это потребители 1, 2 и 3). Следовательно, новая координата x для центроида C1 э то средняя координат x этих потребителей (2+1+1)/3 = 1.33. Мы получим новые координаты для C1 (1.33, 2.33) и C2 (4.4, 4.2).Новый график ниже:

image

В конце концов, мы поместим центроиды в центр соответствующего кластера. График ниже:

image

Позиции наших черных дыр (центров кластеров) в нашем примере C1 (1.75, 2.25) и C2(4.75, 4.75). Два кластера выше подобны двум галактикам, разделенным в пространстве друг от друга.

Итак, рассмотрим примеры дальше. Пусть перед нами стоит задача по сегментации потребителей по двум параметрам: возраст и доход. Предположим, что у нас есть 2 потребителя с возрастом 37 и 44 лет и доходом в $90,000 и $62,000 соответственно. Если мы хотим измерить Евклидово расстояние между точками (37, 90000) и (44, 62000), мы увидим, что в данном случае переменная доход «доминирует» над переменной возраст и ее изменение сильно сказывается на расстоянии. Нам необходима какая-нибудь стратегия для решения данной проблемы, иначе наш анализ даст неверный результат. Решение данной проблемы это приведение наших значений к сравнимым шкалам. Нормализация – вот решение нашей проблемы.

Нормализация данных

Существует много подходов для нормализации данных. Например, нормализация минимума-максимума. Для данной нормализации используется следующая формула

в данном случае X* — это нормализованное значение, min и max – минимальная и максимальная координата по всему множеству X
(Примечание, данная формула располагает все координаты на отрезке [0;1])
Рассмотрим наш пример, пусть максимальный доход $130000, а минимальный — $45000. Нормализованное значение дохода для потребителя A равно

Мы сделаем это упражнение для всех точек для каждых переменных (координат). Доход для второго потребителя (62000) станет 0.2 после процедуры нормализации. Дополнительно, пусть минимальный и максимальный возрасты 23 и 58 соответственно. После нормализации возрасты двух наших потребителей составит 0.4 и 0.6.

Легко увидеть, что теперь все наши данные расположены между значениями 0 и 1. Следовательно, у нас теперь есть нормализованные наборы данных в сравнимых шкалах.

Запомните, перед процедурой кластерного анализа необходимо произвести нормализацию.

Статью нашел kuznetsovin

Метки:

Добавить меткиПометьте публикацию своими меткамиМетки необходимо разделять запятой. Например: php, javascript, адронный коллайдер, задача трех телСохранитьПрорвались через AdBlock — поможем вашему бизнесу прорваться в СМИ

Как это?
Реклама

8.1. Сущность кластерного анализа

Кластерным анализом называются разнообразные формализованные процедуры построения классификаций объектов. Лидирующей наукой в развитии кластерного анализа была биология. Предмет кластерного анализа (от англ. «cluster» — гроздь, пучок, группа) был сформулирован в 1939 г. психологом Робертом Трионом. Классиками кластерного анализа являются американские систематики Роберт Сокэл и Питер Снит. Одно из важнейших их достижений в этой области — книга «Начала численной таксономии», выпущенная в 1963 году. В соответствии с основной идеей авторов, классификация должна строится не на смешении плохо формализованных суждений о сходстве и родстве объектов, а на результатах формализованной обработки результатов математического вычисления сходств/отличий классифицируемых объектов. Для выполнения этой задачи нужны были соответствующие процедуры, разработкой которых и занялись авторы.

Основные этапы кластерного анализа таковы:
1. выбор сравнимых друг с другом объектов;
2. выбор множества признаков, по которому будет проводиться сравнение, и описание объектов по этим признакам;
3. вычисление меры сходства между объектами (или меры различия объектов) в соответствии с избранной метрикой;
4. группировка объектов в кластеры с помощью той или иной процедуры объединения;
5. проверка применимости полученного кластерного решения.

Читайте также:  Как получить задание на workzilla и начать зарабатывать?

Итак, важнейшими характеристиками процедуры кластеризации является выбор метрики (в разных ситуациях используется значительное количество разных метрик) и выбор процедуры объединения (и в этом случае для выбора доступно значительное количество различных вариантов). Для разных ситуаций в большей степени подходят одни или другие метрики и процедуры объединения, но в определенной степени выбор между ними является вопросом вкуса и традиции. Как более подробно объясняется в статье Кластеры, клады и химера объективности, надежда на то, что кластерный анализ приведет к построению классификации, никак не зависимой от произвола исследователя, оказывается недостижимой. Из пяти перечисленных этапов исследования с использованием кластерного анализа только этап 4 не связан с принятием более-менее произвольного решения, влияющего на конечный результат. И выбор объектов, и выбор признаков, и выбор метрики вместе с процедурой объединения существенно влияют на конечный результат. Этот выбор может зависит от многих обстоятельств, а том числе — от явных и неявных предпочтений и ожиданий исследования. Увы, указанное обстоятельство влияет не только на результат кластерного анализа. Со сходными проблемами сталкиваются все “объективные” методы, включая все методы кладистики.

Существует ли единственно правильное решение, которое надо найти, выбирая совокупность объектов, набор признаков, тип метрики и процедуру объединения? Нет. Чтобы доказать это, приведем фрагмент статьи, ссылка на которую дана в предыдущем абзаце.

 “На самом деле, мы не всегда можем даже твердо ответить на вопрос, какие объекты более похожи друг на друга, а какие отличаются сильнее. Увы, для выбора метрики сходств и различий между классифицируемыми объектами общепринятых (а тем более «объективных») критериев попросту нет.

На какой объект более похож объект А: на B или на C? Если использовать в качестве метрики сходства расстояние, то на C: |AC|<|AB|. А если полагаться на корреляцию между показанными на рисунке признаками (которую можно описать как угол между вектором, идущим к объекту из начала координат, и осью абсцисс), то на B: . А как правильно? А единственно правильного ответа нет. С одной стороны, взрослая жаба более похожа на взрослую лягушку (обе взрослые), с другой — на молодую жабу (обе жабы)! Правильность ответа зависит от того, что мы считаем более важным".

Кластерный анализ нашел широчайшее применение в современной науке. К сожалению, в значительной части тех случаев, когда его употребляют, лучше было бы использовать иные методы. В любом случае, стециалистам-биологом надо отчетливо понимать основную логику кластерного анализа, и только в этом случае они смогут применять его в тех случаях, где он адекватен, и не применять тогда, когда оптимальным является выбор иного метода.

 

8.2. Пример выполнения кластерного анализа “на пальцах”

Чтобы пояснить типичную логику кластерного анализа, рассмотрим его наглядный пример. Рассмотрим совокупность из 6 объектов (обозначенных буквами), охарактеризованных по 6 признакам самого простого типа: альтернативных, принимающих одно из двух значений: характерен (+) и нехарактерен (—). Описание объектов по принятым признакам называется “прямоугольной” матрицей. В нашем случае речь идет о матрице 6×6, т.е. ее можно считать вполне “квадратной”, но в общем случае количество объектов в анализе может не быть равно количеству признаков, и “прямоугольная” матрица может иметь разное количество строк и столбцов. Итак, зададим “прямоугольную” матрицу (матрицу объекты/признаки):

 

1

2

3

4

5

6

A

+

+

+

+

B

+

+

C

+

+

+

D

+

+

+

E

+

+

+

F

+

+

+

Выбор объектов и описание их по определенному набору признаков соответствуют двум первым этапам кластерного анализа. Следующий этап — построение матрицы сходств или различий (“квадратной” матрицы, матрицы объекты/объекты). Для этого нам надо выбрать метрику. Поскольку наш пример носит условный характер, имеет смысл выбрать самую простую метрику. Как проще всего определить расстояние между объектами A и B? Посчитать количество отличий между ними. Как вы можете увидеть, объекты A и B отличаются по признакам 3 и 5, итого, расстояние между этими двумя объектами соответствует двум единицам. 

Пользуясь этой метрикой, построим “квадратную” матрицу ( матрицу объекты/ объекты). Как легко убедиться, такая матрица состоит из двух симметричных половин, и заполнять можно только одну из таких половин:

 

A

B

C

D

E

F

A

2

3

3

5

3

B

 

3

3

3

1

C

 

 

6

4

4

D

 

 

 

2

2

E

 

 

 

 

2

F

 

 

 

 

 

В данном случае мы построили матрицу различий. Матрица сходства выглядела бы подобным образом, только на каждой позиции стояла бы величина, равная разности между максимальной дистанции (6 единиц) и различию между объектами. Для пары A и B, естественно, сходство составило бы 4 единицы.

Какие два объекта ближе всего друг к другу? B и F, они отличаются только по одному признаку. Суть кластерного анализа — в объединении подобных объектов в кластер. Объединяем объекты B и F в кластер (BF). Покажем это на схеме. Как вы видите, объекты объединены на том уровне, который соответствует дистанции между ними.

Постановка задачи

Исходный файл данных содержит следующую информацию об автомобилях и их владельцах:

  • марка автомобиля – первая переменная;

  • стоимость автомобиля – вторая переменная;

  • возраст водителя – третья переменная;

  • стаж водителя – четвертая переменная;

  • возраст автомобиля – пятая переменная;

Целью данного анализа является разбиение автомобилей и их владельцев на классы, каждый из которых соответствует определенной рисковой группе. Наблюдения, попавшие в одну группу, характеризуются одинаковой вероятностью наступления страхового случая, которая впоследствии оценивается страховщиком.

Использование кластер-анализа для решения данной задачи наиболее эффективно. В общем случае кластер-анализ предназначен для объединения некоторых объектов в классы (кластеры) таким образом, чтобы в один класс попадали максимально схожие, а объекты различных классов максимально отличались друг от друга. Количественный показатель сходства рассчитывается заданным способом на основании данных, характеризующих объекты.

Масштаб измерений

Все кластерные алгоритмы нуждаются в оценках расстояний между кластерами или объектами, и ясно, что при вычислении расстояния необходимо задать масштаб измерений.

Поскольку различные измерения используют абсолютно различные типы шкал, данные необходимо стандартизовать (в меню Данные выберете пункт Стандартизовать), так что каждая переменная будет иметь среднее 0 и стандартное отклонение 1.

Читайте также:  Налоги в Турции на недвижимость и доход в 2018 году

Таблица со стандартизованными переменными приведена ниже.

Шаг 1. Иерархическая классификация

На первом этапе выясним, формируют ли автомобили “естественные” кластеры, которые могут быть осмыслены.

Выберем Кластерный анализ в меню Анализ – Многомерный разведочный анализ для отображения стартовой панели модуля Кластерный анализ. В этом диалоге выберем Иерархическая классификация и нажмем OK.

Нажмем кнопку Переменные, выберем Все, в поле Объекты выберем Наблюдения (строки). В качестве правила объединения отметим Метод полной связи, в качестве меры близости – Евклидово расстояние. Нажмем ОК.

Метод полной связи определяет расстояние между кластерами как наибольшее расстояние между любыми двумя объектами в различных кластерах (т.е. “наиболее удаленными соседями”).

Мера близости, определяемая евклидовым расстоянием, является геометрическим расстоянием в n- мерном пространстве и вычисляется следующим образом:

Наиболее важным результатом, получаемым в результате древовидной кластеризации, является иерархическое дерево. Нажмем на кнопку Вертикальная дендрограмма.

Вначале древовидные диаграммы могут показаться немного запутанными, однако после некоторого изучения они становятся более понятными. Диаграмма начинается сверху (для вертикальной дендрограммы) с каждого автомобиля в своем собственном кластере.

Как только вы начнете двигаться вниз, автомобили, которые “теснее соприкасаются друг с другом” объединяются и формируют кластеры. Каждый узел диаграммы, приведенной выше, представляет объединение двух или более кластеров, положение узлов на вертикальной оси определяет расстояние, на котором были объединены соответствующие кластеры.

Шаг 2. Кластеризация методом К средних

Исходя из визуального представления результатов, можно сделать предположение, что автомобили образуют четыре естественных кластера. Проверим данное предположение, разбив исходные данные методом К средних на 4 кластера, и проверим значимость различия между полученными группами.

В Стартовой панели модуля Кластерный анализ выберем Кластеризация методом К средних.

кластеризация k-средних

Нажмем кнопку Переменные и выберем Все, в поле Объекты выберем Наблюдения (строки), зададим 4 кластера разбиения.

метод к-средних

Метод K-средних заключается в следующем: вычисления начинаются с k случайно выбранных наблюдений (в нашем случае k=4), которые становятся центрами групп, после чего объектный состав кластеров меняется с целью минимизации изменчивости внутри кластеров и максимизации изменчивости между кластерами.

Каждое следующее наблюдение (K+1) относится к той группе, мера сходства с центром тяжести которого минимальна.

После изменения состава кластера вычисляется новый центр тяжести, чаще всего как вектор средних по каждому параметру. Алгоритм продолжается до тех пор, пока состав кластеров не перестанет меняться.

Когда результаты классификации получены, можно рассчитать среднее значение показателей по каждому кластеру, чтобы оценить, насколько они различаются между собой.

В окне Результаты метода К средних выберем Дисперсионный анализ для определения значимости различия между полученными кластерами.

Итак, значение р<0.05, что говорит о значимом различии.

Нажмем кнопку Элементы кластеров и расстояния для просмотра наблюдений, входящих в каждый из кластеров. Опция также позволяет отобразить евклидовы расстояния объектов от центров (средних значений) соответствующих им кластеров.

Первый кластер:

 

Второй кластер:

Третий кластер:

Четвертый кластер:

Итак, в каждом из четырех кластеров находятся объекты со схожим влиянием на процесс убытков.

Условия и задачи

Анализ кластерный 2
Кластерный анализ исполняет такие главные задачи:

  • Изучение концептуальных полезных схем группирования объектов.
  • Разработка классификации или типологии.
  • Порождение гипотез на основании исследования данных.
  • Проверка исследования или гипотез для определения, действительно ли группы (типы), выделенные каким-либо методом, есть в имеющихся данных.

Вне зависимости от предмета изучения использование кластерного анализа предусматривает следующие стадии:

  • Отбор выборки для кластеризации. Понимается, что есть смысл кластеризовать лишь количественные данные.
  • Определение переменных, по которым будут оценивать объекты в выборке, то есть признаковое пространство.
  • Вычисление значений определенной меры различия или сходства меж объектами.
  • Использование способа кластерного анализа для того, чтобы создать группы сходных объектов.
  • Проверка достоверности итогов кластерного решения.

Можно встретить описание двух фундаментальных требований, которые предъявляются к данным — полнота и однородность . Однородность требует, чтобы все кластеризуемые сущности были одинаковой природы, описываться похожим набором свойств. Когда кластерному анализу предшествует факторный анализ, то выборка в «ремонте» не нуждается — изложенные требования исполняются автоматически непосредственно процедурой факторного моделирования (есть ещё одно достоинство — z-стандартизация без отрицательных последствий для выборки; если её непосредственно проводить для кластерного анализа, она может за собой повлечь уменьшение чёткости разделения групп). Иначе выборку необходимо корректировать.

Типология задач кластеризации

Виды входных данных

  • Признаковое описание объектов. Каждый объект описывают набором собственных характеристик, которые называются признаками. Признаки могут быть нечисловыми или числовыми.
  • Матрица расстояний меж объектами. Каждый объект описывают расстояниями до всех других объектов метрического пространства.
  • Матрица сходства меж объектами. Учитывают степень сходства объекта с прочими объектами выборки в метрическом пространстве. Сходство тут дополняет различие (расстояние) меж объектами до 1.

В современной науке используется несколько алгоритмов обработки для входных данных. Анализ при помощи сравнения объектов, учитывая признаки, (наиболее распространённый в биологических науках) называется Q-видом анализа, а при сравнении признаков, на основании объектов — R-видом анализа. Есть попытки использовать гибридные типы анализа (к примеру, RQ-анализ), но эта методология ещё не разработана должным образом.

Цели кластеризации

  • Понимание данных при помощи выявления кластерной структуры. Разбиение выборки на группы похожих объектов дает возможность упростить обработку данных в дальнейшем и принятие решений, к каждому кластеру применяя собственный метод анализа (стратегия «разделяй и властвуй»).
  • Сжатие данных. Когда исходная выборка сильно большая, то можно её сократить, оставив от каждого кластера по одному самому типичному представителю.
  • Обнаружение новизны (англ. novelty detection). Выделяют нетипичные объекты, которые не получается ни к одному из кластеров присоединить.

Число кластеров в первом случае стараются делать поменьше. Во втором случае более важным будет обеспечить большую степень сходства объектов в каждом кластере, а кластеров может быть сколько угодно. Наибольший интерес в третьем случае представляют отдельные объекты, которые не вписываются ни в один из кластеров.

Во всех данных ситуациях может использоваться иерархическая кластеризация, когда большие кластеры дробят на более мелкие, те дробятся в свою очередь ещё мельче, и так далее. Такие задачи называют задачами таксономии. Итог таксономии — иерархическая древообразная структура. Каждый объект при этом характеризуется перечислением кластеров, которым он принадлежит, от крупного к мелкому.

Способы кластеризации

Общепринятой классификации способов кластеризации нет, однако возможно выделить некоторые группы подходов (некоторые способы возможно отнести сразу к нескольким группам и потому предлагают рассматривать эту типизацию в качестве некоторого приближения к реальной классификации способов кластеризации):

  1. Вероятностный подход. Предполагают, что каждый рассматриваемый объект относят к одному из k классов. Некоторые авторы (к примеру, А. И. Орлов) полагают, что эта группа совсем не относится к кластеризации и противопоставляют её «дискриминации», то есть выбору отнесения объектов к одной известной группе (обучающим выборкам).
    • Дискриминантный анализ
    • K-medians
    • K-средних (K-means)
    • Алгоритмы семейства FOREL
    • EM-алгоритм
  2. Подходы на основании систем искусственного интеллекта: условная группа, так как способов весьма много и они весьма различны методически.
    • Генетический алгоритм
    • Нейронная сеть Кохонена
    • Метод нечеткой кластеризации C-средних
  3. Логический подход. Построение дендрограммы производится при помощи дерева решений.
  4. Теоретико-графовый подход.
    • Графовые алгоритмы кластеризации
  5. Иерархический подход. Предполагают наличие вложенных групп (кластеров разного порядка). В свою очередь алгоритмы подразделяются на объединительные (агломеративные) и разделяющие (дивизивные). По числу признаков порой выделяют политетические и монотетические способы классификации.
    • Таксономия или дивизивная иерархическая кластеризация. Задачи кластеризации рассматривают в числовой таксономии.
  6. Прочие способы, которые не вошли в прошлые группы.
    • Ансамбль кластеризаторов
    • Статистические алгоритмы кластеризации
    • Алгоритм, который основан на способе просеивания
    • Алгоритмы семейства KRAB
    • DBSCAN и др.
Читайте также:  Для чего нужен испытательный срок?

Подходы 4 и 5 порой объединяют под названием геометрического или структурного подхода, который обладает большей формализованностью понятия близости. Невзирая на большие различия меж перечисленными способами все они опираются на начальную «гипотезу компактности»: в пространстве объектов все близкие объекты относятся к одному кластеру, а все разные объекты должны соответственно находиться в разных кластерах.

Формальная постановка задачи кластеризации

Пусть х  — множество объектов, номеров (меток, имён) кластеров. Задана функция расстояния меж объектами. Есть конечная обучающая выборка объектов. Необходимо разбить выборку на непересекающиеся подмножества, которые называются кластерами, так, чтобы каждый кластер включал в себя объекты, близкие по метрике, а объекты различных кластеров значительно отличались. Каждому объекту при этом приписывают номер кластера.

Алгоритм кластеризации — функция, которая каждому объекту в соответствие ставит номер кластера. Множество в некоторых случаях заранее известно, но зачастую ставится задача определить оптимальное количество кластеров, с точки зрения определенного критерия качества кластеризации.

Кластеризация (обучение без учителя) от классификации (обучения с учителем) отличается тем, что метки исходных объектов вначале не заданы, и может быть даже неизвестно непосредственно множество .

Решение задачи кластеризации неоднозначно принципиально, и тому есть несколько причин (как считают некоторые):

  • не существует однозначно наилучшего критерия качества кластеризации. Известен ряд эвристических критериев и ряд алгоритмов, которые не имеют выраженного чётко критерия, однако осуществляющих довольно разумную кластеризацию «по построению». Все они могут дать различные результаты. Следовательно, для того, чтобы определить качество кластеризации необходим эксперт предметной области, который сможет оценить осмысленность процесса выделения кластеров.
  • количество кластеров обычно заранее неизвестно и устанавливается соответственно с некоторыми субъективными критериями. Это справедливо лишь для способов дискриминации, так как в способах кластеризации выделение кластеров происходит за счёт формализованного подхода на основании мер близости.
  • Итог кластеризации в значительной степени зависит от метрики, выбор которой обычно также субъективен и его определяет эксперт. Но необходимо заметить, что есть некоторые рекомендации к выбору мер близости для разных задач.

Использование

В биологии

Анализ кластерный 5
Кластеризация в биологии имеет много приложений в самых различных областях. К примеру, в биоинформатике при ее помощи анализируются сложные сети взаимодействующих генов, которые состоят порой из тысяч элементов. Кластерный анализ дает возможность выделить узкие места, подсети, концентраторы и прочие скрытые свойства изучаемой системы, что в конечном счете дает возможность узнать вклад каждого гена в образование изучаемого феномена.

В сфере экологии широко применяют для выделения однородных пространственно групп сообществ, организмов и так далее. Реже методы кластерного анализа применяют для исследования во времени сообществ. Гетерогенность структуры сообществ вызывает появление нетривиальных методов кластерного анализа (к примеру, метод Чекановского).

В общем, необходимо заметить, что исторически так сложилось, что в биологии в качестве мер близости чаще применяются меры сходства, а не расстояния (различия).

В социологии

Анализ кластерный 6
Анализируя результаты социологических исследований советуется осуществлять анализ способами агломеративного иерархического семейства, а именно способом Уорда, при котором в кластерах оптимизируют минимальную дисперсию, в результате создаются кластеры приблизительно одинаковых размеров. Способ Уорда наиболее удачным является для анализа социологических данных. Как мера отличия лучше квадратичное евклидово расстояние, которое дает возможность увеличить контрастность кластеров. Главным результатом иерархического кластерного анализа является «сосульчатая диаграмма» или дендрограмма. Исследователи при её интерпретации сталкиваются с проблемой аналогичного рода, что и толкование итогов факторного анализа — отсутствие однозначных критериев для выделения кластеров. Как главные, рекомендуется применять два метода — визуальный анализ дендрограммы и сравнение итогов кластеризации, которая выполнена разными методами.

Визуальный анализ дендрограммы предусматривает «обрезание» дерева на оптимальном уровне сходства элементов выборки. «Виноградную ветвь» (терминология Олдендерфера М. С. и Блэшфилда Р. К.) целесообразно «обрезать» на отметке 5 шкалы Rescaled Distance Cluster Combine, тогда будет достигнут 80 % уровень сходства. Когда выделение кластеров по данной метке затрудняется (на ней происходит слияние нескольких маленьких кластеров в один большой), то можно другую метку выбрать. Такую методику предлагает Олдендерфер и Блэшфилд.

Тогда появляется вопрос устойчивости принятого кластерного решения. По сути, проверку устойчивости кластеризации сводят к проверке её достоверности. Тут есть эмпирическое правило — устойчивая типология сберегается при изменении способов кластеризации. Итоги кластерного иерархическогоанализа возможно проверять кластерным итеративным анализом по методу k-средних. Когда сравниваемые классификации групп респондентов имеют долю совпадений больше 70 % (больше 2/3 совпадений), кластерное решение принимают.

Проверить адекватность решения, не вызывая помощь другого типа анализа, нельзя. В теоретическом плане, по крайней мере, данная проблема не решена. В классической работе Блэшфилда и Олдендерфера «Кластерный анализ» детально рассматриваются и в результате отвергаются добавочные пять способов проверки устойчивости:

  1. методы Монте-Карло весьма сложны и доступны лишь опытным математикам;
  2. тесты значимости (дисперсионный анализ) — дают всегда значимый результат;
  3. кофенетическая корреляция — не советуется и в использовании ограниченна;
  4. тесты значимости для внешних признаков являются пригодными лишь для повторных измерений;
  5. методика случайных (повторных) выборок, что всё-таки не доказывает обоснованность решения.
Источники

  • https://habr.com/post/228477/
  • https://batrachos.com/biostatistica_clusters
  • http://statsoft.ru/solutions/ExamplesBase/branches/detail.php?ELEMENT_ID=1573
  • https://biznes-prost.ru/analiz-klasternyj.html

[свернуть]
Помогла статья? Оцените её
1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд
Загрузка...