МЕТОДЫ КЛАССИФИКАЦИИ
АВТОНОМНАЯ НЕКОММЕРЧЕСКАЯ ОРГАНИЗАЦИЯ ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «КОЛЛЕДЖ ЭКОНОМИКИ, СТРАХОВОГО ДЕЛА И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ КЭСИ»
Метод классификации – совокупность правил и результат распределения заданного множества объектов на подмножества – классификационные группировки в соответствии с признаками сходства или различия. В качестве объектов классификации выступают различные номенклатуры – материалы, товары, подразделения и т.п. Эти номенклатуры требуют описания как их свойств, так и идентификации отдельных представителей. Различают два метода классификации:
- иерархический метод;
- фасетный метод.
Иерархический метод устанавливает отношение подчинения между различными группировками. Последовательно детализируются качественные свойства объектов множеств: класс, подкласс, группа, подгруппа, вид и т.д. Ступень классификации – этап классификации, результатом которого является совокупность классификационных группировок.
Классифицируемое множество объектов по некоторому основанию деления – отдельному признаку классификации или их совокупности делится на подмножества.
Рисунок 1 – Иерархический метод
Иерархический метод. На основании признака классификации (s1) исходное множество М разбито на подмножества: {1}, {2}, … {N}. Для подмножества {1} может быть выбран другой классификационный признак – (s2). В результате подмножество {1} разбивается на совокупность подмножеств {11}, {1m}. Для подмножества {2} выбран классификационный признак – (s3), подмножество {2} разбивается на совокупность подмножеств {21}, {22}, … {2k}и т.д. При этом выполняются следующие условия:
- объединение подмножеств классификационных группировок одного уровня иерархии дает исходное множество объектов;
- пересечение классификационных группировок одного уровня иерархии дает нулевое подмножество.
Классификационные признаки для иерархического метода применяются последовательно в каждой иерархической ветви, при этом они могут отличаться друг от друга. Структура иерархической системы классификации жесткая и не подлежит изменению. Основные достоинства иерархической системы классификации:
- традиционность и естественность;
- большая информационная емкость. Если число уровней иерархии – N, на каждом уровне отдельный признак классификации принимает Kn значений, то максимально возможное число классификационных группировок на последнем уровне составляет величину – H =
/ Например, число уровней иерархии – 3, для каждого уровня максимальное количество значений признаков классификации – 10, тогда, общее число классификационных группировок – 1000 (103).
- возможность использования различных наборов классификационных признаков для каждой иерархической ветви классификации.
Недостатками иерархической системы классификации являются: невозможность внесения изменений в классификатор (добавление или удаление классификационных признаков, изменение последовательности их применения) после его создания; трудоемкий поиск информации по произвольному сочетанию признаков классификации.
Фасетный метод классификации предполагает, что исходное множество объектов разбивается на подмножества группировок по независимым между собой признакам классификации – фасетам).
Фасет – набор значений отдельного признака классификации, все фасеты взаимно независимы.
Каждый объект одновременно имеет классификационные признаки из различных фасетов, а классификационные группировки создаются динамически путем задания фасетной формулы – последовательности фасет и значений классификационных признаков выбранных фасетов.
Рисунок 2 – Фасетная формула
Например, группировка 1 создана на основании значений фасета Ф1, группировка 2 – на основании значений фасетов Ф3 и Фn и т.д.
Если общее число фасетов N и для фасета имеется Kn значений признаков, то общая емкость фасетной системы классификации соответствует величине H.
Таким образом, имеет место информационная избыточность группировок, в ряде случаев не возможных по смыслу. Этот метод классификации наиболее эффективен для машинной обработки данных, при использовании технологии БД и языков запросов высокого уровня.