Ierarxik və Qismən çoxluq

Kümelenme, məlumatların təhlili və oxşar məlumatlar qruplarına bölünməsi üçün bir maşın öyrənmə üsuludur. Bu qruplar və ya oxşar məlumatlar dəstləri çoxluq kimi tanınır. Klaster təhlili avtomatik olaraq klasterləri müəyyənləşdirə bilən klasterləmə alqoritmlərinə baxır. Hiyerarxik və Qismən bu cür klasterləşmə alqoritmlərinin iki sinifidir. Ierarxik çoxluq alqoritmləri məlumatları çoxluqların iyerarxiyasına parçalayır. Paralel alqoritmlər, verilənləri qarşılıqlı olaraq ayrılan hissələrə bölür.

Hiyerarşik kümelenmə nədir?

Hiyerarxik klasterləmə alqoritmləri ya daha kiçik qrupları birləşdirmək və ya daha çoxunu daha kiçiklərə bölmək dövrünü təkrarlayır. Hər iki halda, bir dendogram adlanan çoxluqların iyerarxiyasını istehsal edir. Aqlomerativ klasterləşmə strategiyasında daha böyük olanlara birləşən aşağıdan yuxarıya yaxınlaşma, bölücü bölmə klasterləşmə strategiyası isə kiçik olanlara bölünmə üçün yuxarıdan aşağıya yanaşmadan istifadə edir. Tipik olaraq, daha böyük / kiçik qrupların birləşmə / bölmək üçün istifadə edilməsinə qərar verməkdə acgöz yanaşma istifadə olunur. Evklid məsafəsi, Manhetten məsafəsi və kosin oxşarlığı ədədi məlumatlar üçün ən çox istifadə olunan oxşarlıq ölçüləridir. Rəqəmsiz məlumatlar üçün Hamming məsafəsi kimi ölçülərdən istifadə olunur. Qeyd etmək vacibdir ki, həqiqi müşahidələrin (misalların) iyerarxik kümelenmesi üçün lazım deyil, çünki yalnız məsafələrin matrisi kifayətdir. Dendogram, iyerarxiyanı çox aydın şəkildə göstərən çoxluqların vizual bir təmsilidir. İstifadəçi, dendogramın kəsildiyi səviyyədən asılı olaraq müxtəlif kümelenmələr əldə edə bilər.

Qismən təsnifat nədir?

Qismən klasterləşmə alqoritmləri müxtəlif bölmələr yaradır və sonra onları müəyyən bir kriteriya ilə qiymətləndirirlər. Hər bir nümunə tam olaraq qarşılıqlı eksklüziv qruplardan birinə yerləşdirildiyi üçün bunlara qeyri-irərçi də deyilir. Çoxluqların yalnız bir dəsti tipik bir qismən klasterləşdirmə alqoritminin nəticəsi olduğundan istifadəçi istədiyi çoxluqdan (adətən k adlanır) girməsini tələb edir. Ən çox istifadə olunan qismən çoxluq alqoritmlərindən biri k mənasını verən klasterləmə alqoritmidir. İstifadəçi başlamazdan əvvəl çoxluq sayını (k) təmin etməlidir və alqoritm əvvəlcə k bölmələrinin mərkəzlərini (və ya centroids) işə salır. Bir sözlə, k-demək klasterləşmə alqoritmi sonra cari mərkəzlərə əsaslanan üzvləri təyin edir və mövcud üzvlərə əsaslanan yenidən qiymətləndirmə mərkəzlərini təyin edir. Bu iki addım müəyyən bir qrupdaxili oxşarlıq obyektiv funksiyası və qruplararası oxşarlıq obyektiv funksiyası optimallaşdırılana qədər təkrarlanır. Buna görə mərkəzlərin həssas başlanğıcı qismən alışma alqoritmlərindən keyfiyyətli nəticə əldə etmək üçün çox vacib bir amildir.

Hiyerarxik və Parçalı Klasterləşmənin fərqi nədir?

Hiyerarxik və Parçalı Klasterləşmə iş vaxtı, fərziyyələr, giriş parametrləri və nəticələnən qruplar arasında əsas fərqlərə malikdir. Tipik olaraq, qismən klasterləşmə iyerarxik klasterləşmədən daha sürətli olur. İerarxik klasterləşmə yalnız oxşarlıq tədbiri tələb edir, qismən klasterləşmə çox sayda qrup və ilkin mərkəzlər kimi güclü fərziyyələr tələb edir. Hiyerarxik klasterləşdirmə heç bir giriş parametrlərini tələb etmir, qismən klasterləşdirmə alqoritmləri işləməyə başlamaq üçün çoxluq sayını tələb edir. Hiyerarxik klasterləşmə çox daha mənalı və subyektiv bölgülərə qayıdır, lakin qismən çoxluqlar tam k klasterlərə səbəb olur. İerarxik çoxluq alqoritmləri, oxşarlıq ölçüsü müvafiq olaraq müəyyən edilə biləcəyi qədər, kateqoriyalı məlumatlar üçün daha uyğundur.