Kapitel 6: Unüberwachtes Lernen Clustering


Multidimensionale Skalierung



Download 1,03 Mb.
bet5/5
Sana31.12.2021
Hajmi1,03 Mb.
#220547
1   2   3   4   5
Bog'liq
ml-nc-Kap6

Multidimensionale Skalierung

  • Aufgabe: Bilde hochdimensionale (n-d) Daten auf niedrige Dimensionalität (k-d) ab, sodaß Abstände zwischen den Punkten annähernd gleich bleiben (Dimensionsreduktion)
  • Funktioniert gut, wenn Daten auf k-dim. Mannigfaltigkeit liegen (z.B. gekrümmte Fläche)

SOM als MDS

  • MDS entspricht dem Prinzip der topologischen Erhaltung in der SOM
  •  SOM ist Clustering + MDS (mit Verzerrung abh. von Dichte)!
  • Bereich 1
  • 1
  • Bereich 2
  • 2

Topologische Darstellung

  • Zwischenzustände durch Gewichtung mittels Distanz zu Zentren
  • Ausgeprägte Grenzen darstellbar (U-Map, Ultsch)

Alternative: Sammon Mapping

  • Minimiere Differenz aller Abstände:
  • Nachteil: hoher Berechnungsaufwand
  • Lösung: zuerst Clustering, dann Sammon Mapping (weniger Punkte); Flexer 1996
  • Aber: Gleiche Probleme mit lokalen Minima wie k-means
  • Abstand
  • Originalpunkte
  • Punkte in der Map
  • Normalisierung

Probleme der SOM

  • Keine probabilistische Beschreibung
  • Konvergenz nicht garantiert
  • Es gibt keine Fehlerfunktion, die minimiert wird!
  • Clustering und MDS beeinflussen einander (beides kann suboptimal sein)
  • Es ist schwer abschätzbar, ob SOM gut ist oder nicht
  •  Empfehlung:
    • SOM nur zur Visualisierung einsetzen! (nicht zum Clustering oder für überwachte Probleme)
    • Genau überlegen, was Kriterium ist; Alternativen suchen

Generative Topographic Mapping (GTM)

  • Bishop et al. (1996)
  • Nichtlineares Mapping von einer Gitterstruktur auf eine Gaussian Mixture (z.B. durch MLP)
  • GMM mit Randbedingungen
  • Probabilistische Formulierung, umgeht viele der Probleme der SOM
  • Aus Bishop et al. (1996), Neural Computation 10(1), 215-235
  • Aus Netlab Demo demgtm2.m
  • Netlab>demgtm1.m, demgtm2.m
  • Zentrum abh. von Gitterpunkt

Praktische Aspekte

  • Auch für unüberwachte Verfahren gelten im wesentlichen die 7 Schritte:
    • Sichtung (Ausreißer)
    • Vorverarbeitung: Skalierung der Merkmale beeinflusst die Distanz  Normalisierung
    • Merkmalsselektion: irrelevante Merkmale können Clustering erschweren:

Kreuzvalidierung für unüberwachtes Lernen

    • Modellschätzung mittels Kreuzvalidierung: bei k-means problematisch bei GMM: Likelihood-Funktion als Fehlerfunktion („Loss“-Funktion)

Kombination von überwachtem mit unüberwachtem Lernen

  • Unüberwachte Verfahren alleine eignen sich nur für unüberwachte Probleme!
  • Bei überwachtem Problem (gelabelte Daten) kann unüberwachtes Verfahren eingesetzt werden als
    • Initialisierung
    • Vorstrukturierung
  • Beispiele:

Learning Vector Quantization (LVQ)

  • Kohonen (1990) Ordne Units Klassen zu
  •  nearest neighbor Verfahren mit Vektorquantisierung (nicht jeder Trainingspunkt gespeichert)
  • Vergleichbar mit Dichteschätzung der class-conditionals
  • wegbewegen, wenn falsche Klasse

Zusammenfassung

  • Unüberwachte neuronale Netz-Verfahren reihen sich ebenfalls nahtlos in die Statistik
  • Competitive Learning = k-means
  • GMM als probabilistisches Clusteringverfahren
  • SOM als Multidimensionale Skalierung + Clustering, aber mit Problemen

Download 1,03 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish