Hoe de uitvoer van SPSS K-Means te lezen

Clusteringanalyse is een statistische techniek die wordt gebruikt om gevallen in categorieën te rangschikken, zodat de gevallen in elke categorie op elkaar lijken en verschillen van gevallen in andere categorieën. Elke categorie is een cluster. Sociale wetenschappers gebruiken SPSS (Statistisch Pakket voor de Sociale Wetenschappen) om clusteranalyses uit te voeren. Bij K-Means clustering geeft de onderzoeker het gewenste aantal clusters aan. K is het aantal clusters dat onderzoekers aangeven te willen. K-Means clustering stelt onderzoekers in staat om zeer grote datasets te clusteren.

Data analyseren

Stap 1

Klik op "Analyseren" bovenaan het SPSS-scherm. Selecteer 'Classificeren' in het vervolgkeuzemenu en 'K-Means Cluster'.

Stap 2

Selecteer een voorbeeld van cases. Klik in het dialoogvenster op "Variabelen" en markeer de variabelen die u wilt gebruiken in de initiële K-Means-analyse. Klik op de linkerpijl om de variabelen naar het vak te verplaatsen. Stel het aantal clusters in, meestal 5 in een gegevensset van gemiddelde grootte, in het vak 'Aantal clusters'. Het aantal clusters moet meer dan twee zijn en niet meer dan het aantal gevallen. Klik op "Itereren en classificeren" in het dialoogvenster om clustercentra te verkrijgen. Klik op 'Definitief schrijven'.

Neem het hele gegevensbestand op voor de definitieve K-Means-analyse. Klik op "Analyseren" bovenaan het SPSS-scherm. Selecteer 'Classificeren' in het vervolgkeuzemenu en 'K-Means Cluster'. Selecteer in het dialoogvenster "Variabelen" en markeer de variabelen die u wilt gebruiken. Klik op de linkerpijl. Stel het aantal clusters in op 5 in het vak 'Aantal clusters'. Klik op "Classificeren" in het dialoogvenster. Kies 'Initiaal lezen' om de clustercentra uit het voorbeeld in stap 2 te halen. Klik op 'Opslaan'. Klik op 'Clusterlidmaatschap'. Klik op "Doorgaan".

Lees de uitvoer

Stap 1

Bekijk de eerste tabel in de uitvoer, met het label 'Final Cluster Centers'. Bovenaan de tabel staan de nummers 1 tot en met 5, die elk van de 5 clusters aangeven. In de linkerkolom staat de "REGR-factorscore" (Regressiefactorscore of hoe goed elke variabele de score voorspelt) voor elk van de analyses. Als u de lijn naast score 1 voor analyse 1 aan de rechterkant volgt, krijgt u de factorscore voor elk cluster.

Stap 2

Lees de volgende tabel in de uitvoer met de titel "Aantal gevallen in elk cluster". Het vak aan de linkerkant geeft de clusters weer op nummer, 1 t/m 5. Volg het clusternummer naar rechts en je vindt het aantal gevallen in dat cluster.

Kijk naar de laatste tabel in de uitvoer, "Clusterlidmaatschap", die laat zien welke gevallen zich in elk cluster bevinden. De cases staan in de linkerkolom en het clusternummer staat in de kolom helemaal rechts.