Kendalls tau
Uit Wikipedia, de vrije encyclopedie
Kendalls rangcorrelatiecoëfficiënt, of kortweg Kendalls т (tau), is in de statistiek een correlatiecoëfficiënt gebaseerd op de rangnummers van de data in plaats van op de data zelf. Het is daarmee een verdelingsvrije maat voor correlatie, ook geschikt voor data die slechts op ordinale schaal gemeten zijn. De coëfficiënt is in 1938 ingevoerd door de Britse statisticus Maurice Kendall en naar deze genoemd.
Inhoud |
[bewerk] Definitie
Van een steekproef van n paren waarnemingen (Xi,Yi) worden de paren vergeleken. De paren (Xi,Yi) en (Xj,Yj) heten concordant als
- .
In het tegenovergestelde geval heten de paren discordant.
De toetsingsgrootheid Kendalls т is gedefinieerd door:
waarin C het aantal concordante paren is. Een andere vorm is:
waarin C het aantal concordante paren en D de rest, het aantal discordante paren is.
In deze definitie komen de rangnummers niet expliciet voor. Er is een alternatieve formulering waarin dat wel het geval is en C berekend wordt aan de hand van de rangnummers.
[bewerk] Eigenschappen
Kendalls tau heeft de volgende eigenschappen:
- Bij volledige overeenstemming tussen de beide volgordes, dus als in elk paar beide grootheden hetzelfde rangnummer hebben, heeft de coëfficiënt de waarde 1. Alle paren zijn immers concordant, zodat C = n(n-1)/2.
- In het tegenovergestelde geval als de volgordes volledig tegengesteld verlopen zijn alle paren discordant, zodat C = 0. De coëfficiënt heeft dan de waarde -1.
- In alle andere gevallen ligt de waarde tussen -1 en 1, toenemend met toenemende overeenstemming tuusen de paren.
- Zijn de volgordes onafhankelijk dan heeft de coëfficiënt de waarde 0.
[bewerk] Voorbeeld
Van 8 personen is de lengte en het gewicht bepaald. De personen zijn gerangschikt naar lengte, van klein naar groot. Hun rangnummer in de gewichten staat op de tweede rij:
-
geordend naar lengte 1 2 3 4 5 6 7 8 rangnummer gewicht 3 4 1 2 5 7 8 6
We zien dat de eerste twee paren concordant zijn: de tweede persoon is langer en ook zwaarder. Het eerste en het derde paar zijn discordant. De persoon van het derde paar is langer dan van het eerste, maar lichter. In totaal zijn er
- C = 5 + 4 + 5 + 4 + 3 + 1 + 0 + 0 = 22.
concordante paren, zodat:
- .