datasets karakteriseren door getallen die het centrum ervan aangeven;
modus (modale klasse), mediaan en gemiddelde bepalen.
onderscheid maken tussen kwalitatieve en kwantitatieve statistische variabelen;
de begrippen juistheid en precisie van een steekproef;
waarnemingen weergeven in tabellen en in verschillende soorten diagrammen;
klassenindeling, klassenbreedte, absolute en relatieve frequentie.

In een laboratorium wordt de hoeveelheid eiwit in eiersalade gemeten. Van een bepaalde fabrikant worden kuipjes eiersalade onderzocht. Er gaan drie laboranten mee aan het werk. Van dezelfde kuipjes meten ze onafhankelijk van elkaar het eiwitgehalte. Je ziet hiernaast de resultaten.
Je wilt deze resultaten kunnen vergelijken. Zo is dat nogal lastig, zeker als de datasets groter worden. Een manier is het gebruik van frequentietabellen en diagrammen. Maar je kunt ook werken met centrummaten. Dan vat je de meetgegevens met één getal samen.
Er worden drie van die centrummaten gebruikt:

de modus: de meest voorkomende waarde (bij een klassenindeling zeg je: modale klasse);
de mediaan: de middelste waarde als de gegevens op volgorde van grootte staan;
het gemiddelde: alle waarden opgeteld en gedeeld door het totaal aantal waarden.
Bij laborant A zijn de modale eiwitgehaltes % en %, is de mediaan % en is het gemiddelde eiwitgehalte %.
Je noteert het gemiddelde van een steekproef wel als .
In plaats van mag je natuurlijk ook een andere letter gebruiken, zoals voor eiwitgehalte.
De mediaan is het middelste getal in een boxplot.
Al deze centrummaten zeggen iets over de juistheid van de metingen. Als bijvoorbeeld het gemiddelde van de steekproef afwijkt van het werkelijke gemiddelde van de populatie, dan is de juistheid , waarbij de verticale streepjes aangeven dat dit getal altijd positief wordt genomen.
Bekijk de Uitleg. Je ziet meetgegevens van drie laboranten. De gemiddelde eiwitgehaltes zijn:
Laborant A: %.
Laborant B: %.
Laborant C: %.
Je kunt deze getallen zelf narekenen.
Doe dat (als je dit bij
Twee laboranten komen op hetzelfde gemiddelde uit, het gemiddelde van laborant C wijkt af. Maar het ging steeds over dezelfde kuipjes. Vermoedelijk maakt laborant C dus een systematische fout en krijgt hij of zij een afwijking van de juiste waarde.
Omdat het natuurlijk ook zo kan zijn dat juist laborant C het goed heeft gedaan, moeten die metingen nog eens worden gedaan om te controleren wat er aan de hand is.
Neem aan dat van de totale populatie kuipjes eiersalade van deze fabrikant het eiwit gehalte % is.
Hoe zit het nu met de juistheid van de metingen?
Laborant A: juistheid %.
Laborant B: juistheid %.
Laborant C: juistheid %.
Dus laborant C zit er dan procentpunt naast.
Je ziet de gegevens ook in de vorm van boxplots terug.
Een boxplot maak je door de gegevens eerst op volgorde van klein naar groot te zetten en dan in vier delen met gelijke aantallen data te verdelen, in vier kwarten. De mediaan is de middelste waarde (of het gemiddelde van de middelste twee), het eerste kwartiel is de mediaan van de eerste helft en het derde kwartiel de mediaan van de tweede helft.
Laborant C ijkt zijn meetinstrument en doet de meting opnieuw. Bekijk de resultaten.

Maak zelf een boxplot van deze controlemeting. Is het resultaat precieser of juister?
Zie de figuur. Het resultaat is even precies, maar juister.

Hier zie je de de voetlengtes van mannen.

Is het gemakkelijk om uit de figuur het gemiddelde, de modus en de mediaan van deze gegevens te bepalen?
Nee, je kunt beter meteen met het Excelbestand te gaan werken.
Bereken de gemiddelde voetlengte, de modale voetlengte en de mediaan van de voetlengtes van deze mannen.
Het gemiddelde is cm, de modus is cm en de mediaan is cm.
In het bijgevoegde bestand vind je ook de voetlengtes van vrouwen.
Met behulp van boxplots kun je de voetlengtes van de mannen en de vrouwen met elkaar vergelijken.
Maak deze twee boxplots.
In sommige versies van Excel is dit nog wel lastig, bekijk het
Maar je kunt wel altijd minimum, eerste kwartiel, mediaan, derde kwartiel en maximum laten berekenen door Excel. En daarmee kun je altijd op papier de twee boxplots tekenen.
Zet je alle gegevens van de mannen en van de vrouwen in twee kolommen, dan kan Excel automatisch boxplots voor je maken.

Kun je door deze boxplots te vergelijken conclusies trekken?
Je ziet in ieder geval dat er bij de vrouwen minder verschil is in voetlengtes.
Verder zijn de voetlengtes bij de vrouwen over het algemeen kleiner, maar beslist niet altijd.
Bereken de drie centrummaten bij de voetlengtes van de vrouwen.
Wat hebben die voor invloed op je conclusies?
Het gemiddelde is cm, de modus is cm en de mediaan is cm.
Bij de vrouwen is het gemiddelde lager.
Je hebt gezien dat centrummaten bij kwantitatieve variabelen betekenis hebben.
Maar hoe zit het met kwalitatieve variabelen?
Bij de zetelverdeling in de Tweede Kamer heb je te maken met de kwalitatieve variabele
Hebben de centrummaten hier betekenis?
Nee, een gemiddelde partij bestaat niet, een modale partij (partij met de meeste zetels) zou misschien kunnen, de mediaan is echt onzin.
Wel kun je het gemiddelde aantal zetels per partij berekenen, dat is gewoon aantal partijen. Maar dat getal zegt helemaal niks.
Bij het keuren van een bepaalde drank kan het gaan om variabelen als
Heb je hier iets aan de centrummaten?
Nee, wat je wel kunt doen is een likertschaal gebruiken bijvoorbeeld voor
Veel bedrijven (met name in de horeca) vragen om hen te waarderen met een cijfer.
En dan zie je op hun website een gemiddelde van bijvoorbeeld staan. Is dat een zinnig getal?
Nee, dat getal is volslagen zinloos. Want het gaat om kwalitatieve variabelen die ook nog eens onbenoemd
blijven omdat het niet verder gaat dan
Kwantitatieve statistische gegevens (data) kun je samenvatten met
de
de
het
Je noteert het gemiddelde van een steekproef wel als .
Als het gemiddelde van de populatie is, dan is de
De relatieve juistheid is dan %.
De mediaan speelt een belangrijke rol in een
Daarin worden alle gegevens in vier kwarten van klein naar groot verdeeld met evenveel gegevens. De mediaan is de middelste waarde (of het gemiddelde van de middelste twee), het eerste kwartiel is de mediaan van de eerste helft en het derde kwartiel is de mediaan van de tweede helft. De mediaan zelf is het tweede kwartiel.
Boxplots zijn geschikt om datasets te vergelijken.
Bij kwalitatieve data hebben centrummaten vaak geen betekenis.

In 1947 hebben de wiskundigen Freudenthal en Sittig een grootscheeps onderzoek gehouden naar de lichaamsmaten van vrouwen in opdracht van De Bijenkorf. Daaruit wilde het bedrijf conclusies kunnen trekken betreffende de maatvoering van kleding voor hun vrouwelijke klanten.
Bepaal modus, mediaan en het gemiddelde van de mouwlengtes .
Je hebt hier te maken met een frequentietabel waarbij de waarden van de statistische variabele
Omdat er vrouwen zijn opgemeten is de mediaan het -ste getal. En dat is cm.
Het gemiddelde berekenen is nu meer werk, want je moet met de frequenties rekening houden.
Bijvoorbeeld een mouwlengte van cm komt keer voor. Je kunt dit het beste in het Excelbestand doen en Excel voor je laten rekenen.
Ga na dat cm.
Bekijk
Ga zelf na dat de modale lengte cm, de mediaan cm en het gemiddelde cm is.
Werk vooral bij het berekenen van het gemiddelde met Excel. Maak een extra kolom waarin een mouwlengte en de bijbehorende frequentie is. Laat Excel het rekenwerk doen.
Stel je voor dat je zou weten dat de werkelijke gemiddelde mouwlengte van alle vrouwen die de Bijenkorf bezoeken cm is. Hoe groot is dan de juistheid van deze steekproef? Hoeveel procent is de relatieve juistheid?
Een afwijking van cm. Dat is %.
Dus is de relatieve afwijking heel klein.
Je kunt van de data van de mouwlengtes een boxplot maken als je de vijf daarvoor benodigde getallen handmatig bepaald.
Leg uit hoe dat gaat en maak zo'n boxplot.
De minimale mouwlengte is cm.
Het eerste kwartiel is het -ste getal, dus cm.
De mediaan (het tweede kwartiel) is het -ste getal, dus cm.
Het derde kwartiel is het -ste getal, dus cm.
De maximale mouwlengte is cm.
Maak hiermee handmatig een boxplot.
Je wilt de concentratie nitraat in landbouwgrond op een bepaald stuk land vaststellen.
Je neemt monsters, waarvan je hier de resultaten ziet.

Bereken de modale concentratie, de mediaan en de gemiddelde concentratie.
Je kunt dit gewoon met Excel doen: de modale concentratie is , de mediaan is en de gemiddelde concentratie is .
Je kunt ook eerst een frequentieverdeling maken door afronden op gehele getallen.
Je werkt dan met klassenindeling , , ... .
Maak met Excel een frequentietabel, zie het
En nu kun je de drie centrummaten bepalen op de manier van het
Bekijk
Bereken zelf de drie centrummaten.
Werk met Excel, zie het
Maak een frequentietabel bij deze gegevens op de manier van
Je krijgt: de modale concentratie is , de mediaan is en de gemiddelde concentratie is .
Wat betekent het voor de frequentieverdeling dat de drie centrummaten hetzelfde zijn?
Dan is de verdeling waarschijnlijk symmetrisch met een duidelijk herkenbaar centrum dat ook de hoogste frequentie heeft.

Biogas is een gasmengsel dat ontstaat als gevolg van biologische enzymatische processen.
De samenstelling ervan wordt in dit cirkeldiagram weergegeven.
Hebben de centrummaten hier enige betekenis?
Het gemiddelde en de mediaan totaal niet.
Je zou nog kunnen zeggen dat de modale (meest aanwezige) soort stof methaan is.
Hoeveel reststoffen bevat m
m
Acrylamide is een vermoedelijk kankerverwekkende stof die ontstaat in zetmeelrijke producten bij verhitting boven de °C. Voor gebakken frites is µg/kg de aanbevolen maximale hoeveelheid acrylamide. Een grote fastfoodketen laat onderzoeken of zijn frites aan dit referentieniveau voldoet. In een laboratorium worden daartoe porties frites van deze fastfoodketen onderzocht met de volgende resultaten.

Bereken de gemiddelde hoeveelheid acrylamide in hun frites.
Zegt dit gemiddelde iets over de precisie of over de juistheid van de metingen?
Het gemiddelde is µg/kg.
Dit getal zegt iets over de juistheid van de metingen.
Kun je op grond van dit gemiddelde vaststellen of de fastfoodketen aan het referentieniveau voldoet?
Nee, want er zijn ook acrylamidehoeveelheden aangetroffen die op of boven de µg/kg liggen.
Maak een bijbehorend boxplot.
Zet de gegevens op volgorde van klein naar groot.
minimum , , mediaan , en maximum µg/kg.

Welke aanbeveling zou je deze fastfoodketen doen?
Bestuderen waardoor de acrylamidehoeveelheden die op of boven de µg/kg liggen worden veroorzaakt en daaruit de algemene richtlijnen voor het bakken van de frites aanscherpen.
In 1947 hebben de wiskundigen Freudenthal en Sittig een grootscheeps onderzoek gehouden naar de lichaamsmaten van vrouwen in opdracht van De Bijenkorf. Daaruit wilde het bedrijf conclusies kunnen trekken betreffende de maatvoering van kleding voor hun vrouwelijke klanten.
Bekijk de tabel van de lichaamslengte en het lichaamsgewicht van vrouwen die Freudenthal en Sittig maakten bij hun onderzoek.
Bereken de gemiddelde lengte, de modale lengte en de mediaan van de lengtes.
Gebruik Excel: het gemiddelde is cm, de modus is cm en de mediaan (het -ste getal) is cm.
Maak een bijbehorend staafdiagram. Leg uit waarom de drie centrummaten zo dicht bij elkaar liggen.
Zie figuur. De drie centrummaten liggen dicht bij elkaar omdat de figuur behoorlijk symmetrisch is.

Maak een boxplot bij de lengtes van de vrouwen.
Lees uit de frequentietabel af: minimum , , mediaan , en maximum cm. Maak hiermee een boxplot.
Welke lengtes hebben de % langste vrouwen?
Die lengtes zijn vanaf en tot en met het maximum cm, dus .
In de tijd dat dit onderzoek werd gehouden was de populatie vrouwen in Nederland gemiddeld cm lang.
Hoe groot is de juistheid van dit onderzoek?
Bereken ook de relatieve juistheid.
Juistheid .
De relatieve juistheid is daarom %. Dus de relatieve afwijking is zeer gering.
Bij een test met e-readers worden door vijf testers deze apparaten onder andere beoordeeld op
Welke van deze statistische variabelen zijn kwalitatief?
Kun je een gemiddeld
Als je afspreekt dat elk van de testers een score opgeeft bijvoorbeeld op een schaal van t/m , kun je van die vijf scores een gemiddelde berekenen. Je gebruikt dan een likertschaal.
Uit de wielersport komen regelmatig berichten over dopinggebruik. Wielrenners lijken
naar verboden middelen te grijpen om hun prestaties te verhogen. Een van de meest
genoemde stoffen is erytropoëtine, kortweg EPO. Dit middel bevordert de aanmaak van
rode bloedlichaampjes, waardoor de zuurstoftransportfunctie van het bloed wordt
vergroot. Je gaat hierdoor beter presteren.
De hematocrietwaarde is de
hoeveelheid rode bloedlichaampjes als percentage van de totale hoeveelheid bloed.
Die hematocrietwaarde stijgt als een wielrenner EPO gaat gebruiken.
Bij een
wielerwedstrijd in 1997 heeft men de hematocrietwaarde van een aantal wielrenners
gemeten. De meetresultaten staan in de tabel.
|
|||||||||||||||||
Bereken de gemiddelde hematocrietwaarde van deze wielrenners.
Ook in 1998 en 1999 heeft men bij deze wielerwedstrijd van een aantal wielrenners de hematocrietwaarde gemeten. In 1998 was de gemiddelde hematocrietwaarde . De hematocrietwaarden uit 1999 zijn verwerkt in deze boxplot.
Toon aan dat, op grond van de boxplot, de gemiddelde hematocrietwaarde in 1999 groter was dan in 1998.
In het meest gunstige geval heeft het eerste kwart van de renners een hematocrietwaarde van , het tweede kwart , het derde kwart en het vierde kwart (eigenlijk zelfs meer omdat ook het maximum moet voorkomen).
Dus het gemiddelde is in 1999 zeker groter dan .
Je ziet hier een steelbladdiagram van een aantal snelheidsmetingen binnen de bebouwde kom van A. De maximale snelheid binnen de bebouwde kom is km/h. De politie accepteert een meetonnauwkeurigheid van km/h.

Bereken het gemiddelde van de gemeten snelheden.
Is dit getal voor de politie van belang?
km/h.
Voor de politie is dit getal niet erg van belang, aan gemiddelden kun je geen boetes uitdelen. Het is wel een getal dat aangeeft dat hier regelmatig te hard wordt gereden.
Bepaal de modale snelheid.
De modale snelheid is km/h.
Maak een boxplot van de gemeten snelheden.
Lees uit het steelbladdiagram af: minimum , , mediaan , en maximum cm. Maak hiermee het boxplot.

Hoeveel procent van de snelheidsovertreders had een gemeten snelheid van meer dan km/h?
%.
De Unox stevige erwtensoep bevat volgens het etiket % rookworst. In een laboratorium wordt dit onderzocht. Deze waarden werden in monsters aangetroffen.

Bereken de drie centrummaten.
Modus , mediaan en gemiddelde %.
Waarom zeggen deze centrummaten iets over de juistheid en niet over de precisie van de metingen?
Ze geven alle drie aan waar het centrum van de metingen ligt, maar zeggen niets over de spreiding ervan.
Hoe groot is de juistheid als Unox echt % rookworst in zijn soep stopt?
De juistheid van de metingen is dan %.

Een bedrijf haalt elke dag melk bij honderd boeren in de regio op. Voordat de melk in de transporttank gaat, wordt bij elke boer een monster van de melk genomen. In het lab wordt de melk onderzocht op het voorkomen van bacteriële vervuiling. Daartoe wordt in elk monster het aantal fecale bacteriën per centiliter geteld. De totale hoeveelheid melk die elke dag wordt opgehaald, heet een
De dienst die verantwoordelijk is voor de kwaliteitsbewaking, stelt als eis een maximum van fecale bacteriën per milliliter. In de tabel staan honderd waarden gegeven die het lab in een bepaalde dagproductie heeft gevonden.
Bereken het gemiddelde aantal bacteriën in de honderd monsters.
Is dit ook het gemiddelde van de gehele dagproductie? Licht je antwoord toe.
bacteriën per centiliter.
Nee, bij de ene melkboer kan veel meer melk opgehaald zijn dan bij een andere en dat heeft gevolgen voor het gemiddelde.
Maak hierbij een staafdiagram en een boxplot.
Staafdiagram, zie figuur.
Boxplot: minimum , , mediaan , en maximum cm. Maak hiermee een boxplot.

De laborante besluit de twee monsters die het laagste scoorden opnieuw te meten. Dat levert in beide gevallen een score van vijftig bacteriën op en daarmee een nieuwe dataset. Beredeneer dat in deze nieuwe set het gemiddelde groter is dan in de oorspronkelijke dataset.
De laagste waarden worden groter. Het gemiddelde is de som van alle waarden gedeeld door het aantal waarden. Als sommige waarden groter worden, wordt het gemiddelde dus ook groter.
Beredeneer of er wat verandert aan de mediaan.
De mediaan is de middelste waarde en was . De twee kleinste waarden ( en ) worden groter, maar blijven in de kleinste helft () van de dataset, dus de mediaan blijft .
Van gegevens die in Excel beschikbaar zijn kun je diagrammen maken en centrummaten berekenen, zie Statistiek: Data presenteren.