Loading [MathJax]/jax/xxoutput/HTML-CSS/config.js
Statistiek — Beschrijvende statistiek — Metingen en statistiek

dat je bij metingen altijd met afwijkingen en dus met statistiek te maken hebt;

onderscheid maken tussen kwalitatieve en kwantitatieve variabelen;

manieren om een steekproef uit een populatie te trekken;

het belang van herhaalbaarheid van een steekproef.

rekenen met getallen, ook met procenten;

tabellen en diagrammen interpreteren.

 

Bij het vullen van pakken suiker krijg je nooit precies het juiste gewicht. Het vulgewicht is een statistische variabele.

Het e-teken hiernaast zie je vaak op verpakkingen staan. Het wordt gebruikt om aan te geven hoeveel de inhoud (in ml) of het gewicht (in g) van zo'n pak mag afwijken van het opgegeven gewicht.

Op kilopakken suiker van een bepaalde fabrikant staat bijvoorbeeld gram ℮. Dit betekent dat geen van deze pakken een lager gewicht mag hebben dan  gram en dat het gemiddelde gewicht van zijn kilopakken minstens  gram moet zijn. De fabrikant onderzoekt of dit voor de pakken die zijn fabriek verlaten klopt. Hij neemt daartoe regelmatig een steekproef uit de geproduceerde kilopakken suiker. Deze totale hoeveelheid geproduceerde kilopakken heet de populatie.

Zo'n steekproef moet representatief zijn voor de populatie. Dat wil zeggen dat de steekproef dezelfde eigenschappen moet hebben als de populatie. Worden bijvoorbeeld de pakken suiker door twee verschillende machines geproduceerd, dan moeten ook in de steekproef pakken suiker van beide machines voorkomen. Je zou keer per dag willekeurig  pakken van machine A en pakken van machine B kunnen wegen. Daarbij mag je dan geen enkele dag een pak aantreffen dat minder dan gram weegt en moet het gemiddelde gewicht mg zijn. Dat willekeurig pakken noem je aselecte trekking. Het gewicht van de pakken is de statistische variabele. Omdat deze variabele altijd een getal als waarde heeft, noem je het een kwantitatieve statistische variabele. De fabrikant houdt zo een statistisch onderzoek. De uitkomsten ervan noem je de data.

Je kunt ook statistisch onderzoek doen naar mogelijke bijwerkingen van een medicijn. De waarden van de statistische variabele bijwerkingen zijn termen als slapeloosheid, misselijkheid, en dergelijke. In dit geval spreek je van een kwalitatieve variabele. De variabele bestaat uit kwaliteiten, eigenschappen en niet uit getallen waar je mee kunt rekenen.

Bekijk de Uitleg. Op een fles frisdrank staat Inhoud: L ℮.

Wat wordt hiermee bedoeld?

Er wordt bedoeld dat er gemiddeld minstens mL frisdrank in hoort te zitten en dat geen de flessen minder dan mL bevat.

Waarom is de hoeveelheid frisdrank in deze fles een statistische variabele?

Omdat een vulmachine wel staat afgesteld op (iets meer dan) mL, maar zo'n machine heeft altijd kleine afwijkingen. Er zullen dus maar weinig flessen precies mL bevatten en bovendien is dat ook niet met absolute nauwkeurigheid te meten.

Is de hoeveelheid frisdrank in deze fles een kwalitatieve of een kwantitatieve variabele?

Een kwantitatieve variabele.

De fabrikant van een bepaalde soort frisdrank produceert er dagelijks literflessen van. Daarop staat Inhoud: L ℮. Twee keer per dag laat hij van flessen de inhoud controleren.

Beschrijf wat van dit onderzoek de populatie en de steekproef is.

Populatie: de dagproductie van flessen.
Steekproef: de twee selecties van flessen.

Leg ook uit hoe hij er voor zorgt dat de steekproef representatief is.

Hij moet de representativiteit waarborgen door op twee willekeurige momenten niet te snel na elkaar aselect gekozen flessen te meten. Waarschijnlijk wordt de inhoud bepaald door het gewicht te meten zodat er geen frisdrank verloren gaat of terug de tank in moet.

De NS heeft enkele jaren geleden de bekende blauw-met-gele OV-fiets ingevoerd. Die kun je huren met behulp van je (persoonlijke) OV-chipkaart.
De NS wil onderzoeken of hun klanten tevreden zijn over het systeem met de OV-fiets.

Over welke statistische variabele gaat het dan? Is die variabele kwalitatief of kwantitatief?

De variabele is klantentevredenheid met OV-fietssysteem en hij is kwalitatief.

Noem een aantal waarden die de variabele klantentevredenheid OV-fietssysteem kan aannemen.

Bijvoorbeeld:

beschikbaarheid

vindbaarheid

rijcomfort

Die waarden kunnen dan van slecht tot heel goed op een vijfpuntenschaal worden aangegeven.

Over welke populatie gaat dit onderzoek?

De populatie wordt gevormd door alle reizigers met het OV die een OV-fiets-abonnement hebben.

Hoe zou de NS een representatieve steekproef kunnen samenstellen?

De NS zou al die mensen (ze kennen ze omdat ze een geregistreerd abonnement hebben) een mail kunnen sturen waarop ze elk van de waarden van de statistische variabele een score kunnen geven. Maar als je alle abonnementshouders bevraagt, reageren waarschijnlijk vooral de mensen die wat te klagen hebben.

Als de NS zelf een steekproef trekt dan zou die aselect moeten worden getrokken uit alle abonnementshouders. Om te voorkomen dat alleen mensen met negatieve ervaringen reageren zou de NS een leuke beloning voor het invullen kunnen geven.

Je kunt op diverse manieren waarnemingen/metingen doen:

meten

tellen

vergelijken met een standaard

vragen stellen

vaststellen (iets klopt wel of niet)

Welke van deze manieren gebruik je bij een kwantitatieve variabele?

meten en tellen.

Welke van deze manieren gebruik je als je wilt vaststellen of de kleur van de verf in automatisch geproduceerde potten verf correct is?

vergelijken met een standaardkleurenwaaier.

Welke van deze manieren gebruik je als je wilt vaststellen of het aantal in doosjes met schroeven wel precies is?

eenduidig vaststellen

Welke van deze manieren gebruik je als je wilt weten of het aantal in doosjes met schroeven tussen bepaalde vastgestelde waarden ligt?

tellen, of gewicht meten

De wetenschap, de methodiek en de techniek van het verzamelen, bewerken en presenteren van gegevens heet beschrijvende statistiek. Een statistisch onderzoek kent diverse fasen:

Je begint een statistisch onderzoek met een onderzoeksvraag.

Je stelt vast over welke populatie (doelgroep) het onderzoek gaat. Bij een grote doelgroep neem je een deel van de groep, dit heet een steekproef. Deze steekproef moet representatief (kenmerkend) zijn voor de populatie en niet te klein. Daarom wordt een steekproef vaak aselect samengesteld. Bij aselecte trekking heeft elk lid van de populatie een even grote kans om in de steekproef te komen.

Je stelt vast op welke statistische variabele het onderzoek betrekking heeft.
Er zijn twee soorten variabelen: kwantitatieve variabelen hebben getallen als waarden, kwalitatieve variabelen hebben eigenschappen als waarden.

Je verzamelt de bij die variabele passende data (de statistische gegevens). Deze data moet je meestal eerst ordenen. De verzamelde data geef je weer in de vorm van tabellen en diagrammen: tabellen zijn nauwkeuriger, diagrammen vaak overzichtelijker.

Je probeert een (eerlijke) conclusie te trekken.

Een bedrijf produceert doosjes schroeven. De mm lange kruiskopschroeven worden door een machine automatisch in doosjes van stuks verpakt. Om te controleren of dit inpakproces goed verloopt, wil de fabrikant dat er dagelijks doosjes gecontroleerd worden.

Hoe ga je dit controleproces uitvoeren? Beschrijf de populatie, de statistische variabele en hoe je de steekproef uitvoert.

De populatie is het aantal dagelijks geproduceerde doosjes van mm lange kruiskopschroeven.
De statistische variabele is het aantal schroeven in een doosje, dit is een kwantitatieve variabele.

De steekproef van doosjes zou je aselect moeten trekken, elk doosje moet dezelfde kans hebben om in de steekproef voor te komen. Dit moet verspreid over de werkdag van uur gebeuren. Stel dat er elk uur van die doosjes worden geproduceerd. Je kunt dan uit die doosjes een steekproef van nemen. Je hebt dan aan het einde van de dag doosjes gecontroleerd.
In de figuur zie je hoe je in Excel een aselecte steekproef van uit doosjes kunt trekken.
Je gebruikt daarbij de functie ASELECTTussen. Met het knopje Nu berekenen krijg je steeds een nieuwe steekproef.

Zo'n controle moet niet te lang duren. Gewoon tellen of er precies spijkers in zitten kost teveel arbeidstijd. Dus het beste is om het gewicht van een doosje en van één spijker vast te stellen. Daarna kun je het aantal spijkers in een doosje vaststellen door te wegen.

Bekijk Voorbeeld.
Neem aan dat er dagelijks ongeveer doosjes van die schroeven worden geproduceerd.

Is de steekproef dan groot genoeg?

Natuurlijk zou het mooier zijn om alle doosjes automatisch door weging te laten controleren. Te lichte doosjes worden dan automatisch niet doorgelaten. Maar misschien is het aanbrengen van zo'n wijziging in het productieproces wel heel duur. Dan is zo'n snelle controle elk uur nog niet zo gek.

Trek zelf een steekproef van uit de doosjes met behulp van Excel.

Gebruik Excel met in cellen de formule =ASELECTTUSSEN(1;750).

Welk probleem gaat zich waarschijnlijk voordoen bij het meten van het aantal schroeven door weging?

Mogelijk is er zo weinig gewichtsverschil tussen een doosje met schroeven en ééntje met schroeven dat dit niet meetbaar is. Dat kun je oplossen door de vulmachine in te stellen op b.v. schroeven per doosje en dan met dat gewicht te vergelijken. Dat kost de fabrikant wel gemiddeld een paar schroeven, maar is wellicht toch nog goedkoper dan gaan tellen.

Voor kinderen vanaf drie maanden bestaat het geneesmiddel paracetamol in vloeibare vorm. Het wordt verkocht in flesjes met inhoud mL ℮. Dit betekent dat in deze flesjes gemiddeld minstens mL moet zitten en dat er nooit minder dan mL in mag zitten. Ook mag maar een klein deel van de flesjes minder dan mL vloeistof bevatten.

Met welke statistische variabele heb je te maken? Is hij kwalitatief of kwantitatief?

De statistische variabele is het volume aan vloeistof in elk flesje.
Dit is een kwantitatieve variabele.

Beschrijf hoe een fabrikant van dit vloeibare geneesmiddel zou kunnen controleren of zijn productieproces goed verloopt. Geef daarbij aan met welke populatie je te maken hebt en hoe je een steekproef kunt samenstellen.

Populatie: alle dagelijks geproduceerde flesjes met vloeibare paracetamol.
Steekproef: bijvoorbeeld elk kwartier uit de in dat kwartier geproduceerde flesjes een steekproef van flesjes wegen.

Als een middelgroot bedrijf wil weten hoe de medewerkers over het bedrijf denken, dan wordt dit vaak onderzocht door middel van een enquête onder alle medewerkers. Daarbij wordt vaak de vijfpunts likertschaal gebruikt.

Bij vragen als:

Medewerkers weten welk belang het bedrijf hecht aan de kwaliteit.

Medewerkers volgen regelmatig trainingen op het gebied van kwaliteitszorg.

Medewerkers hebben een klantgerichte houding.

Medewerkers volgen regelmatig trainingen op het gebied van klantvriendelijkheid.

kan dan een score van (volledig oneens), (oneens), (niet eens / niet oneens), (eens) of (volledig eens) worden aangegeven.

Beschrijf dit onderzoek door aan te geven hoe de populatie eruit ziet, om welke statistische variabele(n) het gaat, enzovoort.

Het gaat hier om een statistisch onderzoek onder alle medewerkers van een bedrijf. Dat is de populatie van het onderzoek, er wordt geen steekproef gehouden.

De statistische variabele mening medewerkers over het bedrijf is kwalitatief.
Maar je kunt zeggen dat door het gebruik van de likertschaal een poging wordt gedaan om een kwalitatieve variabele te kwantificeren.

Bekijk het werken met de likertschaal in Voorbeeld.

Wanneer kun je met zo'n likertschaal werken?

Als je met een kwalitatieve variabele te maken hebt.

Verzin nog twee vragen die in zo'n onderzoek naar de mening van de medewerkers over hun bedrijf kunnen passen.

Bijvoorbeeld:

Op- en aanmerkingen van medewerkers worden door het management goed opgepakt.

Ik vind het fijn om bij dit bedrijf te werken.

...

De vragen in een dergelijke enquête worden vaak zowel in positieve als in negatieve zin geformuleerd. Dus bijvoorbeeld komen vragen voor zoals:

Ik werk niet graag bij dit bedrijf.

Ik vind het fijn om bij dit bedrijf te werken.

Waarom gebeurt dat?

Omdat mensen die slordig met zo'n enquête omgaan vaak snel overal maar even aankruisen. Dan zijn ze snel klaar. Nu kan dat niet, moet je elke vraag goed lezen.

Het CBS (Centraal Bureau voor de Statistiek) doet in Nederland veel onderzoek en rapporteert hierover. Deze diagrammen komen uit de Jeugdmonitor 2018.

Beschrijf de populatie bij dit onderzoek van het CBS.

De Nederlandse jongeren.

Welke definitie van jongeren is er in dit onderzoek gebruikt, denk je?

Iemand jonger dan 25 jaar.

Welke deelgroepen zijn onderscheiden?

Er zijn vier leeftijdgroepen: 0 tot 4 jaar, 4 tot 12 jaar, 12 tot 18 jaar en 18 tot 25 jaar.

Welke statistische variabele is in dit diagram weergegeven?
Is dat een kwalitatieve of een kwantitatieve variabele?

De variabele leeftijd per kalenderjaar.
Het is een kwantitatieve variabele.

Om de mate van vervuiling van een groot meer door lozing van afvalstoffen te onderzoeken, zijn er een twintigtal monsters van L water uit dat meer naar het laboratorium gestuurd. Daar kan de mate van vervuiling worden gemeten, uitgedrukt in mg/L.

Wat is de populatie bij dit onderzoek?

Alle water in het meer.

Om welke statistische variabele gaat het hier?
Is die variabele kwalitatief of kwantitatief?

De variabele is de hoeveelheid vervuiling in mg/L van het water in dit meer.
Dat is een kwantitatieve variabele.

Waarom is het niet verstandig om de monsters op verschillende plaatsen vlak bij de oever te nemen?

Je krijgt dan waarschijnlijk geen representatieve steekproef.

Wat vind je van de steekproefgrootte?

Er wordt maar L water gemeten van een groot meer. Dat is wel erg weinig.

In een fabriek worden potten zilvergrijze hoogglanslak (ralnummer 7001) met een inhoud van  liter geproduceerd. Er moet op worden gelet dat de potten de juiste inhoud hebben en dat de verf de juiste kleur en glans heeft.
Natuurlijk wil je niet alle potten openmaken om de kleur te controleren. Je neemt dus een steekproef.

Wat is de populatie bij dit onderzoek?

Alle potten verf van deze kleur.

Om welke statistische variabelen gaat het hier?
Geef aan of zo'n variabele kwalitatief of kwantitatief is.

Er zijn drie statistische variabelen:

de inhoud van een pot verf is een kwantitatieve variabele;

de kleur van de verf is een kwalitatieve variabele;

de glans van de verf is een kwalitatieve variabele.

Hoe ga je de kleur en de glans van de verf vaststellen?

Waarschijnlijk door vergelijken met een ral-kleurenwaaier.

Hoe ga je het onderzoek uitvoeren?

Doe een aselecte trekking potten verf uit de en weeg ze.
Aselecte trekking in Excel: in cellen zet je =ASELECTTUSSEN(1;5000).
Voor de kleur en de glans maak je ze open en vergelijk je de verf erin met de ral-kleurenwaaier met de juiste glans.

Voor een biologiepracticum moet het aantal slakken op een stuk grond worden geteld. Het stuk grond wordt in stukken van m2 verdeeld. Iedere leerling telt het aantal slakken op vier van die stukken. Hier zie je de resultaten in Excel.

Om welke statistische variabele gaat het hier?

Het aantal slakken per m2.

Hoeveel m2 is de oppervlakte van het stuk grond?

m2.

Er zijn stukken van m², dus m².

Hoeveel leerlingen hebben er geteld?

leerlingen.

leerlingen, want elke leerling telt stukken van m².

Hoeveel slakken zijn er in totaal geteld?

slakken.

slakken.

Hoeveel slakken zijn er gemiddeld per m2 gevonden?

Gebruik de antwoorden bij b en d.

Er zijn slakken per m² gevonden.

In de jaren 1982-1988 werd onder mannelijke Amerikaanse artsen onderzoek gedaan naar de invloed van aspirine op hart- en vaatziekten op de gemiddelde Amerikaanse man. De helft gebruikte om de dag milligram aspirine, wat ongeveer gelijk staat aan een gewoon aspirientje. De andere helft slikte een placebo (een middel zonder werkzame stof). Van de aspirineslikkers kregen personen een hartinfarct, van de placeboslikkers waren dat er . De conclusie van het onderzoek was dat het risico op een hartinfarct met ongeveer % wordt verlaagd door het slikken van aspirine. Dat dit grote verschil aan toeval was te wijten, vond men uitgesloten vanwege het grote aantal mensen dat aan het onderzoek meewerkte.

Waarom is hier geen sprake van een representatieve steekproef? Hoe had deze steekproef moeten worden samengesteld?

Dit is maar één beroepsgroep. Je moet ook zeker managers en leraren in de steekproef hebben. Een gelaagde steekproef met personen (mannen én vrouwen) uit verschillende beroepsgroepen is beter.

Waarom werd er van placebo’s gebruikgemaakt?

Om te voorkomen dat het weten dat je wel of geen medicijn slikt, van invloed is op het onderzoek.

Hoeveel procent van de aspirineslikkers heeft baat gehad bij het slikken van aspirine?

Volgens de tekst wordt de kans op een hartinfarct met % verlaagd. Klopt dat?

en

Je vergelijkt % met %.

De verlaging van het percentage is %. De procentuele verlaging van het percentage is %.

Het klopt dus.

Stel je voor dat een onderzoeker voor een onderzoek naar de filedruk in Nederland naar het waddeneiland Texel gaat en daar 's nachts het aantal auto’s op een van de wegen checkt. Hij noteert per voorbijrijdende auto het merk en de snelheid.

Leg uit waarom dit geen aselect onderzoek is.

Bij een aselecte steekproef zou elke kilometer autoweg in Nederland evenveel kans moeten hebben om onderzocht te worden op files. In het beschreven onderzoek wordt vrijwel het hele verkeersnet uitgesloten van het onderzoek, omdat alleen op die ene weg op Texel onderzoek wordt gedaan.

Leg uit waarom dit geen representatief onderzoek is.

Een autoweg op het waddeneiland Texel is zeker niet representatief voor het hele verkeersnet in Nederland. Alleen in de nacht onderzoek doen naar files is zeker niet representatief voor alle tijdstippen door de week heen.

Leg uit waarom de variabele automerk een kwalitatieve variabele is.

Een automerk is een naam en geen getal.

Leg uit waarom de variabele aantal auto's per uur een kwantitatieve variabele is en waarom hier sprake is van een telling.

Een aantal is getalsmatig en dus kwantitatief. Het aantal auto's wordt geteld, het zijn gehele getallen.

Leg uit waarom de variabele snelheid een kwantitatieve variabele is en waarom hier geen sprake is van telling.

De snelheid is een getal (kwantitatief) en kan elke waarde (binnen realistische grenzen) aannemen, zoals km/h. Dit zijn waarden die je alleen kunt vinden door meting.

Voor een tevredenheidsonderzoek in ziekenhuizen bedenkt een onderzoeker de volgende manier om een steekproef samen te stellen: een jaar lang wordt bij elk ziekenhuis iedere maandag iedereen die in het ziekenhuis aanwezig is of er arriveert, genummerd. Het maakt niet uit of iemand verplegend personeel is, zieke, bezoeker of schoonmaker, enzovoort. Aan het einde van de dag worden bij elk ziekenhuis uit de groep toegekende nummers vijftien personen met behulp van toevalsgetallen gekozen om mee te doen aan het onderzoek. Stel dat bij een ziekenhuis op zo'n maandag nummers zijn uitgedeeld, startend met nummer .

Genereer met behulp van Excel een groep van vijftien nummers die die maandag worden geselecteerd voor het onderzoek.

Gebruik de functie =ASELECTTUSSEN(1;1250) in cellen.

Is deze steekproef representatief?

Het lijkt niet verstandig om steeds maandagen te kiezen.

Met Excel (een spreadsheetprogramma, een rekenblad) werken is bij statistiek eigenlijk onontbeerlijk. Je kunt er grote hoeveelheden gegevens in kwijt. Bekijk waar nodig deze practica voor Excel 2013/2016:

Tafels om de basisbeginselen van het werken met Excel te leren.

Diagrammen om te leren hoe je in Excel lijn-, staaf-, cirkeldiagrammen kunt maken.

Data presenteren en (deel)groepen vergelijken om te bekijken hoe je grote databestanden kunt samenvatten en deelgroepen daarin kunt vergelijken.

Van Steekproeven en uitspraken, alleen het eerste deel: "Steekproeven trekken met toevalsgetallen".