Noen resultater og betraktninger
John Haugan john.haugan@dph.no
Den Polytekniske Høgskolen
http://www.dph.noLast ned zip-fil (300kb) av artikkelen som Word-dokument.
1 Innledning
Oppgavene i fysikk har over flere år gjennomgått en jamn utvikling der flere aspekter ved faget har blitt testet. Med de nye læreplanen har oppgavene dessuten blitt tydelig endret på et par punkter:
Den første eksamen i 3FY etter de nye læreplanene ble arrangert våren 1999. Resultatene viste at gjennomsnittskarakteren ble bedre enn tidligere, og sammenliknet med andre studieretningsfag ligger den nå høyt. Dette er en ønskelig utvikling, da undersøkelser har vist at de elevene som velger 3FY ofte er de som gjør det godt i andre fag. De bør derfor ikke "straffes" for å velge et krevende fag som 3FY, har det blitt sagt.
For å sikre sensureringen har Eksamenssekretariatet arrangert et møte for sensorene rett etter at eksamen har vært avholdt. På disse møtene har oppgavene blitt gjennomgått. Ut fra erfaringen fra å ha sensurert noen av oppgavene, har man kommet fram til en felles forståelse av hvordan sensureringen skal gjennomføres. Det har ikke vært behov for å oppfordre til spesielle tiltak for å heve gjennomsnittet, med unntak av de generelle henstillingene om å gjennomføre en positiv vurdering av hva elevene faktisk har svart.
På møtet våren 2000 ble sensorene bedt om å sende inn kopi av noen av sine vurderingsskjemaer slik at det skulle være mulig å se nærmere på hva som har falt vanskelig i oppgavene. Disse dataene har også gitt mulighet for å undersøke samsvaret mellom sensorenes poeng- og karaktersetting.
I tillegg til å levere fra seg vurderingsskjemaene ble det også levert ut et skjema der sensorene skulle registrere hva elevene skrev om i oppgave 4, alternativ B (4B). Oppgave 4B var en åpen oppgave der elevene ble bedt om å redegjøre for en eller flere fysikkteorier som har blitt utviklet på 1900-tallet. De skulle også vurdere hvilken betydning en teori har hatt for den teknologiske utviklingen og for samfunnet. Oppgave 4A dreide seg om avstandsbestemmelse i verdensrommet, og var av mer regneteknisk art med konkrete spørsmål som skulle besvares.
I alt har det kommet inn resultater fra 602 besvarelser vurdert av 15 sensorer. Dette svarer til ca 20 % av elevene som var opp til eksamen. Antall besvarelser fra hver sensor varierte fra 20 til 64, med 40 som gjennomsnitt. Den relativt store spredningen kan ha hatt noe betydning for resultatene av denne undersøkelsen da enkelte sensorers poengfastsetting blir tillagt stor vekt, men det er ingen grunn til å tro at det endrer resultatene i vesentlig grad.
I det følgende skal vi se nærmere på resultatene på de forskjellige oppgavene, og gjøre en sammenlikning mellom de som har besvart oppgave 4A og 4B.
2 Hvor godt har elevene svart på spørsmålene?
Av de 602 besvarelsene som utgjør datagrunnlaget, er fordelingen av de som har besvart de forskjellige spørsmålene (1a, 1b osv) slik:
Opg |
1a |
1b |
1c |
2a |
2b |
3a |
3b |
3c |
3d |
4Aa |
4Ab |
4Ac |
4Ad |
4Ba |
4Bb |
5a |
5b |
5c |
5d |
Ant |
580 |
501 |
534 |
587 |
564 |
535 |
562 |
539 |
459 |
299 |
264 |
275 |
253 |
278 |
268 |
578 |
386 |
573 |
480 |
% |
96 |
83 |
89 |
98 |
94 |
89 |
93 |
90 |
76 |
50 |
44 |
46 |
42 |
46 |
45 |
96 |
64 |
95 |
80 |
Tabell 1. Svarfrekvens (absolutte tall og prosent) på de forskjellige oppgavene
Tallene for oppgave 4A og 4B er ikke direkte sammenliknbare med de andre, siden ingen skriver både 4A og 4B. Det er 51% av elevene som har besvart oppgave 4A, 47% som har skrevet oppgave 4B mens 2% har latt oppgaven være ubesvart. Vi ser at det er spørsmål 3d og 5b som skiller seg ut med lav svarprosent.
Forslaget til poengskala som ble lagt fram på sensorsamlingen ga en samlet poengsum på 60, med 15 poeng til sammen på oppgave 1 og 2, og 15 poeng på hver av oppgavene 3, 4 og 5. Det ble også foreslått poeng på hvert spørsmål.
Gjennomsnittskåren per oppgave (poeng per elev) er vist i tabell 2. Poengene fra oppgave 1 og 2 er slått sammen siden disse to teller omtrent like mye som hver av de andre oppgavene ved vurderingen.
| Kategori | Oppgave 1 og 2 | Oppgave 3 | Oppgave 4A | Oppgave 4B | Oppgave 5 |
| Alle | 9,7 |
10,0 |
8,5 |
6,3 |
|
| 4A | 10,2 |
10,8 |
9,2 |
6,8 |
|
| 4B | 9,4 |
9,5 |
8,1 |
6,0 |
|
Tabell 2. Gjennomsnittlig poeng per oppgave, ulike kategorier. Maks. poeng per oppgave er 15.
Tabellen viser at oppgave 5 faller vanskeligst ut. Den viser også at de som skriver oppgave 4B har lavere gjennomsnitt på alle oppgaver. Det er verdt å merke seg at forskjellen er størst for den mest tradisjonelle regneoppgaven (oppgave 3). Det samme ble registrert i en mindre omfattende undersøkelse etter eksamen våren 1999 som ble basert på data fra 4 sensorer.
For å kunne sammenlikne resultatene fra hvert spørsmål, har vi i denne analysen normert skalaen slik at hvert spørsmål gir tre poeng. Figur 1 viser gjennomsnittlig poeng gitt på hvert spørsmål for alle elevene. Figur 2 viser den samme størrelsen, men her er det skilt mellom de som har besvart oppgave 4A og de som har besvart 4B. Disse figurene kan oppfattes som en vanskegradsprofil av oppgavesettet, og forteller hvordan spørsmålene har falt ut i forhold til hverandre.


| Figur 1. Gjennomsnittlig poengsum per spørsmål for alle elevene. Normert til 3 poeng per spørsmål | Figur 2. Gjennomsnittlig poengsum per spørsmål fordelt på de som har besvart spørsmål 4A og 4B. Normert til 3 poeng per spørsmål |
Noen av særtrekkene ved grafene kan oppsummeres slik:
Gjennomsnittskarakter for de besvarelsene som inngår i undersøkelsen er 3,6. For de elevene som har besvart oppgave 4A er gjennomsnittet 3,8, og for de som har besvart 4B er det 3,4. Karakterfordelingen er vist i figur 3. Vi merker oss at alle karakterene fra 0 til 6 er brukt for begge gruppene og at forskjellen på de to gruppene er størst for karakteren 3. Det er altså mulig å oppnå beste karakter selv om man velger en beskrivende oppgave framfor en regneoppgave.

| Figur 3: Karakterfordeling til elever som har valgt oppgave 4A og oppgave 4B. |
3 Hva elevene skriver om i oppgave 4B
Sensorene ble bedt om å registrere hva elevene skrev om i oppgave 4B. Det var utarbeidet ulike kategorier, og registreringen ble gjennomført ved avkrysning. 10 sensorer har levert dette skjemaet. Flere av dem har påpekt at elever har skrevet om flere temaer, slik at tabell 3 nedenfor viser antall "forekomster", og samsvarer ikke med antall elever som har skrevet om temaet.
Fordelingene er vist i tabell 3 og figur 4 og 5 nedenfor.
| 4Ba | Kvante-fysikk | Kjerne-fys | Foto-effekt | Induk-sjon | Svart legeme str | Rønt-genstr | Relativit-etsteori | Heisenberg usikkerhetsrel | Astrofys | Annet |
Antall |
39 |
7 |
83 |
8 |
0 |
26 |
78 |
1 |
11 |
5 |
% |
15,1 |
2,7 |
32,2 |
3,1 |
0,0 |
10,1 |
30,2 |
0,4 |
4,3 |
1,9 |
| 4BB | Kjerne-energi | Sol-celler | Mikro-proses-seor | Halv-leder | Rønt-gen | Atom-bomber | Induk-sjon | Fiber-optikk | Verden-sbilde | Annet |
Antall |
18 |
31 |
4 |
11 |
46 |
24 |
22 |
2 |
14 |
19 |
% |
9,4 |
16,2 |
2,1 |
5,8 |
24,1 |
12,6 |
11,5 |
1,0 |
7,3 |
9,9 |
Tabell 2. Antall ganger de forskjellige temaene er nevnt, absolutt og prosentvis.

| Figur 4. Hvilke teorier fra 1900-taller elevene skriver om. (Oppgave 4Ba) |

| Figur 5. Hvilke teori elevene skriver om når de skal vurdere fysikkens betydning for utviklingen av teknologi og samfunn (Oppgave 4Bb) |
Ikke uventet skriver de fleste om kvantefysikk, relativitetsteori, fotoelektrisk effekt og røntgenstråling når de skal skrive om teorier fra 1900-tallet i spørsmål 4Ba. Dette hører jo med blant hovedmomentene i læreplanen. Noen har skrevet om induksjon, selv om denne teorien stammer fra 1800-tallet (det ble uttalt på sensormøtet at det ikke skulle trekkes for dette!). Valg av temaer harmonerer altså godt med læreplanens innhold.
I spørsmål 4Bb er det røntgenstråling som oftest trekkes fram som eksempler på fysikkens betydning for teknologi og samfunn. I denne sammenhengen er det de medisinske anvendelsene som dominerer, selv om noen også skriver om bruk i materialtesting.
Det er nokså nedslående at så få skriver om bruk av mikroprosessorer og halvlederteknologi når vi tross alt befinner oss i "informasjonsalderen". Dette er kanskje det teknologiske området der grunnleggende fysikkunnskaper har hatt størst innflytelse både på utviklingen av selve teknologien og på samfunnslivet. En kan undre seg om dette overhodet har blitt diskutert i undervisningen.
Sensorene ble spurt om de mente at elevene klarte å vurdere fysikkens betydning for den teknologiske utviklingen. Av 10 sensorer var det 5 som svarte ja til dette. På spørsmålet om sensorene mente elevene klarte å vurdere fysikkens betydning for samfunnet, var det bare 2 som svarte ja.
4 Samsvar mellom sensorenes vurderinger
Datamaterialet har gjort det mulig å undersøke samsvaret mellom poeng- og karaktersetting for 9 sensorer. Disse har vært fordelt på 5 sensorpar. Det maksimale avviket mellom sensorene er 10,5 poeng for hele settet. Det gjennomsnittlige avviket er 2,9 poeng. Ingen sensorpar har større avvik enn en karakter i sine primære karakterforslag.

| Figur 6: Spredningsdiagram som viser samsvaret mellom sensor 1 og sensor 2 sine poengsummer for hele settet |

| Figur 7. Spredningsdiagram som viser samsvaret mellom sensor 1 og sensor 2 sine poeng på oppgave 4Ba (maksimalt 9 poeng) |
Når det gjelder vurderingen av de mer tekstbaserte svarene i oppgave 4B, kan samsvaret mellom illustreres slik:

| Figur 8. Spredningsdiagram som viser samsvaret mellom sensor 1 og sensor 2 sine poeng på oppgave 4Bb (maksimalt 6 poeng) |
Figurene viser at det er godt samsvar mellom poengene som er gitt for hele settet, mens samsvaret er dårligere for de to beskrivende spørsmålene 4Ba og 4Bb. Dette er ikke spesielt overraskende da det normalt er vanskeligere å vurdere denne type spørsmål. Vi ser også at spredningen er større på spørsmål 4Bb enn på 4Ba
Det er verdt å understreke at det til tross for et nokså stort innslag av beskrivende oppgaver er meget godt samsvar mellom forslag til karakterer.
5.Oppsummering
Oppgavene som er utarbeidet etter den nye læreplanen i fysikk 3FY har introdusert muligheten for å velge mellom to oppgaver. Våren 2000 var en av oppgavene en beskrivende oppgave, mens den andre var mer regnepreget innenfor et nokså nytt område. Det er omtrent like mange som velger hver av de to oppgavetypene
Gjennomsnittspoengene for de elevene som har valgt oppgave 4B er lavere per spørsmål og per oppgave enn for dem som har valgt 4A. Forskjellen er størst for den mest typiske regneoppgaven (oppgave 3).
Det er en tendens til at beskrivende oppgaver får lavere gjennomsnittspoeng enn regneoppgaver. Oppgaver med formelmainpulering faller også vanskelig ut.
Det er lite avvik mellom sensorenes karakterforslag. Avvikene i samlet poengsum er også relativt lite, mens avviket på den beskrivende oppgaven i 4B er noe større. Det er grunn til å konkludere med at samvaret mellom sensorenes vurdering av besvarelser er godt.
Takk
En hjertelig takk til de sensorene som har tatt seg bryet med å kopiere og sende inn sine vurderingsskjema. Takk også for utvist tålmodighet med at resultatene ikke foreligger før nå.