Eksamen I fysikk – 3 Fy våren 2001
Rapport av
Eimund Aamot Levanger videregående skole
Medlem av oppgavenemnda i 3FY

1. Sammendrag

Denne artikkelen gir en analyse av eksamen i fysikk 3Fy våren 2001 – hovedsakelig basert på en undersøkelse gjort av artikkelforfatteren. Artikkelen inneholder vanskegradsprofil, karakterfordelinger, sammenlikning av resultater for de som har valgt henholdsvis alternativ A og alternativ B i oppgave 4, og en vurdering av hvordan samsvaret mellom sensorene var, med spesiell vekt på om det er forskjell på lukkede og åpne oppgaver.

De viktigste konklusjonene er:

I hovedsak øker vanskegraden utover i hver oppgave. Med unntak av oppgave 3 øker vanskegraden også med oppgavenummer. Progresjonen synes å være bra.

I mitt utvalg får elever som velger alternativ A i oppgave 4 en dårligere gjennomsnittskarakter enn de som velger alternativ B, men forskjellen er ikke signifikant for populasjonen som helhet ( dvs for alle de 2500 elevene som tok eksamen).

Det kan ikke påvises større sensoravvik i åpne enn i lukkede oppgaver.

Sensorsamsvaret er bra – med en korrelasjonskoeffisient på r=0,92 med signifikansnivå 0,01

2. Årets eksamen

Ved årets eksamen ble det totalt levert ca 2500 elevbesvarelser. Gjennomsnittskarakteren ble 3,6. Dette er omtrent som gjennomsnittskarakteren har vært etter innføring av Reform 94, da karakterene har vært 3,7 og 3,6, henholdsvis i 1999 og 2000.

Årets eksamenssett besto av 5 oppgaver. Oppgave 1, 2, 3 og 5 var felles for alle. I oppgave 4 kunne elevene velge om de ville besvare alternativ A eller alternativ B.

Det ble arrangert et felles møte for alle sensorer like etter eksamen våren 2001. På dette møtet ble det utarbeidet en veiledende poengfordeling for hver enkelt oppgave. Denne er vist i

tabell 1.

1a

1b

2a

2b

3a

3b

3c

3d

3e

4Aa

4Ab

4Ac

4Ad

4Ba

4Bb

4Bc

4Bd

5a

5b

5c

3

4

4

4

3

3

4

2

3

3

4

4

4

3

4

4

4

3

7

5

Tabell 1. Veiledende poeng for sensur vår 2001

3. Undersøkelsen

3.1 Utvalg

Som grunnlag for artikkelen har jeg undersøkt 373 elevbesvarelser – fordelt på 9 sensorpar. De 373 besvarelsene utgjør om lag 15 prosent av alle besvarelser til årets eksamen.

Av de 373 besvarelsene jeg har undersøkt er det 128 som har besvart alternativ A i oppgave 4, 243 har besvart alternativ B og 2 har ikke besvart noen av alternativene.

Det ser altså ut til at ca 1/3 velger alternativ A og ca 2/3 velger alternativ B. Dette er en skeivfordeling i forhold til det som var ved eksamen våren 2000 – da noenlunde like mange valgte alternativ A som B. (Haugan 2000)

Undertegnede var også sensor våren 2001, og noen av kommentarene som gis har basis i min erfaring fra sensuren.

3.2 Er utvalget representativt?

På fellessensurmøtene våren 2001 ble alle sensorer oppfordret til å sende kopi av sensorskjemaene de selv brukte til meg. Jeg fikk inn skjema fra 19 sensorer. Ikke alle skjemaene var slik at de kunne sammenlignes med skjemaet fra medsensor. I undersøkelsen har jeg derfor bare klart å finne 9 sensorpar som har vurdert elever sammen, og der skjemaene var sammenlignbare, og derfor kunne brukes.

Fra disse 9 sensorparene har jeg valgt å bruke halvparten av de elevbesvarelsene som er sensurert. Utvalget av disse elevene skjedde ved at jeg valgte elev nummer 1, 3 , 5 osv. fortløpende etter stigende skolenummer.

Jeg måtte altså bruke alle de sensorparene som jeg kunne sette sammen. Slik sett er ikke sensorparene tilfeldig utvalgt. Det er likevel liten grunn til å tro at sensorparene ikke er representative. Når det videre er valgt elever tilfeldig innenfor disse sensorparene, og elevene totalt representerer 65 skoler, er både sensorene og elevene sett på som et "tilfeldig" utvalg. Det er derfor gjort generaliseringer på bakgrunn av datamaterialet for alle elever og sensorer ved årets 3 Fy eksamen.

 

Denne undersøkelsen har dessuten den fordel at vi har tilgang til "fasiten" ettersom vi vet hvordan karakterene fordelte seg for alle de 2500 besvarelsene. Gjennomsnittskarakteren er her den sammen som jeg får i mitt utvalg - noe som forsterker inntrykket av at mitt utvalg er representativt.

4. Vanskegradsprofil

For alle de 373 besvarelsene var gjennomsnittlig poengsum i prosent av mulig oppnåelig poengsum slik tabell 2 viser:

1a

1b

2a

2b

3a

3b

3c

3d

3e

4Aa

4Ab

4Ac

4Ad

4Ba

4Bb

4Bc

4Bd

5a

5b

5c

94,2

70

75,5

62,3

58,8

67,8

63,2

30,8

23,7

76,4

51,8

58,5

41,3

66,9

75,8

64,7

42,8

71,8

44,6

31,7

Tabell 2. Gjennomsnittlig poengsum i prosent av oppnåelig poengsum for hver deloppgave

For eksempel oppnådde elevene i gjennomsnitt 2,826 poeng på oppgave 1a. Det var mulig å oppnå 3 poeng på denne oppgaven. Prosentvis oppnåelse av maksimalt poengsum er derfor: 2,826/3*100 = 94,2

Framstilt grafisk ser dette slik ut:

I vurderingsveiledningen til elevene på side 2 i eksamensoppgaven står det at oppgave 1 og 2 til sammen teller omtrent like mye som hver av oppgavene 3, 4 og 5. Dette er gjennomført i poengforslagene, slik at hver oppgave ( 1 og 2 til sammen) kan gi maksimalt 15 poeng.

Tabell 3 viser hvor mange poeng elevene i gjennomsnitt har fått på de ulike oppgaver.

Tabellen viser også standardavviket for hver oppgave.

Oppgave-nummer

1 og 2

3

4A

4b

5

Gjennomsnitt-lig poeng

11,1

7,7

8,4

8,7

6,8

Standardavvik

3,59

3,59

4,55

5,0

3,3

Tabell 3. Gjennomsnittlig poeng som er oppnådd på de ulike oppgaver, med standardavvik.

Grafisk framstilt ser dette slik ut:

Kommentarer

Hovedtendensen i alle oppgaver er at vanskegraden øker utover i deloppgavene. Bortsett fra oppgave 3 øker også vanskegraden med økende oppgavenummer. Fra oppgavenemndas ståsted er dette en ønsket profil.

Vi ser at oppgave 1a skiller seg ut med en høy prosent, mens oppgave 3d, 3e og 5c skiller seg ut med lav prosent. Oppgavenemndas intensjon har vært at oppgave 1a skal være lett, slik at denne oppgaven skal "hjelpe elevene i gang". Det ser ut til at oppgaven har fungert slik. Oppgave 3d og 3e har falt veldig tungt. Hovedgrunnen til dette ser ut til å være at elevene ikke klarte å sortere ut hva det var spørsmål om. Oppgave 3c går i hovedsak ut på å derivere et uttrykk. Mange elever har rotet seg bort med å prøve å forklare hvordan induksjonslovnen virker, eller skriver generelt om spole som roterer i et magnetfelt. I oppgave 5c blir det veldig mye "tomt snakk". Dette skjer også til dels i oppgave 5b og 4Ad.

Oppgave 2 ser ut til å være bra besvart.

Som sensor observerte jeg likevel følgende:

Elevene vurderer bare i liten grad svaret, selv om oppgaven ber dem om å gjøre det.

Mange elever klarer heller ikke å skille ut hva som er vesentlig og ikke vesentlig i vurderingene. For eksempel er det å bruke 2 sider for å finne overflata av et menneske ved å dele opp armer i sylindere for overarm og underarm misbruk av tid.

I oppgave 4 alternativ A går a) i hovedsak greit. I b) forventes ikke noen stor og vidløftig utgreiing, og har gått noenlunde bra. I c) er det mange som ikke underbygger med beregninger, til tross for at dette står i oppgaven. Det blir mye "prat" – og kan være vanskelig for sensorene å vurdere. Oppgave d) er vanskelig, og besvarelsene bærer preg av mye prat og "synsing".

Alternativ B er bra besvart, og oppgaven kan løses på "forskjellige" nivåer – i den forstand at elevene greier å regne ut noen svar, uten at disse er rette. Tydeligst kommer det fram i d) der mange elever bruker farten 600km/s for å finne avstanden til galaksen. De får da til å regne – og bruker Hubbles lov, men bruker altså feil fart. Oppgaven skiller godt. Det ser vi av standardavvikene i tabell 3, der 4B har størst standardavvik.

Oppgave 5 har vært den vanskeligste totalt sett. Dette kan skyldes at det er den mest åpne oppgaven, men mer sannsynlig at temaet i oppgaven er vanskelig. Newtons lover viser seg alltid å være vanskelig. Sett i forhold til at oppgave 3d og 3e som er mer lukkede oppgaver, og likevel er veldig dårlig besvart, kan det tyde på at det er mer temaet enn åpenheten som gjør oppgave 5 til en vanskelig oppgave. Oppgaven har et vedlegg med mye informasjon. Noen elever er dårlige til å bruke den informasjonen som ligger der til å gjøre vurderinger, for eksempel i 5c. Denne typen oppgaver – med å få for mange eller for få opplysninger – er forholdsvis ny. Det må fortsatt arbeides mer med dette.

Hva som skal være med i oppgave b) for å få full skår er ikke entydig gitt ettersom dette er en åpen oppgave. Det er vel likevel noenlunde enighet om at elevene bør ha med krefter i topp og bunn av vertikal sirkel og krefter på skråplan for at oppgaven skal kunne betraktes som fullgodt besvart.

Vi ser at gjennomsnittlig oppnådd poengsum for de enkelte oppgaver varierer - fra 11,1 på oppgave 1 og 2 til sammen, til 6,8 på oppgave 5. Det er signifikant forskjell på poengene mellom alle oppgaver ( med valgt signifikansnivå 0,05) - bortsett fra mellom oppgave 4A og 4B. Vi kan derfor si at oppgave 1+2 har vært den letteste, oppgave 4 den nest letteste, oppgave 3 den nest vanskeligste og oppgave 5 den vanskeligste.

5. Nærmere analyse av besvarelser som inneholder alternativ A kontra alternativ B

5.1 Karakterfordeling

For å sammenligne karakterene for de som har valgt oppgave 4 alternativ A og 4 alternativ B har jeg splittet opp karakterene i disse to gruppene – slik tabell 4 viser.

KARAKTERER

seks

fem

fire

tre

to

en

null

I PROSENT

Alt A

2,34

19,5

32

21,1

18

7,03

0

Alt B

4,12

19,3

30

27,6

13,6

5,35

0

Tabell 4. Karakterfordeling i prosent.

Grafisk framstilt ser dette slik ut:

Gjennomsnittsverdiene og standardavvikene for de to alternativene vises i tabell 5

Gjennomsnitt A

3,46

Standardavvik A

1,25

Gjennomsnitt B

3,57

Standardavvik B

1,22

Tabell 5. Gjennomsnittskarakter og standardavvik for de som har valgt alternativ A og de som har valgt alternativ B i oppgave 4.

Kommentar

Vi ser at de som har valgt alternativ 4A får en dårligere gjennomsnittskarakter (3,46) enn de som har valgt 4B (3,57). Det er færre med karakteren 6 og flere med karakteren 1 i alternativ A.

Spørsmålet blir da:

Er det de "svakeste" elevene som velger alternativ A? Eller er det slik at de får dårligere gjennomsnittskarakter nettopp fordi at de har valgt alternativ A?

Jeg har foretatt en nærmere analyse av alternativ A kontra alternativ B – besvarelser for å undersøke dette.

5.2 Sammenligning av oppgaver

I tabellen nedenfor er det gjengitt poengsum som 4A og 4B elevene oppnår for de øvrige oppgavene ( 1,2,3 og 5) for oppgave 4, og for hele eksamen.

Poeng

% av max

A

B

A

B

Gjennomsnittspoeng opp1,2,3 og 5

25,1

26

55,9

57,8

Gjennomsnittspoeng opp 4

8,38

8,7

55,8

58

Gjennomsnitt totalt

33,5

34,7

55,9

57,9

Tabell 6. Prosentvis poengoppnåelse av maks. for ulike oppgaver.

Grafisk framstilt:

 

 

 

 

Som vist tidligere viser fremstillingen at elever som velger alternativ A gjør det dårligere på oppgave 4 enn de som velger alternativ B. Men de gjør det også dårligere på alle andre oppgaver. Det tyder på at elevene ikke får dårligere gjennomsnittskarakter på grunn av de har valgt oppgave 4A. Det betyr heller at elevene som velger alternativ A er svakere enn de som velger alternativ B.

Dette er i samsvar med det John Haugan fant i en tilsvarende undersøkelse etter eksamen våren 2000. (Haugan 2000).

Men: Forskjellene i poeng er ikke så store verken på oppgave 4 eller på oppgave 1+2+3+5 til sammen at vi kan overføre konklusjonene til populasjonen som helhet. Forskjellene er ikke signifikante på bedre enn 0,17-nivå - og kan derfor ikke sies å være signifikante.

Tilsvarende finner vi heller ikke at forskjellen i gjennomsnittskarakter mellom 4A og 4B er signifikant på bedre enn 0,2 - nivå.

Ut fra min undersøkelse kan jeg derfor ikke påvise noen signifikant forskjell for alle elevene verken i karakterer eller i poenger for de som velger alternativ 4A i forhold til de som velger alternativ 4B.

Persentiler

For nøyere å analysere eventuelle forskjeller mellom elevene som valgte alternativ A og alternativ B har jeg sett på persentilene for poengsummene som elevene har fått på oppgave 1,2,3 og 5 til sammen.

Resultatene er vist i tabell 7.

Persentil

Alternativ A

Alternativ B

 

90 %

36,7

37,5

75 %

31,9

32,1

50 %

19,4

20,8

10 %

11,8

14,3

Tabell 7. Persentiler for poeng på oppgave 1,2,3 og 5 for de som velger alternativ A og alternativ B

 

Tabellen viser for eksempel at 90 % av elevene som besvarer alternativ A har en poengsum som er 36,7 eller lavere. Tilsvarende for alternativ B er 37,5 poeng.

Grunnen til at jeg har tatt med henholdsvis 90 % og 10 % i stedet for det som er mest vanlig - 75 % og 25 % - er at jeg ønsker å se nærmere på "de aller svakeste" og " aller sterkeste" elevene. Dessuten var det på 10 % -persentilen at poengavvikene mellom alternativ A og B var størst.

Vi ser av tabellen at det største avviket mellom alternativ A og alternativ B er på 10 % persentilet. Tabellen viser at 10% av de elevene som velger alternativ A som får 11,8 poeng eller mindre på oppgave 1,2,3 og 5 til sammen ( av til sammen 45 mulige poeng). Den tilsvarende poengsummen for de som velger alternativ B er 14,3.

Dette kan tyde på at de elevene som gjør det aller dårligst til eksamen velger å besvare alternativ A. Men forskjellene er så små at de ikke er signifikante.

For de andre persentilene er heller ikke forskjellen så stor at den er signifikant.

6. Samsvar mellom sensorer

6.1 Forskjell i vurdering av åpne og lukkede oppgaver

I undersøkelsen har jeg sett på hvor stort samsvar det er mellom karakterer som to og to sensorer gir, og på tilsvarende samsvar mellom dem når det gjelder poeng på oppgavesettet som helhet, samt poeng som de gir på hver enkelt deloppgave.

Et viktig spørsmål å undersøke var om det er større sprik i vurderingen på "åpne" oppgaver enn på mer "lukkede" oppgaver.

Jeg har derfor regnet ut hvor stort det relative sensoravviket er på hver enkelt deloppgave.

( dvs. faktisk poengavvik i en oppgave mellom to sensorer i forhold til maksimalt mulige poeng på oppgaven). Resultatet er vist i tabell 8A.

1a

1b

2a

2b

3a

3b

3c

3d

3e

4Aa

4Ab

4Ac

4Ad

4Ba

4Bb

4Bc

4Bd

5a

5b

5c

0,05

0,10

0,16

0,15

0,16

0,20

0,14

0,21

0,13

0,18

0,21

0,19

0,20

0,23

0,13

0,19

0,16

0,15

0,17

0,16

Tabell 8A. Relativt avvik mellom sensorer for de ulike deloppgaver.

Grafisk framstilt får vi for avviket på deloppgavene:

Tilsvarende tall for poengsum for eksamenssettet som helhet, samt for karakter er vist i tabell 8B.

 

Totalt poengsum

Karakter

Relativt avvik

0,061

0,059

Tabell 8B. Relativt avvik mellom sensorer for hele eksamen.

Det største spriket i poeng mellom to sensorer i settet som helhet er 17. Standardavviket er på 3,0. Gjennomsnittlig er det en forskjell på 3,7.

Kommentar

Vi ser at oppgave 1 skiller seg ut med lavt avvik. Dette er ventet ettersom dette er en oppgave der en bare skal sette inn rett tall i en formel. En så lukket oppgave og entydig oppgave forventes å gi stort samsvar mellom sensorer.

Som tabell 8A og 8B viser er det stort samsvar mellom sensorer i sluttkarakter og totalt antall poeng, selv om det kan være noe avvik i de enkelte poengsummer. Ingen steder er det større avvik enn en karakter mellom sensorene. Det er en signifikant større enighet om karakter og om totalt antall poeng enn om poeng på de enkelte oppgaver. Dette har også Carl Angell og Svein Lie dokumentert i en tidligere undersøkelse. ( Angell/Lie 1993). Det viser at enigheten mellom sensorene er stor når det gjelder helhetsvurderingen av en elev, selv om det kan være ulike vurderinger av de enkelte deloppgaver.

Når det ifølge tabell 8B er et relativt avvik i karakter på 0,059 krever dette en ekstra kommentar. I realiteten er nok dette avviket mindre enn 0,059. Når en sensor har gitt for eksempel karakteren 4+ eller 4/5 på en besvarelse la jeg dette inn i mitt rådataskjema som 4. Tilsvarende la jeg inn 5- og 5/4 som 5. For de fleste sensorpars vedkommende er derfor en karakterforskjell på 1 karakter i mitt skjema i mange tilfeller "egentlig " en forskjell på for eksempel 4+ og 5/4 – altså langt mindre enn en hel karakter.

Den mest åpne oppgaven i dette eksamenssettet var oppgave 5. Vi ser av grafene over at denne oppgaven ikke skiller seg ut i forhold til de andre oppgavene. Oppgave 5 har ikke en relativ forskjell som er signifikant forskjellig fra gjennomsnittet av de relative forskjellene fra de andre oppgavene. Ut fra dette kan vi slutte at det ikke er grunnlag for å si at åpne oppgaver gir et større sprik i vurderingene fra sensorer enn lukkede oppgaver gjør! Dette er ikke i samsvar med Haugans undersøkelse våren 2000 (Haugan 2000), der han påviste at åpne oppgaver gir større sensorsprik enn lukkede.

 

6.2 Sensorkorrelasjon for hele settet

Under følger en figur som viser samsvar mellom total poengsum som er gitt for hver av de to sensorene for hver av besvarelsene de har sensurert sammen.

For å illustrere samsvaret har jeg også regnet ut en korrelasjonskoeffisienten mellom sensorenes poengsummer.

Korrelasjonskoeffisienten viser seg å bli r = 0,923 med signifikansnivå 0,01

Kommentar

En såpass høy korrelasjonskoeffisient viser at samsvaret mellom sensorer er veldig bra. Sensorreliabiliteten er stor. Det er derfor liten grunn til å tro at det er sensorenes vurderinger som gjør at en elev eventuelt får "feil" karakter. En "feil" karakter må i hovedsak skyldes andre faktorer – noe også Angell/Lie påpekte i sin artikkel. ( Angell/Lie 1993)

 

Referanser:

Angell, Carl/Lie, Svein – 1993: "Er fysikkeksamen rettferdig?"

Haugan, John –2000: Undersøkelse om fysikkeksamen vår 2000.

Fysikklærerforeningens hjemmesider.