UiO hjemmeside MN fakultetetSøkElektronisk oppslagstavleHjelp

ST-IN 116 - Informatiske metoder i Statistikk


Informasjon fra forelesningskatalogen og studiehåndboken

Foreleser: Tobias Dahl (tobias@ifi.uio.no)

Gruppelærer: Peter Acklam (jacklam@math.uio.no)

Bakgrunn for kurset

Bruk av datamaskin er idag helt nødvendig for å utføre statistiske analyser som ligger utenfor de helt trivielle anvendelser. Datamaskinen har samtidig endret statistikk-faget vesentlig de siste år. Dette har medført kunnskap om hvordan datamaskinen kan brukes effektivt har blitt mer og mer viktig. Tidligere har denne kunnskapen blitt innført på hovedfagsnivå. Ved å nå inføre dette kurset allerede på 100-nivå, har målsetningen vært å

  • raskest mulig gi studentene muligheter til å gjøre statistiske analyser utover de enkleste problemstillinger
  • gi studentene på et tidlig nivå et bedre bilde av hvordan statistiske analyser idag utføres
  • vise at statistikk ikke bare er sannsynlighetsregning og læring av metoder, men også spennende datanalyse
  • vise at statistikk ikke bare er et matematisk fag, men er sterkt avhengig av informatikk og sterkt knyttet opp mot anvendelser fra andre fagdisiplinger.

Kursets innhold

Kurset vil bestå av 4 hoveddeler:

Innføring i S-Plus

S-Plus er idag en av de mest populære statistikk-pakker og er den pakken vi bruker i mange senere kurs. De fleste av våre studenter bruker også S-Plus i hovedfagsarbeid. God beherskelse av S-Plus vil derfor være til god nytte senere i studiet.

  • Enkel introduksjon til bruk av S-Plus.
  • Hvordan gjøre enkle statistiske analyser i S-Plus.
  • Programmering i S-Plus.

Numeriske metoder

Ofte ønsker vi å bruke modeller som ikke faller innenfor "standardmodellene". Dette kan medføre at de beregninger vi må utføre for å estimere ukjente parametre, eller for å velge modeller kan bli svært kompliserte. Typisk vil vi enten måtte beregne et komplisert integral (Bayes analyse, ST115) eller vi må optimere en komplisert likelihood funksjon. Kurset vil ikke gå dypt inn i numeriske metoder, da det finnes egne kurs for dette (MA-IN 127), men vi vil demonstrere hvordan vi kan bruke disse metodene for statistiske problemstillinger.

Stokastisk simulering

Stokastisk simulering er et kraftig verktøy som kan brukes for å

  • lære hvordan metoder virker
  • regne ut vanskelig integraler
  • optimere vanskelige funksjoner (f.eks. likelihood-maksimering)

Vi vil se hvordan simulering kan utføres, men ikke minst demonstrere hva det kan brukes til gjennom mange konkrete anvendelser.

Data-intensive metoder

Tradisjonelt har statistiskere jobbet med svært enkle modeller (linear regresjon, Gaussisk støy). De antagelser vi gjør er ofte lite realistiske, men er gjort for at matematikken skal bli pen, og enkle formler kommer ut. Med dagens kraftige datamaskiner, er det imidlertid mulig å bruke mer avanserte modeller og metoder. Vi vil se på noen slike metoder:

  • Bootstrapping
  • Moderne regresjonsmetoder
  • Monte Carlo tester

Foreløbig forelesningsplan

Dette er en tidsplan for forelesningene fram til november. Planen kommer til å bli endret underveis, etter behov for utdypnig av emnene.

Utdelte notater er gitt som linker for de respektive dager.

VIKTIG: Undervisning i S-Plus vil bli gitt på regneøvelsene. En introduksjon til språket vil bli gitt i løpet av de første tre ukene.

Notater fra forelesningene

Dato Program
21. august Oversikt over kurset, introduksjon til simulering, innføring i S-Plus.
28. august Pseudostokastiske variable og variansreduserende teknikker.
4. september Optimering og likelihoodestimering. Notat som PostScript-fil.
11. september Forts. optimering
18. september Forts. optimering
25. september Forts. optimering
2. oktober Monte Carlo test
9. oktober Forts. Monte Carlo test, start på bootstrapping.
11. oktober Moderne regresjonsmetoder. Notat som PostScript-fil.
16. oktober Mer om moderne regresjonsmetoder
23. oktober Bootstrapping
20. November Oppsummering kurset, gjennomgang av prøveeksamen.

Læremidler

S-Plus

Det finnes en egen side med mer dokumentasjon om S-Plus.

S-Plus på mat-fak maskinene

S-Plus er nå installert på mat-fak maskinene. Det kan startes ved splus.

Oppkall av S-Plus fra emacs er foreløbig ikke lagt opp på disse maskinene.

For å gjøre biblioteker tilgjengelig, gi kommandoen

assign("lib.loc", where=0,
  c("/site/s-plus/Snetlib", "/site/s-plus/Slocal"))

i S-Plus. Dette gjør at S-Plus vet hvor den skal lete etter biblioteker. Merk at du må gi denne kommandoen hver gang du går inn i S-Plus med mindre den legges inn i S-Plus sin oppstartfile .First.

S-Plus på matematisk institutt

S-Plus er installert på linux-maskinene. Se http://www.math.uio.no/doc/splus/ for nærmere informasjon om lokale tilpasninger.

For å gjøre biblioteker tilgjengelig, gi kommandoen

assign(where=0, "lib.loc",
  c("/local/share/avdc/Snetlib", "/local/share/avdc/Slocal"))

i S-Plus. Dette gjør at S-Plus vet hvor den skal lete etter biblioteker. Merk at du må gi denne kommandoen hver gang du går inn i S-Plus med mindre den legges inn i S-Plus sin oppstartfile .First.

Diverse dokumentasjon

Regneøvelser

Oppgavesamlingen er tilgjengelig som PS-fil og PDF-fil.

Løsningsforslag finnes for tidligere gitte oppgaver.

Oppgaver høst 2000

  • 15. november: Oppgave 13, 21
  • 8. november: Oppgave 20, 21
  • 1. november: Oppgave 6, 7 og 8
  • 27. september: Oppgave 25
  • 20. september: Oppgave 24
  • 13. september: Oppgaver 23 og 24 fra oppgavesamlingen
  • 6. september: Ekstraoppgave gitt av foreleser samt oppgave 1 fra oppgavesamlingen

Oppgaver høst 1999

Regneøvelsene som ble gitt ved kurset i fjor (med tilhørende datoer) er listet nedenfor. Rekkefølgen på delemnene er forandret siden i fjor, følgelig vil også rekkefølgen på oppgavene endre seg.

  • 24. november: Oppgavene 26 og 27
  • 17. november: Regneøvelse med prøveeksamen.
  • 9. november: Oppgave 25
  • 2. november: Oppgavene 24
  • 27. oktober: Oppgavene 20, 22, 23
  • 20. oktober: Oppgavene 19, 20
  • 13. oktober: Oppgavene 16, 17, 18
  • 6. oktober: Samme oppgaver som til forrige gang, da regneøvelsene forrige uke ble avlyst.
  • 28. september: Oppgavene 10, 11, 13, 15
  • 28. september: Oppgavene 10, 11, 13, 15
  • 21. september: Oppgavene 7, 8, 9, 11, 12
  • 15. september: Oppgavene 3, 4, 5, 6, 7
  • 8. september: Oppgavene 2 og 3
  • 1. september: Oppgaver fra kapittel 2 i Becker et al: "The New S language" (kopier utdelt på forelesning, og kan fås ved henvendelse til foreleser eller gruppelærer).

Gjennomgang av øvelsene vil stort sett være basert på at studentene selv ber gruppelærer gjennomgå de ting som har vært vanskelige.

Obligatoriske oppgaver

Det vil bli gitt 3 obligatoriske oppgaver i kurset. Datoer for innlevering vil bli gitt på forelesning (og dessuten lagt ut på nett).

Oppgavene for iår finnes her:

Oppgavene fra ifjor finnes her:

Prøveksamen

Det er blitt laget en prøveeksamen for kurset. Den finnes som PS-fil og PDF-fil og kan leveres inn når som helst før 13. november. Gjennomgåelse av prøveeksamen vil skje 20. november.

Datasett

Enkelte datasett er hentet fra MASS-biblioteket.

S-Plus rutiner




Valid HTML 4.01! Siden holdes oppdatert av Tobias Dahl (tobias@ifi.uio.no)
og Peter J. Acklam (jacklam@math.uio.no)