Et studiekammer for kognitive vitenskaper
Datavitenskap Filosofi Datalingvistikk Logikk Timeplan Lenker

Datalingvistikk

Med en kraftig regnemaskin, som vi fikk etter hard innsats fra pionerer som von Neuman og Turing, samt en formell og prosedural beskrivelse av hvordan naturlige språk fungerer (lingvistikk), som vi fikk etter kloke hoder som Chomsky, er veien pekt ut for å få datamaskinen til å prosessere og bearbeide menneskelige språk. Datalingvistikk tar for seg oppgaver som på det letteste nivået dreier seg om stavekontroll og på det mest avanserte oversetter fra et språk til et annet og identifiserer semantisk innhold i tekst.

Alle kjenner nå til stave og grammatikk-kontrollen i Microsoft Word og Google Translate. Forhatt som de er, kommer ingen unna at dette er meget nyttige verktøy ved riktig bruk. Datalingvistikk bidrar også til teknologi som kan oversette tekst til tale (for blinde), tale til tekst (for døve), representere det semantiske innholdet i tekstlige dokumenter (for eksempel for å automatisk lage resyméer). Fruktene av denne vitenskapen blir høstet av i stadig større omfang, og har viktige implikasjoner for mange sider av samfunnet.

xkcd

Computational Linguists

Forfatterattribuering

Høsten 2010 forsøkte jeg å attribuere ulike forfattere ved hjelp av markov-modeller (bigram språkmodeller), egenskapsvektor-modeller og gjennomsnittelig setningslengde. Jeg fant ut at ved å lage en egenskapsvektor ved å se på forholdet mellom to og to funksjonsord for hver forfatter, og attribuerte tekster med ukjent forfatter ved hjelp av kosinus-likhet, fikk jeg best resultat (av de metodene jeg har utforsket). Her er rapporten:

Forfatterattribuering ved hjelp av kosinulikhet mellom egenskapsvektorer

Notater

Her følger mine notater til kurset INF2820 - Computational Linguistics. Oppsummerer programmeringsspråket Common LISP, bruk av regulære uttrykk og en del formell lingvistisk teori og notasjon.

Last ned dokument (pdf)