Informasjonsteknologi og Midtøsten studier

Av Svein Engelstad, Universitetsbibliotekar ved UB Oslo.

Denne artikkelen skal ta for seg ulike muligheter for anvendelse av EDB / Informasjonsteknologi i forbindelse med Midtøsten studier. Jeg tenker i denne forbindelse på språkstudier, særlig arabisk, og mer tverrfaglige område-studier innefor historie, religion, kunst, kultur og samfunnsfag. (Internett adresser som det er henvist til er understreket i teksten.)

Jeg har samlet noen av mine erfaringer gjennom flere års bruk av Internett i et eget web-dokument, som finnes på: http://www.ub.uio.no/uhs/sok/fag/midtosten/mid-east.htm.

Andre viktige web-baserte kilder i Norge finnes på; Senter for Midtøsten studier ved Universitetet i Bergen ved: http://www.hf-fak.uib.no/institutter/smi/smi.html og Al-Mashriq som befinner seg ved Høgskolen i Østfold: http://almashriq.hiof.no/.

Både Senter for Midtøsten studier og Al-Mashriq har store mengder med stoff knyttet til historie, kultur, religion o.l. i regionen. Senteret har også informasjon om hvordan man kan drive arabisk databehandling på Macintosh. Min web-side prøver å fylle ut noen av de hullene jeg har oppdaget i andre web-dokumenter om Midtøsten. Jeg har derfor tatt med mye informasjon om hvordan man kan 'arabisere' sin PC under Windows. Samtidig som jeg også vil fokusere på biblioteksbruk i Midtøsten studier.

Både studenter og andre brukere har mange problemer når de skal benytte EDB i sitt arbeid, det første og viktigste problemet er å få PC'en eller Mac'en til å skrive de aktuelle språk og benytte de aktuelle alfabetene i regionen. Datateknologiens store fordel er at den kan lagre og behandle store mengder informasjon raskt og effektivt. Så lenge man skriver på vest-europeiske språk er det også ganske lett å utveksle elektronisk informasjon mellom ulike brukere, men dessverre, så lett er det ikke når man går utenfor dette språkområdet. Problemet med ulike alfabeter og ulike diakritiske tegn varierer etter hva man skal bruke EDB til og man er hele tiden prisgitt sine leverandører.

1) Tekstbehandling

Det viktigste problemet ved bruk av IT i forbindelse med Midtøsten-studier er flerspråklig tekstbehandling, hvor man har kombinasjon av romanske og ikke-romanske alfabeter og kombinasjon av L->R og R->L skrift. Ulike maskin- og programvare-leverandører har gjennom årene valgt ulike løsninger for disse problemene. Man har ennå ikke kommet frem til en klar internasjonalt akseptert og utbredt standard. Det finnes ISO-standarder for ulike språk og alfabeter, men de blir ikke alltid fulgt av maskin- og programleverandørene. PC, Mac og Unix har hatt en tendens til å følge ulike, ikke kompatible standarder.

Selv når det bare er snakk om translitterering er det store problemer, fordi man benytter seg av en rekke diakritiske tegn til translitterering, som ikke finnes innen de standard codpages som benyttes av europeisk Windows og Mac. Resultatet er at det er laget en rekke ulike translittererings-fonter som ikke er innbyrdes kompatible.

Det er i de senere årene gjort store fremskritt i brukervennligheten av flerspråklige tekstbehandlingsprogrammer, i og med at man har fått grafisk grensesnitt på Mac og Windows. Et av de store problemene som fortsatt gjenstår å løse er kompatibiliteten mellom programmene og maskin-plattformene. Ved stor grad av data-kyndighet kan man, hvis man lykkes, overføre en ren arabisk tekst skrevet på Mac til Windows eller visa verce. Er det derimot en blandet arabisk og engelsk tekst går dette ikke.

Når det gjelder mulighetene for å skrive andre alfabeter, som arabisk, har man mange ulike muligheter som ikke alle er kompatible. På PC-siden har man i mange år hatt arabisert DOS, som kunne virke sammen med f.eks. Wordperfect. Det store fremskrittet kom med Windows hvor man ved det grafiske grensesnittet fikk bedre oversikt over teksten man redigerte.

Mac har i mange år fritt levert noen små enkle scripts som skulle legges inn i kontroll-panelet på Mac'en. Disse gjorde at man kunne benytte ulike tastatur-layout i forhold til hvilket språk man arbeidet med og skifte mellom alfabeter som russisk, gresk, arabisk, hebraisk etc. Til de seneste utgavene av operativ-systemet er det ikke lenger gratis, men må kjøpes for en overkommelig pris. I tillegg har man selvsagt behov for en passende tekstbehandler eller andre programmer som kan takle skifte av alfabeter og skriveretning innen samme dokument. Nisus Writer[1] ser ut til å være den mest populære tekstbehandleren blant arabister innen Mac-miljøer, denne kan også skrive hebraisk og andre språk. Det finnes selvsagt mange andre programmer tilgjengelige, både shareware og profesjonelle programmer. Nærmere opplysninger finnes på dokumentene `An introduction to writing Arabic on the Mac'[2] og `Arabic Word Processors'[3].

På Windows-siden er det kommet en rekke ulike programmer. Her er det et viktig forhold man må ta med i betraktning, nemlig hvilken Windows versjon man skal benytte, man kan benytte vesteuropeisk Windows, men da må man samtidig bruke en flerspråklig tekstbehandler med en del begrensninger. På den annen side er det jo et spørsmål om hvor mye og ofte man skal skrive f.eks. arabisk og om man skal utveksle dokumenter med andre. Skal man holde seg kun til engelsk og arabisk er vel arabisk Windows Microsoft arabisk Office[4] den beste løsningen. Alle de kjente Office produktene er gjort tospråklige og har eksistert i mer enn 4-5 år nå, så barnesykdommene er tilbakelagt. Man kan velge om meny-oppsettet i programmene skal være på engelsk eller arabisk. Programmene leveres til og med, med arabisk stavekontroll. Det finnes utallige firmaer i Europa, USA og Midtøsten som tilbyr flerspråklig tekstbehandlings programmer og andre data hjelpemidler, selv her i Norge er det et, Flavus Data[5]. I litt historisk perspektiv på PC-siden har vi Multilingual Scholar fra 1984 som nå har fusjonert med Unitype / Uniwrite[6]. De tilbyr kraftig flerspråklig tekstbehandling, men med dårlige konverterings-muligheter. Et par andre firmaer som tilbyr flerspråklig tekstbehandling og bl.a. Internett løsninger for Windows er Accentsoft[7] og Universal Word[8].

2) Translitterering

Det er ikke bare flerspråklig tekstbehandling som kan by på problemer for en som søker etter informasjon i ulike databaser eller leser tekster på europeiske språk. Både arabisk og hebraisk har flere anerkjente, men innbyrdes forskjellige måter å translitterere på. IPA-systemet har som målsetning å representere hver enkelt arabisk bokstav med et enkelt tegn. Dette fører til at de bruker en rekke ulike diakritiske tegn, som til dels er vanskelig å forstå rent intuitivt. Library of Congress har utviklet et system for translitterering som går til den motsatte ytterlighet, her benyttes kun bokstaven a-z med tillegg av apostrof. Ulempene med dette systemet er kort fortalt følgende: 1) man må ofte benytte to bokstaver for å representere ett arabisk tegn, noe som kan åpne for misforståelser; 2) skillet mellom emfatiske og ikke emfatiske konsonanter blir ikke uttrykt skriftlig, dette åpner igjen for andre misforståelser. Fordelen med systemet er at det kan benyttes i et hvilket som helst data-system og tekstene kan overføres uten problemer siden det ikke involverer noen diakritiske tegn.

Siden det er klare ulemper med begge disse systemene har det, til vitenskapelig bruk også utviklet seg andre systemer for translitterering, det finnes både tyske, engelske og franske systemer. Noe som igjen kan føre til en viss forvirring, med tanke på hva som står i original-teksten. For eksempel kan bokstaven 'shiin' representeres på følgende måter: , sh eller ch. Ved translitterering fra arabisk benyttes prikk både under og over bokstaver, hake over bokstaver og vannrett strek under og over bokstaver. Det kommersielle behovet for slike translittererings-fonter er så pass lite at man ikke har fått gjennomslag hos de store dataleverandørene, men er henvist til å benytte mer eller mindre tilfeldige fonter og spesialprogrammer for å skrive disse diakritiske tegnene. Så lenge man opererer på egen hånd og ikke skifter datasystem er alt forholdsvis greit, men skal man overføre enten flerspråklig tekst eller tekst med translitterering til andre, melder problemene seg med en gang. Dette er et anerkjent problem og det er etablert en ISO komite for translitterering, som har følgende URL: http://www.elot.gr/tc46sc2/. Komiteen arbeider for internasjonalt samarbeid om dette problemet og vil fremme anbefalinger for translitteringer. For interesserte har de også en email-liste man kan abonnere på. Info om denne finnes på: http://www.elot.gr/tc46sc2/list/.

Internett

Problemet med ulike alfabeter på Internett er blitt løst på mange ulike måter, med stor oppfinnsomhet, men dessverre også her med relativt liten grad av koordinering av løsningene. Inntil for 3 år siden var det bare vesteuropeisk brukergrensesnitt på Internett-leserne. Så kom, forenklet japansk og kinesisk og etter hvert tyrkisk og sentral-europeisk. Løsninger for russisk, gresk, arabisk, hebraisk og andre språk har latt vente på seg. Det var først med lanseringen av Windows-95 at det kom fart i utviklingen av nettlesere med andre alfabeter. I dag kan man få nettlesere som leser, og gjengir web-dokumenter på de fleste språk, med den begrensning som operativsystemet på maskinen setter, nemlig at man vanligvis ikke kan kombinere mer enn et alfabet i tillegg til vest-europeisk.

Men på samme måte som det er kommet flerspråklige tekstbehandler er det også kommet flerspråklige nettlesere som er uavhengig av Windows-versjoner. De har igjen andre problemer som at de kan komme i konflikt med eksisterende nettlesere, eller de kan mistolke html-kode i andre dokumenter enn de som er skrevet spesifikt for den nettleseren. Dette fører til at noe av den overveldende tilgjengelighet av informasjon man ellers føler er tilgjengelig over Internett går tapt, man kan bli fanget av plattform-avhengige løsninger. Sindbad[9] er en løsning fra Sakhr Software som er beregnet på å virke sammen med Netscape 3.0 eller høyere. Den kan kjøres både under engelsk og arabisk Windows 3.x og 95, men gir i begge tilfelle mulighet for å lese arabiske web-dokumenter korrekt. Accent-Soft[10] leverer både flerspråklige tekstbehandlings-programmer og flere ulike Internett-lesere.

Jeg har ennå ikke funnet egne arabiske nettlesere beregnet på Mac. Dette skulle heller ikke være nødvendig, sett i sammenheng med Mac's måte å behandle ikke-engelske språk på. Man må installere et eget script `Arabic Language kit' i system-mappen som klargjør Mac'en for bruk med ikke-engelske alfabeter. Deretter må de aktuelle fonter som arabisk, hebraisk, russisk, tyrkisk etc. legges inn. Med de korrekte innstillingene av Netscape, samt en viss porsjon flaks, skal Netscape nå kunne vise arabiske dokumenter på din Mac. Knut Vikør har skrevet en detaljert veiledning for Netscape, Eudora og andre internett verktøy på Mac[11]. Det virker ellers som om Mac er mer brukt blant arabister i Europa enn innen næringslive og offentlig forvaltning i Midtøsten, hvor ser ut til å foretrekke for Windows.

Det er også mulig å lese hebraiske Internett dokumenter uten å kjøre med hebraisk operativsystem. Man kan enten benytte en spesiell flerspråklig nettleser eller legge til hebraiske egenskaper til den vanlige nettleseren. Nødvendige fonter, tilpasset Mac, Windows og Unix, for å `hebraisere' Netscape og andre nettlesere kan hentes fra Macom[12].

Den første løsningen som ble valgt for å presentere tekst skrevet med andre alfabeter var å scanne inn teksten og presentere den som bilder i gif eller jpg format. Dette kunne ta noe tid hvis bildene var store eller linjen dårlig, men på den annen side kunne teksten leses av alle uavhengig av maskin- eller program-plattform. En annen løsning som også blir benyttet er å lagre dokumentet i Acrobat-format. Dette er en løsning som blant annet den libanesiske avisen Al Anwar[13] bruker på sin Internett utgave. Ved å laste ned en gratis Acrobat-leser[14] fra nettet kan man så lese og skrive ut, men ikke redigere, dokumenter i andre alfabeter enn det som er tilgjengelig på ens egen maskin. Dette er en løsning som er tilgjengelig på både Mac og PC.

Bibliotek & andre databaser

En god del internasjonale forskningsbibliotek har online kataloger som kan behandle både arabisk og latinsk skrift. Dessverre er ikke dette tilfellet i Norge hvor Bibsys knapt nok kan håndtere europeiske diakritiske tegn. Men som Charlotte Wien[15] fra Odense påpeker ar det ikke helt problemfritt å operere med arabisk i biblioteks-databaser når det gjelder bl.a. sortering, gjenfinning og søking. Man har lignende problemer for alle databaser med flere alfabeter. Problemet er spesielt stort med arabisk, siden arabisk svært sjelden er vokalisert. Man får derfor svært mange tilsynelatende homonymer, som likevel uttales svært forskjellig, og derfor burde sorteres adskilt, f.eks kataba (han skrev) og kutub (bøker). En del av problemene med en flerspråklig database er vel til en viss grad overvinnelige i et enkelt institutt-bibliotek, hvor man kan lage uavhengige lokale løsninger.

Slik situasjonen er for tiden mener jeg at det er teknisk og praktisk umulig å etablere en flerspråklig database med flere alfabeter for et stort felles bibliotek som UBO hvor det er et utall av ulike språk representert, og et stort antall alfabeter. Flere språk bruker samme alfabet, men har ofte ulike diakritisk tegn og ulike sorteringsregler. De vesteuropeiske språk bruker det latinske alfabetet med en rekke diakritiske tegn utover det engelske alfabetet. Selv innen de skandinaviske språk er det ulik sorterings-rekkefølge for æ-ø-å. De diakritiske tegn som benyttes ved translitterering er i svært liten grad de samme som benyttes av andre europeiske språk. Videre har vi det kyrilliske alfabetet for slaviske språk og det arabiske for arabisk, farsi og urdu. Både farsi og urdu har minst 4-5 tegn som ikke finnes i klassisk arabisk, og i tillegg ulik lydverdi på enkelte andre.

Den EDB-tekniske utviklingen går likevel raskt fremover og det er nå en eksplosiv økning i EDB-bruk over hele Midtøsten. Dette fører til at det blir et stort kommersielt marked for bedre flerspråklige EDB-løsninger, innen mange områder. Som et resultat av dette vil det forhåpentligvis bli funnet en løsning på en del av de problemene jeg påpeker.

Oslo, desember 1997