СОФИЙСКИ УНИВЕРСИТЕТ "СВ. КЛИМЕНТ ОХРИДСКИ"


ФАКУЛТЕТ ПО СЛАВЯНСКИ ФИЛОЛОГИИ , СПЕЦИАЛИЗИРАН НАУЧЕН СЪВЕТ ПО ЕЗИКОЗНАНИЕ ПРИ ВАК

ЦВЕТОМИРА ГЕОРГИЕВА ВЕНКОВА

СЪСТАВНИТЕ СЪЮЗИ С ЕЛЕМЕНТ ДА ОТ ГЛЕДНА ТОЧКА НА КОМПЮТЪРНИЯ ТЕКСТОВ АНАЛИЗ


(ФОРМАЛЕН МОДЕЛ И ПРОЕКТ ЗА ЕКСПЕРТНА СИСТЕМА)

А В Т О Р Е Ф Е Р А Т


НА ДИСЕРТАЦИЯ ЗА ПРИСЪЖДАНЕ НА НАУЧНАТА И ОБРАЗОВАТЕЛНА СТЕПЕН "ДОКТОР"

Научен ръководител: Проф. д-р Мирослав Янакиев
Рецензенти: Проф. д.ф.н. Руселина Ницолова

Доц. д-р Мая Байрамова

СОФИЯ, 1997

Дисертационният труд е обсъден и насочен за защита от Катедрата по български език при Факултета по славянски филологии на Софийския университет "Св. Климент Охридски".

Представеното в дисертацията изследване на съставните съюзи с елемент да от гледна точка на компютърния текстов анализ трябва да се разглежда в контекста на една водеща тенденция в съвременната компютърна лингвистика - разработването на автоматични системи за анотиране, т.е. за приписване на лингвистична информация към големи текстови корпуси.

Създаването на цялостна система за пълно автоматично анотиране на български текстове е все още задача на бъдещето. За нейното осъществяване са нужни както многобройни отделни разработки, така и обща дългогодишна стратегия. В това отношение значителен принос представляват редица проекти на български езиковеди. Надяваме се, че експертната система КОНТРЕЙС, чийто проект е представен в настоящата дисертация, ще бъде още една крачка в посока на изграждането на една бъдеща система за цялостно граматично анотиране на български текстове.

Освен това, поради факта, че съставните съюзи като цяло, и в частност тези от тях, които са образувани с елемент да, не са били обект на самостоятелно проучване, смятаме, че подробното изясняване на редица техни характеристики е наложително.

Дисертационният труд се състои от увод, пет глави, заключение, списък на използваната литература и приложения.

В уводната част са формулирани целите на дисертацията, зададен е обектът на изследване и са изложени методологическите принципи на анализа. Представен е също и обзор на литературата за съставните съюзи с елемент да, както и кратко описание на структурата на дисертацията.

Основна цел на настоящия дисертационен труд е проектирането на експертна система за автоматично компютърно идентифициране на предложните съставни съюзи с елемент да в текст на български език.

Тъй като изграждането на една лингвистична експертна система е възможно да се осъществи само на базата на стройно формално описание на съответното езиково явление, то от основната цел на дисертацията произтича и другата цел: да се създаде формален модел на тези съюзи.

Обект на настоящия дисертационен труд са формално-синтактичните характеристики на предложните съставни съюзи с елемент да в съвременния български език и по-точно в два типа текст: художествен монолог и разговорен диалог.

От гледна точка на методологията водещ принцип на дисертацията е приемането на корпуса като основа на изследването. Следвано е едно разбиране за ролята на корпуса, наложило се в най-новите изследвания през 90-те години (напр. в трудовете на Джефри Лийч, Джон Синклер и Ян Аартс, цитирани в дисертацията). Според тези публикации е възможен нов тип взаимодействие между интуицията на езиковеда и корпуса с автентичен езиков материал. Езиковедът се явява в ролята на експерт, който оценява автентичния материал. Джефри Лийч нарича този тип взаимодействие "симбиоза" между човека, компютъра и корпуса. Тази симбиоза става възможна едва в наши дни поради два фактора, определящи новата ера в компютърната лингвистика: бързо нарастващата мощност на компютрите и бързо увеличаващият се обем на компютърните корпуси.

Друг водещ принцип на лингвистичния анализ е включването на разговорната реч заедно с художествения текст в пилотния корпус. Чрез включването на правила за разговорната реч се повишава описателната сила на модела, а оттам и ефективността на експертната система, базираща се на него. Така тя би могла да бъде използвана при широк кръг съпоставителни изследвания между типовете текст на различни езикови нива.

В първа глава " Компютърен корпус" са изложени основните характеристики, структурата и процедурите за компютърна обработка на езиковия корпус, създаден за целите на изследването.

Както е известно, от правилния подбор и структуриране на езиковия материал в корпуса, който се използва като база на лингвистичния модел, в голяма степен зависи надеждността на модела. В резултат на предварителен анализ бяха избрани два типа текст: художествен монолог и разговорен диалог. Те отговарят на два критерия: вътрешна хомогенност и наличие на статистически значими различия помежду им.

Корпусът е с обем 100 000 словоформи, разделени на извадки по 2000. Този обем на извадката съответства на обема на извадките в корпусите LOB (Lancaster - Oslo/Bergen) и Brown, с което се създава предпоставка за евентуални съпоставителни изследвания между български и английски език.

Корпусът се състои от две части, условно означени с "А" и " Б", които се различават по типа текстове, който съдържат. Част А е сбор от художествени монологични текстове. Подбрани са 25 белетристични произведения (романи, повести, разкази) от съвременни български автори. Жанрът на всяко от тях е означен от самите издатели. Книгите са издадени в периода 1980-1994г. Част Б е сбор от разговорни текстове. Като основа на корпуса бяха включени транскрипции на разговорни текстове, любезно предоставени в ръкопис от г-жа Цв. Николова. Използвани бяха и някои транскрипции, публикувани в книгата на проф. д-р М. Виденов и 'р. Тотев "Софийска разговорна реч". Тези транскрипции бяха въведени на компютър, според установените за корпуса стандарти.

Първичната обработка на корпуса включва няколко етапа. На първо място, бе извършена една процедура, утвърдена в световната практика на съставяне на електронни корпуси, а именно - редактиране на оформлението на текстовете по определен стандарт. На втория етап бе направено автоматично преброяване на словоформите и отделяне на извадки по 2000 словоформи. Тази процедура беше осъществена чрез разработената програма CVLEXIZ. На третия етап бяха съставени честотни и рангови списъци на словоформите с програмния пакет WRANK, съдържащ няколко програми, чрез които се осъществяват отделните процедури. На следващия етап бе получен общ конкорданс на думата да чрез програмата DA. Терминът конкорданс се разбира като компютърен набор от появите на дадена дума в текста, заедно с техните текстови обкръжения. В него всяка поява на да се дефинира като ключова дума в отделен ред и се изписва с главни букви в средата на реда. Тя се съпровожда от контекст от 50 знака вляво и вдясно. В началото на всеки ред има съответните индекси за номер на извадката и ред в текста.

От общия конкорданс на да се извлича конкордансът на съставните съюзи с елемент да, който се подлага на два типа анализ: а) честотен анализ - с цел да се установят някои закономерности в появите на съюза да в двата типа текст; б) формално-синтактичен анализ - с цел да се състави модел, който чрез контекстносвързани правила, основаващи се на локални контекстни маркери, да стане основа на експертната система.

Резултатите от честотния анализ на количественото вариране между двата типа текст според употребата на съставните съюзи с да са представени в същата глава. 'ормално-синтактичният анализ, поради неговата сложност и необходимостта от по-обширна аргументация, е разгледан подробно в глави III и IV.

Честотният анализ на съставните съюзи с елемент да е осъществен по няколко признака. На първо място е направена оценка по признака "брой съставни съюзи с да (общо)". Този признак показва "поведението" на тези съюзи като клас в двата текста. Направена е оценка на неравномерността на разсейването чрез величината средно квадратично отклонение . Разликите в стойностите на средното квадратично отклонение показват, че двата статистически реда имат различна степен на разнообразие. При художествения монолог редът е доста по-неравномерен, от което следва един важен извод: Вариациите в употребата на съставните съюзи с да са много по-големи между текстовете на отделните автори, отколкото между идиолектите на говорещите. От тук бихме направили заключението, че тази употреба играе съществена роля както за характеристиката на индивидуалния авторов стил, така и за сравнителната типология между монолог и диалог. Направено е и сравнение на доверителните интервали на средната аритметична в двата типа текст, в резултат на което бе регистрирана тенденция към значителен превес на броя на съставните съюзи с да в художествения монолог спрямо разговорния диалог. На второ място е направен съпоставителен анализ по още един показател: "съотношението между общия брой да и появите на да като елемент на съставен съюз", а също и съпоставка между броя на отделните функции на да в двата типа текст. И в двата текста най-често да се появява като подчинителен съюз. В художествения монолог съставните съюзи с да по честота заемат второ място. В разговорния диалог те заемат едва пето място след утвърдителната частица да, оптативната частица да и сложните глаголни форми с да. Интересен е и изводът, че разликите между броя на появите на съставните съюзи с да в двата типа текст, измерени в абсолютни стойности (1,7:1(, са значително по-малки от разликите между относителните дялове (процентите) на тези съюзи в общата реализация на думата да (2,8:1, т.е. почти 3:1). На трето място, е извършен честотен анализ на появите на отделните съюзи в двата типа текст. Направен е опит за анализ на вероятните причини за тези разлики чрез анализ на някои случаи на синтактична синонимия. В резултат на този анализ се вижда, че разликите в употребата на съставните съюзи с да в двата типа текст може да се дължат от една страна на особеностите на всеки съюз, а от друга страна и на по-общите закономерности на подчинителното (хипотактичното( свързване в разговорната реч.

Във втора глава "Проблеми на формалното моделиране на съставните съюзи с елемент да" се разглеждат основните параметри на формалния модел на съставните съюзи с да и се представят неговите части, които съответстват на определен тип формална реализация.

При моделирането на съставните съюзи с да сме се ръководили от едно основно изискване: създаденият модел да подлежи на "компютризация". Това, разбира се, е един твърде условен термин, който означава, че моделът трябва да създаде адекватна основа за работата на компютърна експертна система. Това изискване определя специфичните характеристики на модела:

1. Избраният модел е структурен. При този тип модели на базата на изоморфност между модела и обекта се приема, че вътрешната структура на модела съответства на тази на обекта.

2. Моделът е формален. Тази особеност е задължителна поради факта, че компютърът може да разпознава само графични характеристики на текста. За него текстът е поредица от символи. Всяка категория в рамките на такъв модел може да бъде разпозната като такава, ако има някакъв формален маркер (англ. cue) за това. Използвани са четири типа маркери: лексикални, граматични, морфологични и пунктуационни. Като лексикални формални маркери може да служат лексеми, принадлежащи на дадено множество. Например първите елементи на съставните съюзи се задават като крайно множество L1. Граматичен маркер е появата на дума, принадлежаща към определен функционален клас, в определена позиция. Например наличието на лексема, притежаваща функционалната характеристика "глагол", между два потенциални елемента на съставен съюз, може да бъде маркер за тяхното изключване от крайния списък на появите на съставните съюзи. Морфологичните маркери са свързани с наличието на определени морфологични значения на лексемите, намиращи се в контекста на съставния съюз. Такива са например окончанията за лице и число на глаголите в главното и подчиненото изречение при някои сложни изречения, където връзката е осъществена чрез съставен съюз. Като пунктуационни маркери се явяват препинателните знаци. Например сигнал за наличието на съставен съюз в някои случаи на елипса на неговия първи елемент в съподчинени изречения, е наличието на запетая преди да:

34. Тя, представи си, пристигна направо с куфарите, без да му телефонира, да прати телеграма или поне да предупреди Надя.

Моделът служи за основа на компютърна експертна система, в която неговите формални маркери се използват като основа на алгоритмични правила.

3. Моделът е предназначен за компютърен анализ и предполага наличието на "работен" компютърен езиков корпус, който да подава езиков "материал" на входа на анализатора. От този "работен" корпус компютърният анализатор трябва да извлече тези и само тези структури, които отговарят на характеристиките на модела. Моделът би трябвало да бъде приложим за съставните съюзи с да, съдържащи се в който и да е компютърен корпус от текстове от съвременна българска художествена литература (белетристика) или транскрипции на разговорна реч.

4. Моделът има описателна сила само за предложните съставни съюзи, образувани със съюза да. Както е посочено в уводната част, те притежават специфични характеристики не само що се касае до лексикалните елементи, влизащи в състава им, но и от структурно-синтактична гледна точка.

В тази глава са изложени също и основните принципи на моделиране на съставните съюзи с да от гледна точка на техните конституенти и на непосредствения контекст. При формалната синтагматична интерпретация на съставните съюзи с да, те се разглеждат като линейни построения с два елемента: x и да. Елементът х е винаги вляво от елемента да и принадлежи на списък L1={без, за, вместо, освен, преди} или е нулев елмент в случаите на елипса.

В модела се въвеждат три контекстни позиции А, В и С, които се дефинират спрямо х и да по следния начин: А е съседна вляво на х, В е между х и да, С е съседна вдясно на да. Най-често в правилата се задават маркерите в позиция В. Затова за краткост се изписва само тя, а позиции А и С се дават само в случаите, когато са релевантни. Приемаме, че позиция В е винаги запълнена. Тя може да бъде запълнена с нулев елемент или с една или повече думи. Възможни са четири повърхнинни реализации на този модел.

В реализация R1 елементите на съставния съюз - х и да - са в контактна позиция:

R1: x B=0 da

Например: Тримата са вечеряли, без да ме чакат - узнавам го от мръсните чинии върху мивката (Д. Стоилов).

В реализация R2 между х и да се появяват една или няколко думи:

R2: x B&notequal;0 da

Например: Така ли е: човек изгражда без самият той да е изграден окончателно? (И. Динков). И той подписа на него, без аз да съм парафирал (РР).

В реализация R3 има елипса на първия елемент на съставния съюз, непосредствено след съчинителния съюз при съподчинени изречения: R3: x=0 B=0 da

Например: На един такъв клетник не би оставало нищо друго, освен да приключи жизнения си път като наркоман или да се пренесе своевременно при подземния (З. Петров).

Възможна е и реализация R4, при която освен елипса на първия елемент на съставния съюз се наблюдава и вмъкване на една или няколко думи преди елемента да:

R3: x=0 B&notequal;0 da

Например: Обаче се вардя, преди да съм отишъл и ( ) поне да съм я видял, да си кажа мнението, защото... (РР).

За надеждното описание на R4 обаче няма достатъчно материал в корпуса. Очевидно тази реализация е изключително рядка и по тази причина тя не е обект на разглеждане тук.

Приемаме, че съществени за адекватния анализ на съставните съюзи с да са първите три реализации. На всяка от тях съответства определена част от модела.

Първата част на модела съответства на реализация R1 и описва тези появи на съставните съюзи с да, в които елементите им са съседни. Тази реализация е най-безпроблемна от формална гледна точка. В този случай съставният съюз се задава чрез безконтекстно (context-free) формално правило. При безконтекстните правила от вида:

А -> ,

където левият и десният контекст на правилата са празни думи, символ А може да се замества с независимо от контекста.

В разглеждания модел това правило има следния вид:

х_ да -> съставен съюз с елемент да,

където със символа "_" се означава шпацията между двата елемента.

В трета глава "Модел на съставните съюзи с несъседни елементи" се анализират тези случаи, при които и двата елемента на съставните съюзи с да (предлог и да) се реализират в текста, но между тях се появява част от подчиненото изречение, напр: Така ли е: човек изгражда, без самият той да е изграден окончателно?(И. Динков). За формализирането на тези появи е използвана система от дедуктивни правила, които са подробно аргументирани и илюстрирани с примери.

Kогато х и да са елементи на съставен съюз и B [не е равен на] , то тази позиция се запълва от части на подчиненото изречение.

Статистическата обработка на експерименталния корпус показа доста висок процент на запълване на тази позиция. Това става например при 21% от появите на без да и 40% от появите на вместо да.

Изграждането на формален модел на съставните съюзи с да определя необходимостта да се направи опит за по-обстойно проучване и систематизиране на елементите, които могат да се появяват в тази позиция.

На първо място е необходимо е да се дефинира наборът от възможните синтактични функции на думите, които се появяват между първия елемент (задаван за краткост с х) и да.

На второ място, предвид на това, че В е позиция, в която могат да се реализират повече от една думи, е нужно да се уточни броят на тези думи и техните функции в изречението.

Резултатите от анализа на линейна позиция В показват, че в нея могат да се реализират петнадесет възможни комбинации от синтактични позиции:

Например: Това спане наистина имаше ефекта на ободряващ сън. като в същото време нищо не можеше да се мерне пред очите и покрай ушите му, без той да не го забележи (Д. Цончев). Той беше готов да действа, преди човекът, от когото чакаше сигнал, да се беше обадил. Освен аз него да го извикам, друго не ми остава (РР). Преди аз на него да мога да му кажа каквото и да било, той замахна и ме удари (РР).Тосун бей разчиташе главно на себе си и поради това искаше да управлява сам, без Лейла плахо, но упорито да пречупва решителността му (М. Яворски). Без него командирът ни най-малко да го закача за нещо, той винаги се чувстваше засегнат. Трябваше да подготвя всичко, без той, разбира се, да знае. Той познаваше всички, без него да го познават. Той познаваше всички, без него изобщо да го познават. Тя все си пъха носа тук и там, без нея, разбираш ли, да я пита някой (РР). Преди на Иван да му кажат, всичко беше свършило. Те са си свършили работата, без на мене изобщо да ми кажат (РР), Нищо няма да излезе, без най-напред на него да се плати (РР). Колкото дo самата дреха, ползвах я, разбира се, за спане, без нито веднъж да ми мине през ума, че ще се състезавам с нея (З. Попов). В дълбините на душата си усещаше мъчителен копнеж към него и без, съвсем естествено поради възрастта си, изобщо да познава света и хората, посърнала, Кармела разбираше знамението на тази повторна среща (Р. Добриянова). Тръгна си от там, без, честно казано, да се безпокои.

Както се вижда, разнообразието от комбинации в тази позиция се оказва доста голямо. Комбинациите са петнадесет, ако се отчитат само различните позиции. Ако се отчете и фактът, че те могат да сменят местата си в рамките на дадената комбинация, то техният брой нараства до двадесет и пет.

Резултатите от анализа показват, че този подход не може да бъде приложен при формалния компютърен анализ, тъй като графичните думи, които се реализират между х и да, не е възможно да се зададат формално чрез синтактичните позиции на тези думи. За да разпознае компютърът синтактични позиции, трябва да е извършен предварително "глобален" синтактичен анализ на текста, при който на всяка графична дума от изречението да е приписана синтактична функция. В този смисъл, разпознаването на съставните съюзи с да, може да се разглежда като една стъпка към създаването на подобен анализатор, а не като следствие от него. Следователно позицията между частите на съюза на този етап не може да бъде зададена на компютъра в този вид.

Друг вариант за решение на този проблем би могло да бъде игнорирането на тези случаи, като се разпознават само съставните съюзи с да, при които елементите са съседни. Това обаче би ознaчавало да се пренебрегне един съществуващ и високо честотен факт и да се допусне повече от четиридесет процентна грешка, което по същество обезсмисля анализа.

Изложените до тук съображения обаче не са основание да се откажем от автоматичния анализ на съставните съюзи, между които има части на подчиненото изречение. Тези трудности илюстрират един от многото случаи, когато се проявява спецификата на компютърния лингвистичен анализ. По наше мнение компютърното разпознаване на този тип реализация на съставните съюзи с да все пак е възможно. К ато решение на този проблем в дисертацията се разработва дедуктивен модел на описание на тази реализация на съставните съюзи с елемент да.

При дедуктивния модел не се задава класът - на елементите, които се реализират в дадена линейна позиция р, а се моделира класът --, т.е. задават се тези елементи, чиято поява в позиция р е невъзможна.

Kато основно за дедуктивния модел на съставните съюзи с да приемаме следното допускане:

Всяка поява на елемент х преди да в рамките на едно изречение е съставен съюз, освен ако:

С номера 1), 2), n са означени дедуктивните (изключващите) условия. Тяхното формулиране е основно изискване към модела.

Дедуктивните условия задават случаите, в които х, въпреки че е елемент на линейния контекст на да, не е елемент на съставния съюз с да, напр.:

а. Не разбираше мислите му, но без неговата помощ трудно щеше да се справи.б. Те стигат там преди мен, защото аз не мога да мина през гъстия трънак на високата межда и трябва да заобиколя (К. Илиев).

В изречения а. и б. без и преди се свързват с именни фрази (неговата помощ, мен) и образуват предложни фрази.

От различен тип са случаи като в. и г.:

в. Така ли е: човек изгражда, без самият той да е изграден окончателно? (И. Динков).

г. Следващата вечер колоната пак се появи, преди още да е залязло слънцето (Й. Радичков).Във в. и г. х също е реализиран чрез без и преди, но за разлика от а. и б. е в структурна връзка с да, с която образуват съставен съюз. Моделът описва случаите като а. и б, с цел по-нататък те да бъдат разпознати и изключени от експертната система.

Действието на компютърния анализатор може да се осъществи на няколко етапа:

Етап 1. Търсене преди, т. е. вляво от да до началото на изречението, на елемент х, който задава множеството L1. (L1 съдържа възможните предлози, които са първи елементи на съставните съюзи).

Ако такъв елемент х не бъде открит, се преминава към анализ на следващото изречение.

Ако елемент х е налице, тогава се приема, че х и да вероятно образуват съставен съюз и се преминава към етап 2.

Етап 2. Проверка на контекста (A, B и C) за това, дали са изпълнени дедуктивните условия.

Ако нито едно условие не е изпълнено, тогава се приема, че х и да действително образуват съставен съюз в реализация R2.

Ако едно или повече условия са изпълнени, тогава се приема, че х и да не са елементи на съставен съюз.

Ако приемем, че първият етап от анализа на едно изречение S е завършил със следния резултат: в изречението има графична дума да, а в ляво от да има графична дума х (вж. по-долу фигурата), то на втория етап трябва еднозначно да се отговори на въпроса дали х и да са елементи на съставен съюз.

На фигурата е представено символно изречението, което предстои да бъде анализирано на този етап. То е редица от графични думи (а, b, c, x, да), за чиято семантика няма информация. Известни са техният буквен състав и граматичните им характеристики (g). Граматичната информация определя принадлежността на думата към дадена част на речта и съответните значения на граматичните категории, които са зададени след предварителна обработка с програма морфологизатор.

Приемаме, че съществуват две възможности за синтактична интерпретация на елементите х и да. Тези възможности са алтернативни и във всеки конкретен случай трябва да се избере само едната от тях: х да е съставен съюз или х да не е съставен съюз.

Ако х и да образуват съставен съюз, то между тях може да има нулев елемент или могат да се появят словоформи от подчиненото изречение или вметнати изрази.

Ако х и да не образуват съставен съюз, това са случаите, в които предлогът от множеството L1 е конституент на предложна фраза, а думата да е съюз, въвеждащ подчинено изречение, или свързваща дума между двата глагола в сложната глаголна форма и съставното глаголно сказуемо или утвърдителна, оптативна или въпросителна частица.

За изграждане на дедуктивния модел е необходимо да се направи подробен анализ на втората алтернатива, за да се изведат изключващите правила.

Дедуктивните условия се определят след анализ на алтернативните структурни връзки на да и х, т.е. на връзките, които те могат да реализират наред с тази, в която влизат като елементи на съставен съюз.

На първо място е представен анализът на лявостоящия синтактичен контекст на да, когато да не е елемент на съставен съюз.

Kакто е известно, да е полифункционална лексема. Според дистрибуцията на да могат да се отделят следните функции: F1 - свързва две изречения с подчинителна връзка; F2 - влиза в състава на съставен съюз; F3 - влиза в състава на сложна глаголна форма и съставно глаголно сказуемо; F4 - влиза в състава на неопределително местоимение или наречие; F5 - оптативна и въпросителна частица в просто или главно изречение; F6 - утвърдителна частица.

Всяка от изброените по-горе синтактични функции се реализира в различен тип синтактичен контекст. Списъкът на контекстуалните типове е съответно от К1 до К6. За всеки тип контекст трябва да се дефинират формални маркери, които експлицитно да сигнализират за него. Тъй като типовете синтактичен контекст, различни от К2, в настоящата работа ни интересуват само доколкото те трябва да бъдат разграничени от К2, то в дисертацията те са зададени само с релевантен за случая диференциален признак. За един от тези признаци приемаме принадлежността на думата от лявостоящия контекст на "да" към определена част на речта.По този признак могат да се отделят следните локални формални маркери за типовете синтактичен контекст, алтернативни на К2 (контекста на съставните съюзи с да):

1. ГЛАГОЛ (V) + ДА --> да - подчинителен съюз: К1;
да - елемент на сложна глаголна форма: К3;
да - елемент на съставно глаголно сказуемо: К3;
2. СЪЩЕСТВИТЕЛНО (N) + ДА --> да - подчинителен съюз: К4;
3. ПРИЛАГАТЕЛНО (A) + ДА --> да - подчинителен съюз: К1;
4. К-дума + И (IPro) + ДА -->

(напр: който и, където и )

да - елемент на относително местоимение или наречие: К4;

Например:

1. искам да отида, щях да отида, започвам да се уча;

2. желание да пее;

3. длъжен да помогне;

4. който и да дойде;

Типове контекст К5 и К6 са разгледани по-подробно от гледна точка на задачите на експертната система в т. 5.7. и 5.8.

На второ място е направен анализ на дясностоящия контекст на х, представен накратко на схемата:

Най-важният етап при изграждането на тази част на модела представлява комбинаторният анализ. При него се изследват комбинациите от маркери с цел да се изведат правилата. При формулирането на системата от правила са спазени някои логически изисквания:

а) изискване за непротиворечивост. Логическата зависимост, зададена в едно правило, не трябва да противоречи на логическата зависимост, изразена в което и да е друго правило от системата.

б) изискване за съгласуваност. Ако дадена зависимост се базира на няколко формални маркера, то тя трябва да бъде отразена при всеки маркер поотделно. Всяка зависимост е обяснена и илюстрирана с примери в текста само един път, но е вписана във всяко от релевантните правила.

Изведени са седемнадесет правила, които са подредени според типа на маркерите, включени в тях.

В четвърта глава "Формален модел за компютърно разпознаване на елиптични съставни съюзи с да" представена частта от модела, която описва тези появи на съставните съюзи с да, при които първият елемент не се реализира експлицитно. Това са случаите на елипса на предлога при съподчинени изречения, напр.:

Към всичко това ние ще се обръщаме, драги читателю, заедно с таралежа по-нататък, когато му дойде времето, без да1 изоставаме от събитията или да2 се мъчим да ги изпреварваме (Й. Радичков). На един такъв клетник не би оставало друго, освен да1 приключи жизнения си път като наркоман или да2 се пренесе своевременно при подземния Зевсов брат (З. Попов).

От теоретична гледна точка основанията за интерпретиране на да2 като елиптичен съставен съюз са няколко.

На първо място, ако допуснем, че да2 е самостоятелен съюз в тези случаи, то би трябвало прякото му свързване с главното изречение да не води до промяна в смисъла. Това обаче очевидно не е така, което личи от сравнението между изречения а, б и в:

а. Тя пристигна направо за гласуването, (S1) без да1 ни предупреди и (S2) да2 ни подготви за внезапната промяна в ситуацията (РР).

б. Тя пристигна направо за гласуването, (S1) без да1 ни предупреди.

в. Тя пристигна направо за гласуването (S2') да ни подготви за внезапната промяна в ситуацията.

Докато в а подчиненото изречениe S2 характеризира начина, по който е извършено глаголното действие в главното изречение, то в пример в S2 e финалнo изречениe. При б, където е запазен целият съставен съюз, няма промяна в смисъла.

В повечето случаи свързването на второто съподчинено изречение направо с главното е невъзможно без възстановяване на първия елемент на съюза, срв. по-долу а, б и в:

а. На един такъв клетник не би оставало друго, освен да1 приключи жизнения си път като наркоман или да2 се пренесе своевременно при подземния Зевсов брат (З. Попов).

*206. На един такъв клетник не би оставало друго да2 се пренесе своевременно при подземния Зевсов брат.

207. На един такъв клетник не би оставало друго, освен да2 се пренесе своевременно при подземния Зевсов брат.

Вижда се, че първият елемент на съюза в съподчинените изречения, въпреки че не е реализиран експлицитно, той задължително присъства в семантичната структура. 'ормален белег за неговото наличие е появата му в първото подчинено изречение. При липсата на този белег се променя или изобщо се изгубва смисълът на цялото изречение.>

Друг аргумент в подкрепа на интерпретацията на да2 като част от съставен съюз е възможността съюзът да се появи в пълния си вид пред всяко съподчинено изречение:

Тя пристигна направо за гласуването, (S1) без да1 ни предупреди и (S2) без да2 ни подготви за внезапната промяна в ситуацията (РР).

При допълване на първата част на съюза сложното изречение не се променя по смисъл, което ни дава основание да интерпретираме самостоятелната поява на да като без да.

В редки случаи се забелязва елипса на целия съставен съюз, напр: Доста време се въртя в леглото, преди да се успокои и преди да заспи отново.

От формална гледна точка доказателство за елипсата е формата на глагола във второто съподчинено изречение. Запазено е сегашно време, въпреки че съюзът преди да не се повтаря. Миналото време на глагола би означавало съчинителна синтактична връзка с главното изречение: Доста време се въртя в леглото, преди да се успокои, и заспа отново.

Имайки предвид анализа на горните изречения, смятаме, че може да се говори за две степени на елипса при съставните съюзи:

Докато първата степен е по-масово разпространена в езика, то втората се среща много по-рядко и показва известна книжност на стила. Не случайно някои автори категорично препоръчват тя да се отбягва.

Този тип реализация на съставните съюзи (означена по-горе като R3) се описва във третата част на модела.

Първата основна характеристика на тази част на модела е липсата на повърхнинна реализация на х:

... да се мъчим да ги изпреварваме

Като втори важен момент от изграждането на модела трябва да се отчете необходимостта да се включат маркери от лявостоящия контекст на да в характеристиката на елиптичния съюз. Тя се определя от факта, че R3 се появява в рамките на сложно съставно или смесено изречение с няколко съподчинени изречения. В първото от тези изречения е задължителна реализацията R1 или R2, т.е. на съставен съюз с да със съседни или несъседни елементи, напр.:

... без да изоставаме от събитията или да се мъчим да ги изпреварваме.

Формулирани са шест контекстносвързани правила, основаващи се на комбинации от граматични, пунктуационни и лексикални маркери.

В пета глава "Експертна система за идентифициране на съставните съюзи с елемент да в свързан текст" е изложен проектът за експертната система КОНТРЕЙС, основаваща се на формалния модел на съставните съюзи с да, описан в предходните глави. Показани са принципите на нейното действие и са представени отделните модули в тяхната последователност. 'ормалните правила тук са операционализирани във вид на алгоритмични блок-схеми към всеки модул. Посочени са и някои възможности за приложение на КОНТРЕЙС като блок в експертни системи с по-широк обхват.

Основна цел на системата КОНТРЕЙС е да разпознае в свързан текст съставните съюзи с елемент да във всяка една от трите възможни реализации, описани в гореизложения теоретичен модел. - тази основна цел е свързано и осъществяването на следните конкретни задачи:

Експертната система КОНТРЕЙС е изградена от четири модула. Те се различават по следните характеристики: съдържание на входните и изходните файлове, индексиране на езиковия материал, основни задачи. Модулите действат един след друг и тяхната последователност не може да бъде променяна. Същевременно всеки от тях е относително самостоятелен, тъй като неговите резултати могат да служат и като краен продукт. В края на първия, втория и третия модул се получават междинни изходни файлове, които в зависимост от целите на използващия системата, могат да се подадат към следващия модул за по-нататъшна обработка или пък да се използват направо като помощно средство в работата на езиковеда. В края на четвъртия модул се получават резултатите от всички възможни задачи, поставени пред системата.

Задължително условие към входния текст в Модул 1 е той да бъде обработен с морфологизатор, т.е. на всяка словоформа предварително да бъде приписан индекс (или списък от алтернативни индекси) за част на речта. Предполага се, че в резултат на действието на морфологизатора върху входния текст, повечето от думите, принадлежащи към изменяемите части на речта, ще са получили само една характеристика. Тази характеристика ще бъде използвана като важен формален маркер при по-нататъшното действие на експертната система в следващите модули. При служебните думи обаче ситуацията ще бъде по-различна, защото тяхната функция често пъти се определя единствено от контекста. Тъй като разработените морфологизатори за българския език (разбира се тези, за които имаме информация до този момент) не отчитат ролята на контекста, то в текст, обработен с някой от тях, срещу думата да биха се появили няколко взаимно изключващи се характеристики. След като текста бъде обработен с КОНТРЕЙС, до появите на да като елемент на съставен съюз вече ще има само една характеристика. Следователно няколкото характеристики, с които всяка поява на думата да "влиза" в Модул 1 не представляват проблем за системата, а напротив, явяват се отправна точка за нейното действие.

В Модул 1 се осъществява автоматично ексцерпиране на всички появи на думата да в текста, т.е. създава се конкорданс на думата да. В този модул се създават две разновидности на конкорданса на думата да. В едната разновидност (К1) ключовата дума да се ексцерпира заедно с цялото изречение, в което се появява. В другия вариант (К1') конкордансът е във формат, при който всяка поява на ключовата дума се ексцерпира в средата на отделен ред заедно с непосредствения контекст от 50 символа вляво и вдясно. Двете разновидности на конкорданса служат за различни изследователски задачи. Конкорданс К1 е по-удобен за синтактични изследвания в рамките на отделното изречение. В конкорданс К1' информацията по-лесно се обхваща с поглед, тъй като е по-прегледна и компактна. Този вариант е по-удобен за бърза справка, за честотни и лексикографски изследвания. На изхода на Модул 1 се получава и статистическа информация, която се записва в отделен файл.

Модул 2 е разделен на две части: Модул 2а и Модул 2б, поради различните типове анализ, който се извършва във всяка от тях.

В Модул 2а се осъществява формален анализ на всички изречения по зададените лингвистични правила и се разпознават съставните съюзи с да в реализации R1 и R2. В конкорданса, който се получава в резултат на този анализ, съставните съюзи са подредени според реда на появата им в текста. След това този конкорданс се обработва в Модул 2б така, че да бъде по-удобен за изследователя, използващ системата: всички появи на отделен съюз се групират заедно в един параграф и се дават данни за общия брой на тези прояви, а също и за разпределението на появите по двете реализации: R1 и R2.

Към Модули 2а и 2б са приложени блок-схемите на два алгоритъма, които включват два вида правила: единият вид са лингвистичните формални правила, които са извлечени от теоретичния модел, а другият - процедурните правила, осигуряващи началото, логическата последователност на операциите и успешния завършек на действието на системата.

Модул 3 е разделен на две части: 3а и 3б, аналогично на Модул 2.

В Модул 3а се анализират всички изречения от общия конкорданс с цел да бъдат разпознати и маркирани появите на съставни съюзи с да в реализация R3, т.е. с елипса на първия елемент. В Модул 3б маркираните съюзи, заедно с изречението, в което се появяват, се сортират по азбучен ред и се групират в отделни параграфи.

Към Модули 3а и 3б също са представени алгоритмите, по които се извършва анализът.

Модул 4 е завършващият модул в експертната система. В него няма процедури, базиращи се анализ, а са включени операциите обединяване, сортиране и преименуване. Чрез тези операции данните окончателно се оформят, за да бъдат представени пред потребителя в най-удобен за ползване вид.

С други думи, ако на входа на системата потребителят е подал текст, то на изхода той ще получи:

КОНТРЕЙС би могла да се използва за различни лингвистични изследвания, изискващи точни данни за съставните съюзи с да в произволен текст. Тя може да подпомогне работата на учителя филолог при извличане на автентични примери от текстове, а също и да се използва от чужденци, изучаващи български език.

Системата може да се включи и като блок в експертни системи с по-голям обхват и различни цели.

На първо място КОНТРЕЙС би могла да се вгради като блок, изпълняващ ролята на функционален (смислов) разграничител (англ. disambiguator), в структурата на експертна система морфологизатор. Това би довело до снемане на омонимията при значителен брой появи на да в текста.

Освен това, в КОНТРЕЙС се предлага принципно решение и на два други проблема, които са доста сложни от формална гледна точка: елипсата и разделянето на полисегментни единици от други думи с различни синтактични функции. Смятаме, че дедуктивният модел, въз основа на който е създаден КОНТРЕЙС, би бил приложим (разбира се след съответното модифициране) и в случаи на разделяне на сложни глаголни форми (напр.: щях почти да го достигна; нека аз първо да отида) и на елипса на управляващата дума (напр. искам да отида и да му кажа).

КОНТРЕЙС може да се използва и за повишаване на точността на статистическите програми за преработване на словоформи. Ако се използват нейните резултати, появите на да и на предлозите, които са елементи на съставни съюзи, ще бъдат автоматично преброявани като една словоформа. По този начин ще се повиши точността на честотните изследвания.

КОНТРЕЙС може да бъде включена и като елемент на синтактичен анализатор (англ. parser). Тъй като съставните съюзи с елемент да са винаги подчинителни, то тяхното разпознаване би могло да се използва като формален сигнал за два синтактични признака: граница между простите изречения (clauses) в рамките на сложното изречение и подчинителна връзка между тях. Проблемът за границата между предикативните единици е особено актуален за случаите, в които между частите на съюза се реализират елементи на подчиненото изречение. КОНТРЕЙС предлага едно от възможните решения на този проблем.

КОНТРЕЙС би могла да се използва и като блок от съпоставителен анализатор. Особено подходяща е при съпоставителни анализи между художествена и разговорна реч, тъй като в нея са вградени някои правила, отразяващи особености на разговорната реч. Би могла да се използва и при анализ на стила на отделни автори.

Наличието на система, разграничаваща полисегментни единици в българския език, от типа на КОНТРЕЙС, е едно от необходимите предпоставки за изграждане на компютърни системи за полуавтоматични преводи на чужд език.

В заключителната част са обобщени и рубрикирани основните изводи от изследването на съставните съюзи с елемент да.

Kъм дисертацията има осем приложения. В Приложения 1-6 са илюстрирани етапите на първичната обработка на компютърния корпус. В Приложение 1 е представен списък на текстовете в част А. Приложения 2 и 3 съдържат примерни текстови откъси съответно от двете части на корпуса. Приложение 4 откъс от файл с преброени словоформи, получен чрез програмата CVLEXIZ. В Приложение 5 са илюстрирани двата вида списъци на словоформите от всяка извадка, които са резултат от действието на програмата FRQLIST - съответно честотен списък (frequency list) и рангов списък (rank list). В Приложение 7 са включени четири хистограми, отразяващи резултатите от честотния съпоставителен анализ на появите на съставните съюзи с елемент да в двата типа текст. Списъците към формалните правила на експертната система КОНТРЕЙС са представени в Приложение 8.

Приносни моменти в дисертацията:

1. Направен е първи опит съставните съюзи с елемент да се интерпретират от гледна точка на компютърната текстообработка. Този подход към анализа поставя на преден план редица проблеми, които изискват нетрадиционни решения, тъй като засягат някои от най-трудните области на автоматичния анализ, като формално разграничаване на отделните функции при полифункционални лексеми, установяване на връзка между съставките на лексеми с разделна структура и разпознаване на "чужди" елементи, разделящи тези съставки, а също и възстановяване на елидирани елементи. В дисертацията са предложени процедури за решаването на тези специфични проблеми на автоматичния текстов анализ, като е направен преглед на предимствата и обективните ограничения на предложения подход.

2. За първи път съставните съюзи с елемент да се разглеждат във формално-синтактичен аспект в самостоятелно монографично изследване. Основен проблем за синтактичното описание на тези съюзи и съответно на сложните изречения, в чиито рамки те функционират, е тяхната разделна структура. Дефинирани са четири основни типа реализации на тази структура в зависимост от комбинациите на нейните елементи в текста. Описани са синтактичните условия за всяка от тези реализации. Установени са редица закономерности в словореда на сложното смесено изречение. Резултатите от анализа са изведени под формата на правила, като към всяко правило има подробна синтактична обосновка.

3. Разработен е цялостен формален модел на съставните съюзи с елемент да в рамките на сложното изречение. Този модел се основава на система от локални формални маркери. Той се състои от три части с общо двадесет и четири правила, които са подредени в тринадесет йерархични групи. Използвани са предимно контекстносвързани правила. Основните принципи на изграждане на този модел биха могли да се приложат и при изграждане на формално описание на сложните глаголни форми или на елипсата на управляващата дума в сложни смесени изречения.

4. На базата на формално-синтактичния модел бе създаден проект за експертна система КОНТРЕЙС. В резултат на действието на тази система върху компютърен текст се получават следните резултати: 1) Списък-конкорданс на всички предложни съставни съюзи с елемент да в изреченски контекст, заедно с информация за тяхната реализация (съседство - несъседство на елементите, елипса на първи елемент) и за номера на извадката и реда; 2) Общ списък-конкорданс на всички появи на да (заедно с цялото изречение, в което се появяват), в който са индексирани тези от тях, които са елементи на съставен съюз; 3) Статистическа информация за появите на съставните съюзи с елемент да в дадения текст: общ брой съюзи с да, кои точно съюзи се срещат и в какви реализации; 4) Нова версия на първоначалния текст, в която са индексирани появите на съставните съюзи с да.

КОНТРЕЙС би могла да се използва за различни лингвистични изследвания, изискващи точни данни за съставните съюзи с да в произволен текст. Тя може да подпомогне работата на учителя филолог при извличане на автентични примери от текстове, а също и да се използва от чужденци, изучаващи български език. Системата може да се включи и като блок в експертни системи с по-голям обхват и различни цели - при морфологизатори, синтактични анализатори, системи за смислово разграничаване, автоматичен превод и др.

5. Направен е статистически съпоставителен анализ на съставните съюзи с да в два типа текст: художествен монолог и разговорен диалог, като са получени две групи изводи. Първата група изводи отразява важни закономерности за варирането в употребата на тези съюзи като подклас и поотделно за всеки съюз. Втората група изводи се отнасят до характеристиките на тези два текстови типа, които са допълнени с нови диференциални признаци. Направен е опит за лингвистичен анализ на причините, породили количествените разлики.

6. Създаден е компютърен корпус от сто хиляди словоформи, който би могъл да се използва по-нататък самостоятелно. Тъй като неговата извадкова структура съответства на стандарта на корпусите LOB и BROWN, той би могъл да бъде полезен при съпоставителни изследвания с британския и американския варианти на английския език. Представена е пълна спецификация на текстовете в корпуса, за да се улесни максимално програмната му обработка от желаещите да го използват за свои научно-изследователски или дидактически цели.

7. Представена е методика за обработка на корпуси, съдържащи текстове на български език, която включва всички етапи - от въвеждането на текстовете до извличането на конкорданси и изготвянето на честотни профили.

8. Разработен е набор от програми, чрез които може да се извършва автоматична обработка на текстови корпуси.

СПИСЪК НА ПУБЛИКАЦИИТЕ ПО ДИСЕРТАЦИОННАТА ТЕМА

1. Да-конструкциите и българският езиков усет.- В: Проблеми на социолингвистиката IV, Съст. М. Виденов, А. Ангелов, П. Сотиров Международно социолингвистическо дружество, София, 1995, с. 189-191

2. Corpus-based study of the words, governing da-constructions, in Bulgarian fiction and speech. - In: Working Papers in Linguistics No 28, M. Dimitrova-Vulchanova, L. Hellan (eds.), University of Trondheim, 1996, pp. 319-329

3. Компютърен конкорданс на думата да. - В: Проблеми на социолингвистиката V, Съст. M. Виденов, А. Ангелов, Кр. Алексова, П. Сотиров, Международно социолингвистическо дружество, София, 1996, с. 263-266

4. Някои особености на употребата на съставни съюзи с елемент да в българската разговорна реч - В: Сборник с материали от Четвъртата научна сесия по проблемите на българската разговорна реч, В. Търново, 20-21 май 1996г. (под печат)

5. Problems of Modelling the Syntactic Context of the Word "da" in Bulgarian Language - In: Papers from Eighth International Interdisciplinary Symposium on the Methodology of Mathematical Modelling, Varna, June 8-11, 1996 (in press)