For purposes of Tzvetomira Venkova's 1997 dissertation Sastavnite sajuzi s element da ot gledna tochka na kompjutarnija tekstov analiz (Formalen model i proekt za ekspertna sistema) (avtoreferat of the dissertation is available at this site) the texts were divided into 25 chunks of 2 000 word tokens each. Some of the conversations are therefore broken up between two chunks. For those who would like to reconstruct the original sequences, we provide a list showing the contents of each chunk in more detail.
You may view the chunks separately by clicking in the table of contents below, or download the entire text in Apple Cyrillic or CP1251 (Windows) encoding (approx. 160 K).
The files contain only the sentences uttered by the informants, without indication of speakers' identities and turn changes. They are therefore best suited to investigations of phenomena that can be described within the realm of the sentence. For investigations of discourse phenomena, Aleksova's corpus will provide better material.The second half of the corpus still remains only on index cards.
The original recordings were made with a hidden portable tape recorder in randomly selected places (shops, streetcars, offices, homes) during the years 1975 to 1977. Most informants are from Sofia, while 3 recordings were made in Samokov and two in Plovdiv. None of the informants were aware of being recorded at the time. As the purpose of the original corpus was to investigate lexical variation in spoken Bulgarian, phonetic variants have not been taken into account when the dictionary Chestoten rechnik na balgarskata razgovorna rech was made. However, forms like "k'vo ot t'va" and "nema" are preserved in these e-texts.
You are free to download the entire corpus to your own computer, as long as it is to be used for research purposes only. If you use a Macintosh, please note that if your web browser is set to show Cyrillic with Mac (Apple Cyrillic) fonts, your saved pages are automatically converted to Apple Cyrillic. If you want to retain the CP 1251 encoding on your Mac, you could download the source for each page and strip the HTML code from it.
За целите на докторската дисертация на Цветомира Венкова СЪСТАВНИТЕ СЪЮЗИ С ЕЛЕМЕНТ ДА ОТ ГЛЕДНА ТОЧКА НА КОМПЮТЪРНИЯ ТЕКСТОВ АНАЛИЗ (ФОРМАЛЕН МОДЕЛ И ПРОЕКТ ЗА ЕКСПЕРТНА СИСТЕМА) (чиято автореферат е достъпен тук) текстовете бяха разделени по 25 файла с по 2 000 словоформи. По тази причина някои от разговорите са разпределени по два или повече файла. За улеснение на евентуалното възстановяване на оригиналната последователност предлагаме списък на съдържанието на всеки отделен файл.
Файловете могат да се четат по списъка на съдържанието долу, или да се свалят във Вашия компютър в два формата на кодиране на кирилицата: Apple Cyrillic или CP1251 (Windows) (прибл. 160 K).
Файловте съдържат само изказванията на информаторите, без да са посочени личността на говорителите или границите между репликите. Затова могат да бъдат полезни предимно за изследвания на явления, чийто максимален обсег е изречението. За изследвания на свързан диалог/разговор корпусът на Алексова ще бъде по-удобен.Другата половина от корпуса на Николова остава на фишове и не е въведенa в компютър.
Записите са правени със скрит портативен касетофон на случайно избрани места - в магазини, трамваи, учреждения, в домашна обстановка и др. през периода 1975-1977 г. Почти всички информатори са от гр. София, а три записа са направени в гр. Самоков и два в гр. Пловдив. Основно изискване бе информаторите да не знаят, че се прави запис.
Материалите могат свободно да се прехвърлят на Вашия компютър при условие, че ще ги използвате само за изследователски цели. Ако работите на компютър "Макинтош", обърнете внимание, че ако Вашата WWW-програма е конфигурирана да показва кирилски страници с шрифтовете на Apple, то и прехвърлените страници ще бъдат в кодирането на Apple. Кирилски шрифтове за най-важните стандарти, и за Макинтош и Windows, ще намерите тук.