Corpus of spoken Bulgarian collected by Cvetanka Nikolova

[In Bulgarian]

The e-texts available here, amounting to approx. 50.000 word tokens, represent one half of the corpus that served as the base for Cvetanka Nikolova: Chestoten rechnik na balgarskata razgovorna rech (A Frequency Dictionary of Colloquial Bulgarian), Nauka i izkustvo, Sofia 1987. The texts are made available with the kind permission of Cvetanka Nikolova and through the assistance of Tzvetomira Venkova, who did computer entry from the original index cards.

For purposes of Tzvetomira Venkova's 1997 dissertation Sastavnite sajuzi s element da ot gledna tochka na kompjutarnija tekstov analiz (Formalen model i proekt za ekspertna sistema) (avtoreferat of the dissertation is available at this site) the texts were divided into 25 chunks of 2 000 word tokens each. Some of the conversations are therefore broken up between two chunks. For those who would like to reconstruct the original sequences, we provide a list showing the contents of each chunk in more detail.

You may view the chunks separately by clicking in the table of contents below, or download the entire text in Apple Cyrillic or CP1251 (Windows) encoding (approx. 160 K).

The files contain only the sentences uttered by the informants, without indication of speakers' identities and turn changes. They are therefore best suited to investigations of phenomena that can be described within the realm of the sentence. For investigations of discourse phenomena, Aleksova's corpus will provide better material.

The second half of the corpus still remains only on index cards.

The original recordings were made with a hidden portable tape recorder in randomly selected places (shops, streetcars, offices, homes) during the years 1975 to 1977. Most informants are from Sofia, while 3 recordings were made in Samokov and two in Plovdiv. None of the informants were aware of being recorded at the time. As the purpose of the original corpus was to investigate lexical variation in spoken Bulgarian, phonetic variants have not been taken into account when the dictionary Chestoten rechnik na balgarskata razgovorna rech was made. However, forms like "k'vo ot t'va" and "nema" are preserved in these e-texts.


Your browser should be configured to read Cyrillic text in the encoding corresponding to Code Page 1251 for Windows. If it is, you will see Cyrillic characters below. If you just see garbled characters , follow one of these links for instructions on how to install Cyrillic:

Cyrillisation of Netscape

Russification of Macintosh

Bulgarian for UNIX (X-window)

Ukrainian software (this site has much information that is useful for Bulgarian as well, and it contains the full set of the ER fonts, which cover all the usual encodings both for Windows and the Macintosh.

You are free to download the entire corpus to your own computer, as long as it is to be used for research purposes only. If you use a Macintosh, please note that if your web browser is set to show Cyrillic with Mac (Apple Cyrillic) fonts, your saved pages are automatically converted to Apple Cyrillic. If you want to retain the CP 1251 encoding on your Mac, you could download the source for each page and strip the HTML code from it.


Корпус от разговорен български език, събран от Цветанка Николова

Предлаганите тук компютърни текстове с общ обем около 50 000 словоформи представляват половината от корпуса, послужил като материал за Цветанка Николова: Честотен речник на българската разговорна реч, София 1987: изд. "Наука и изкуство". Текстовете се представят тук с любезното разрешение на Цветанка Николова и чрез съдействието на Цветомира Венкова, която е въвела текстовете от оригиналните фишове.

За целите на докторската дисертация на Цветомира Венкова СЪСТАВНИТЕ СЪЮЗИ С ЕЛЕМЕНТ ДА ОТ ГЛЕДНА ТОЧКА НА КОМПЮТЪРНИЯ ТЕКСТОВ АНАЛИЗ (ФОРМАЛЕН МОДЕЛ И ПРОЕКТ ЗА ЕКСПЕРТНА СИСТЕМА) (чиято автореферат е достъпен тук) текстовете бяха разделени по 25 файла с по 2 000 словоформи. По тази причина някои от разговорите са разпределени по два или повече файла. За улеснение на евентуалното възстановяване на оригиналната последователност предлагаме списък на съдържанието на всеки отделен файл.

Файловете могат да се четат по списъка на съдържанието долу, или да се свалят във Вашия компютър в два формата на кодиране на кирилицата: Apple Cyrillic или CP1251 (Windows) (прибл. 160 K).

Файловте съдържат само изказванията на информаторите, без да са посочени личността на говорителите или границите между репликите. Затова могат да бъдат полезни предимно за изследвания на явления, чийто максимален обсег е изречението. За изследвания на свързан диалог/разговор корпусът на Алексова ще бъде по-удобен.

Другата половина от корпуса на Николова остава на фишове и не е въведенa в компютър.

Записите са правени със скрит портативен касетофон на случайно избрани места - в магазини, трамваи, учреждения, в домашна обстановка и др. през периода 1975-1977 г. Почти всички информатори са от гр. София, а три записа са направени в гр. Самоков и два в гр. Пловдив. Основно изискване бе информаторите да не знаят, че се прави запис.

Материалите могат свободно да се прехвърлят на Вашия компютър при условие, че ще ги използвате само за изследователски цели. Ако работите на компютър "Макинтош", обърнете внимание, че ако Вашата WWW-програма е конфигурирана да показва кирилски страници с шрифтовете на Apple, то и прехвърлените страници ще бъдат в кодирането на Apple.

Кирилски шрифтове за най-важните стандарти, и за Макинтош и Windows, ще намерите тук.
  • Съдържание:
  • R01
  • R02
  • R03
  • R04
  • R05
  • R06
  • R07
  • R08
  • R09
  • R10
  • R11
  • R12
  • R13
  • R14
  • R15
  • R16
  • R17
  • R18
  • R19
  • R20
  • R21
  • R22
  • R23
  • R24
  • R25

  • Last updated June 19, 1998 by K.R.Hauge@easteur-orient.uio.no