НОРВЕГИЯ: Ключевые слова
Статистический анализ
С чем у нас ассоциируется Норвегия? Каждый ответит на этот вопрос по-своему. Если опросить множество людей, то получится некоторая усредненная картина. Но людей опрашивать сложно, проще опросить интернет, например, Яndex.ru. Результаты опроса - на этой странице. Образ Норвегии в ключевых словах. Те, кому неинтересен метод определения ключевых слов, может пропустить первую часть и сразу переходить к результатам и их анализу, а также к списку ключевых личностей Норвегии.

Введение
Самые часто встречающиеся слова
Коэффициент норвежскости
Суть метода
Самые норвежские слова
Анализ результатов
Самые известные ЛЮДИ Норвегии
Используемые обозначения

Введение

Пионерские работы [1, 2], посвященные семантическому анализу слова Норвегия мотивировались прежде всего желанием найти максимально точный и объективный (насколько это вообще возможно) ответ на вопрос "С чем у обитателей Рунета ассоциируется Норвегия?" Однако, уже в процессе работы выяснилось, что не так-то легко определить критерии, по которым следует выбирать и упорядочивать искомые ключевые слова. Поскольку авторам не удалось обнаружить в сети прецеденты аналогичных исследований, приходилось выбирать критерии, следуя собственной интуиции и здравому смыслу. Это не всегда оправдывало себя. Откровенно говоря, результаты и первого (как отмечено во втором), так и второго исследования не выдерживают серьезной критики. Однако, действуя методом последовательных приближений, мы, хочется надеяться, все-таки приближаемся к заветной цели. В настоящем исследовании использованы наиболее плодотворные находки прошлых работ: упорядочение по коэффициенту норвежскости и процедура ортогонализации семантических векторов. Также расширен список исследуемых слов. Авторы считают, что использованный метод может успешно применяться для анализа самых разнообразных семантических закономерностей как в Рунете, так и за его пределами.

Самые часто встречающиеся слова

Яндекс знает около 200 тысяч страниц, в тексте которых есть слово Норвегия. Несколько усложнив запрос Яндексу, можно избавиться от тех страниц, где Норвегия упоминается лишь мимоходом, т.е. не иначе как в одной фразе вместе с другими странами. Мы использовали запрос  норвегия ~ (нидерланды,швеция) , тем самым избавившись от соседа по алфавиту и по глобусу. Это дало более скромную цифру - 134572 страниц (Н=134572). Попробуем для начала найти слова, которые встречаются на наибольшем количестве из этих 134572 страниц. Для этого будем искать в найденном с запросом Слово. Полученное количество страниц обозначим СН. Ограничим поиск только существительными. Хитпарад выглядит следующим образом:

Таблица 1
СловоСHСH/Н
1. Россия
2. Год
3. День
4. Страна
5. Время
6. Новости
7. Дело
8. Мир
9. Работа
10.Вопрос
11.Человек
12.Москва
94511
84183
75770
73583
69053
68016
65661
63319
60806
58850
56940
56460
70.2%
62.6%
56.3%
54.7%
51.3%
50.6%
48.8%
47.0%
45.2%
43.7%
42.3%
42.0%

Не исключено, что какие-то слова, до которых мы не додумались, наберут больше очков, чем замыкающая сейчас дюжину Москва. Однако, ясно, что принципиально картина не изменится. Все слова-лидеры, прямого, а по сути и никакого отношения к Норвегии не имеют. Понятно, что это - те слова, которые просто очень часто встречаются в Интернете, независимо от того, идет ли речь о Норвегии, или об Ираке или о чем еще. Некоторые выводы можно было бы сделать, если сравнить эти результаты с полным частотным словарем русского интернета. К сожалению, найти этот словарь нам не удалось. Опять-таки мы попытались угадать лидеров самостоятельно, и вот результат:

Таблица 2
СловоС
  1. Новости
  2. Год
  3. День
  4. Информация
  5. Время
  6. Работа
  7. Вопрос
  8. Россия
  9. Дело
  10. Цены
  11. Ссылка
  12. Человек
11083487
10797317
9595467
9458273
8675326
8539643
7902753
7531523
7503075
7148253
6923189
6483038

Это - самые часто встречающиеся в рунете слова. Как и ожидалось, данная таблица сильно напоминает предыдущую. Однако, составление и анализ частотного словаря рунета - отдельная задача, которой мы заниматься сейчас не будем.

Любопытно сравнить его с частотным словарем русского языка. Бумажные версии мы не читали, но сейчас существуют уже электронные версии частотного словаря (см. также другую версию). Tри лидера-существительных - человек, время, дело - присутствуют и в приблизительной первой дюжине рунета! Интересно поизучать первую тысячу слов, упорядоченных по частоте. Кстати, для английского языка существует множество списков наиболее употребительных слов, например, первая и вторая тысяча, упорядоченных по алфавиту или по частоте. С их помощью можно оценить свой словарный запас, а если оценивать нечего, то по крайней мере узнать какие слова следует учить в первую очередь.

Коэффициент норвежскости

Поскольку самые встречающиеся слова (с максимальным СН) не дали нам никакого образа Норвегии, попробуем использовать другой критерий, который мы назовем коэффициентом норвежскости и определим как СН/С. Он показывает каково отношение числа страниц, где Слово встречается вместе с Норвегией, к полному числу страниц, где встречается Слово. Следующая таблица показывает слова с максимальным коэффициентом норвежскости:

Таблица 3
СловоСH/С
коэф. нор-
вежскости
  1. Осло
  2. Берген
  3. Фьорд
  4. Русенборг
  5. Шпицберген
  6. Скандинавия
  7. Водолаз
  8. Сельдь
  9. Шельф
  10. Лосось
  11. Викинг
  12. Моряк
0.37792
0.36953
0.35835
0.34363
0.32045
0.10933
0.09494
0.09075
0.07755
0.06920
0.05562
0.05501

Сразу видно, что у нас появился список слов, явно имеющих отношение к Норвегии. И Осло, и Скандинавия, и викинг - все попали в таблицу. Можно ли успокоиться и сказать, что это и есть окончательный ответ - образ Норвегии? К сожалению, нет. При составлении этого списка пришлось использовать одно важное ограничение - в список допускались только самые часто встречающиеся в сети слова, а точнее слова с С>1000. Зачем, спросите вы. А дело в том, что если снять ограничение, то лидеры хитпарада сильно изменятся. Например, небольшой норвежский городок Драммен встречается в сети 96 раз (С=96), из них 77 вместе с Норвегией. Отсюда коэффициент норвежскости - 0.8, в 2 раза больше чем у Осло. Но хорошо ли это, что хитпарад возглавит никому неизвестный Драммен? Нехорошо. Дальше - хуже. Национальная норвежская еда лютефиск встречается в сети всего 9 раз, но всегда вместе с Норвегией. Коэффициент норвежскости 1.0 - максимально возможный. Но это же не повод ставить ее в лидеры хитпарада! Жалкая цифра 9 прекрасно характеризует вкусовые качества лютефиска. Получается, что лидер хитпарада зависит от того ограничения на величину С, которое мы выберем, а это - настоящий произвол, который совершенно недопустим.

Суть метода

Итак, каждому слову мы можем сопоставить два числа: СН и СН/С, но ни то ни другое не годится, чтобы оценить значимость слова в совокупном образе Норвегии. Что делать? Предлагается оригинальное решение:

На каждой странице, где есть слово Норвегия, из всего множества других слов выбирается только одно "самое норвежское", т.е. слово с наибольшим коэффициентом норвежскости СН/С. Все другие слова со страницы удаляются и мы считаем самые часто встречающиеся среди оставшихся. Это и будут самые значимые слова в образе Норвегии.

Действительно, часто встречающиеся, но не информативные слова с высоким СН (например, год, день), имеют минимальный коэффициент норвежскости и никогда не будут выбраны на своей странице. Слово лютефиск, с максимальным коэффициентом норвежскости будет выбрано на всех страницах, где оно встречается, но таких страниц - всего 9 из 134572, поэтому вклад лютефиска в понятие Норвегия будет пренебрежимо мал. Таким образом, наибольший вес получат слова с большим коэффициентом норвежскости, и в то же время встречающиеся на большом количестве страниц. Это и есть то, что мы ищем.

Данная процедура на самом деле является ортогонализацией векторов СН в пространстве Норвегия размерностью Н=134572, где каждая проекция вектора СН равна 0 или 1 в зависимости от того, встречается ли на данной странице Слово. Ортогонализация проводится методом Грама-Шмидта, начиная со слов с наибольшим коэффициентом норвежскости. Процедура ортогонализации имеет еще один положительный эффект. Процитируем работу [2]:

Вектора семантического пространства, рассмотренные нами выше, не ортогонализованы и их скалярные произведения не нормируемы. Ну и что, спросит неискушенный в математике читатель? Ну, батенька, как бы Вам это сказать... скажем, определяя семантическое понятие "Путин" через понятия "Второй всенародно избранный Президент России", "Первое лицо РФ", "Верховный Главнокомандующий Красной Армией в случае, не дай бог, войны" Вы, батенька, получаете правдивую картину - все эти понятия хорошо описывают изучаемое слово, но одновременно полностью игнорируете такие семантические толкования как "Душитель НТВ++", "Все Путем", "Штандартен-фюрер Штирлиц" и не сможете этого определить из анализа ограниченного списка слов.
Действительно, легко заметить, что сумма даже первых 12-ти слов - третий столбец таблицы 1 - значительно превышает 100%. Это и означает, что вектора не ортогонализованы. После процедуры ортогонализации все слова в сумме дадут ровно 100%, т.е. будет выполняться равенство Н = сумма всех СН. Но надо понимать, что мы физически не сможем найти все слова, имеющие отношение к Норвегии, и поэтому сумма найденных даст несколько меньше 100%. Но зато мы будем точно знать сколько из 100% норвежских страниц попало в наш анализ. Как будет видно из дальнейшего, мы проанализировали 83% всех страниц, что очень неплохо.

Технически процедура ортогонализации осуществлялась путем исключения из поиска ранее найденных страниц. А именно, после того, как были найдены 134572 страниц, содержащих слово Норвегия, устраивался поиск в найденном с запросом -осло (Осло имеет максимальный СН/С). Этот запрос исключил 9581 страниц, и осталось 124991 страницы. Далее, в найденном был проведен поиск по запросу -берген, который исключил 1341 страницу и т. д. Полученные числа 9581 и 1341 и есть значения СН после ортогонализации. Ниже - полные результаты (мы ограничились 46 словами), где все слова упорядочены по выбранному критерию - СН после ортогонализации.

Самые норвежские слова

Таблица 4
СловоСH
после орто-
гонализации
СH/С
коэф. нор-
вежскости
ССН
  1. Европа
  2. Осло
  3. Флот
  4. Oстров
  5. Водолаз
  6. Моряк
  7. Футбол
  8. Посольство
  9. Учеба
  10. Скандинавия
  11. Нато
  12. Побережье
  13. Лодка
  14. Беженцы
  15. Лыжи
  16. Нефть
  17. Шпицберген
  18. Сельдь
  19. Шельф
  20. Море
  21. Русенборг
  22. Курск
  23. Викинг
  24. Север
  25. Министр
  26. Берген
  27. Крона
  28. Тур
  29. Корабль
  30. Судно
  31. Фьорд
  32. Мурманск
  33. Экспорт
  34. Принц
  35. Океан
  36. Король
  37. Консул
  38. Рыба
  39. Консульство
  40. Танкер
  41. Эмиграция
  42. Лосось
  43. Берег
  44. Визит
  45. Виза
  46. Тролль
16610
9581
6750
6591
4206
4199
4035
4017
3934
3115
3080
2849
2680
2636
2622
2581
2453
2044
1970
1858
1828
1703
1587
1521
1422
1341
1321
1179
1154
1073
1017
825
738
713
669
651
622
543
534
513
504
502
491
480
478
282
0.03123
0.37792
0.05048
0.03346
0.09494
0.05501
0.03025
0.03739
0.02293
0.10933
0.03787
0.04003
0.03981
0.03998
0.03450
0.02799
0.32045
0.09075
0.07755
0.02660
0.34363
0.03204
0.05562
0.02896
0.02219
0.36953
0.03394
0.02074
0.03039
0.02507
0.35835
0.02494
0.02115
0.02504
0.02878
0.02556
0.03470
0.02151
0.03643
0.04625
0.03133
0.0692
0.02146
0.02188
0.02185
0.01368
1521557
25230
276211
569392
49872
154731
553158
282538
335852
45751
271084
207641
324235
142936
194586
561012
9031
26600
34531
1066343
5634
404028
65728
507727
1168742
6400
112870
993937
419152
855236
5662
288020
567786
167305
394399
353351
54438
577867
72815
42853
122664
24205
753926
645070
382015
65577
47519
9535
13944
19050
4735
8511
16733
10564
7700
5002
10265
8312
12909
5714
6713
15702
2894
2414
2678
28366
1936
12944
3656
14706
25929
2365
3831
20615
12737
21444
2029
7182
12010
4189
11352
9030
1889
12430
2653
1982
3843
1675
16182
14111
8348
897

Этa таблица и есть окончательный результат. Значимость слова в пространстве Норвегия характеризуется числом во втором столбце, но для полноты картины в трех оставшихся столбцах приведены другие важные параметры. Заметим, что результаты практически не зависят от произвола в изначальном выборе слов, по крайней мере, лидирующая группа никак не должна измениться. Мы не рассматривали слова с С < 1000 (кроме тролля, включенного по капризу автора), но их вклад должен быть пренебрежимо мал так как ни одно слово с С < 1600, как видно из таблицы, не попало в первую полусотню.

Анализ результатов

46 слов, наиболее точно ассоциирующихся с понятием Норвегия, представлены в таблице 4. Поскольку 46 - это все-таки много, мы разделили слова на группы, чтобы упростить анализ. Круговая диаграмма понятия Норвегия выглядит таким образом:

Состав групп таков (группы и слова упорядочены по весу)

  1. География: Европа, Осло, Скандинавия, Нато, Шпицберген, север, Берген, Мурманск
  2. Море: флот, остров, побережье, сельдь, море, корабль, судно, океан, рыба, лосось, берег
  3. Жители и атрибуты: моряк, беженец, викинг, министр, крона, фьорд, принц, король, консул, тролль
  4. Наши в Норвегии: посольство, учеба, тур, консульство, эмиграция, экспорт, визит, виза
  5. Курск: водолаз, лодка, Курск
  6. Спорт: футбол, лыжи, Русенборг
  7. Нефть: нефть, шельф, танкер

На первом месте идет географическая группа. Действительно, самое банальное, что можно сказать о Норвегии, и самое общеизвестное, это то, что Норвегия - часть Европы, Скандинавии и НАТО, и что ее столица - Осло. Многие помнят, что Норвегии принадлежит Шпицберген, и что она находится на севере. Список популярных географических названий, связанных с Норвегией, замыкает второй город страны - Берген и немного, неожиданно, наш уже видимо сильно обнорвежившийся Мурманск. Вторая группа включает множество слов, объединенных морской темой, в том числе корабельные слова: флот, корабль, судно, и рыбные слова - сельдь, рыба и лосось. Второе место морской темы вынуждает нас признать, что Норвегия - это, прежде всего, морская держава. Любопытен порядок слов в третьей группе - жители и атрибуты. Мы узнаем, что большинство норвежцев - все-таки моряки, и это не так удивительно. Следующую по численности группу составляют беженцы - неестественно бурная активность Норвегии в деле приема всяческих беженцев не осталась незамеченной рунетом. Следующая категория норвежцев - викинги, их не так много как беженцев, но как же без них. Далее следуют политические и монархические чины вперемежку друг с другом, и замыкает список тролли, которых действительно осталось уже крайне мало. В эту группу также были включены фьорд и крона, потому что в других группах они совсем не в тему. Четвертая группа касается взаимоотношения россиян с Норвегией. Если выкинуть нейтральные слова посольство, консульство, виза, то получается, что наиболее популярные цели приезда в Норвегию - поучиться, потуристничать, съэмигрировать, поторговать и нанести визит. Наконец, следующая, уже довольна малочисленная группа - это "Курск": роль Норвегии и особенно норвежских водолазов в истории с подлодкой высоко оценена интернетом. Почти вровень с "Курском" идет спортивная тема: кто был в Норвегии знает, что спорту норвежцы уделяют больше внимания чем какая-либо другая нация. Основные успехи у них конечно связаны с лыжами, но и в футболе тоже иногда возникают неожиданные удачи: норвежцы регулярно выигрывают матчи у бразильцев, Русенборг иногда громит кого-нибудь в Европе, а на последней олимпиаде норвежская женская футбольная сборная неожиданно взяла золото, Норвегия ликовала. Наконец, последняя группа - нефть, все-таки это - основной источник благосостояния нации.

Самые известные люди Норвегии

С людьми проще, чем с предметами и понятиями, потому что нет необходимости вычислять коэффициент норвежскости - человек либо родился норвежцем, либо не родился, и ничего тут не изменишь. Поэтому достаточно посчитать количество страниц, на которых данное имя (точнее, фамилия) встречается в сети. Результаты - в таблице: нашлось 12 норвежцев и одна норвежка, имена которых упоминаются на более чем 500 страницах. Очевидно, что все эти люди - тоже часть образа Норвегии.

Таблица 5
Человек Количество
страниц
Комментарии
1. Григ 7947 Эдвард Григ, композитор; подробнее..., еще подробнее...
2. Хейердал 5428 Тур Хейердал, путешественник (Кон-Тики, Ра-1, Ра-2, Тигрис, о.Пасхи), подробнее...
3. Ибсен 4228 Хенрик Ибсен, драматург, автор "Пер Гюнта" и "Кукольного дома", подробнее...
4. Амундсен 4085 Руаль Амундсен, покоритель южного полюса, подробнее..., еще подробнее...
5. Сульшер 2507 Оле-Гуннар Сульшер, футболист сборной Норвегии и Манчестер Юнайтед, подробнее...
6. Гамсун 2154 Кнут Гамсун, писатель, лауреат Нобелевской премии, подробнее...
7. Столтенберг 2009 Йенс Столтенберг, недавний премьер-министр Норвегии; самый молодой (41 год) за всю историю Норвегии
8. Дэли 1736 Бьорн Дэли, лучший лыжник 90-х годов, обладатель рекордного количества (8) медалей на зимних Олимпиадах, подробнее...
9. Флу 1370 Туре-Андре Флу, футболист сборной Норвегии, Челси, Глазго-Рейнджерс, подробнее...
10. Нансен 1132 Фритьоф Нансен, путешественник (Гренладния, Сев.-Лед. океан), ученый, общественный деятель, друг людей, лауреат Нобелевской премии мира; подробнее..., еще подробнее..., еще подробнее...
11. Скари 928 Бента Скари-Мартинсен, одна из лучших лыжниц последние 2-3 года, особенно в классическом стиле, подробнее...
12. Мунк 645 Эдвард Мунк, художник "Крика", подробнее...
13. Квислинг 625 Видкун Квислинг, премьер-министр Норвегии во время фашистской оккупации, в 1945 казнен за измену родине, его имя стало синонимом предательства, подробнее...


Используемые обозначения:
Н - количество страниц, где встречается слово Норвегия, Н=134572
С - количество страниц, где встречается Слово
СН - количество страниц, где встречается и Норвегия, и Слово
СН/С - коэффициент норвежскости

Исследование проведено 5 августа 2001, последняя часть (о людях) - 11 ноября 2001г.
Если вы знаете слова или норвежские личности, которые должны быть включены в анализ, но не были включены, то напишите пожалуйста нам.


  На главную