Как быстро прошлое уходит в прошлое?
количественный анализ, использующий возможности интернета

Человек обычно в подробностях помнит вчерашний день, значительно хуже то, что происходило на прошлой неделе, и мало кто сможет вспомнить хотя бы основные события будничного дня месяц тому назад. Настоящее становится прошлым, затем далеким прошлым, постепенно забывается и теряет свои очертания. Это общеизвестное наблюдение можно выразить в цифрах, вооружившись хорошей поисковой машиной и интернетом. Из данной работы вы узнаете как быстро "забывается" нами прошлое (оказывается, по степенному закону) и какие события последнего века забываются труднее всего.

Важнейшие года века

Хорошая поисковая машина, такая как Яndex, не только ищет страницы с нужными словами, но также сообщает сколько всего таких страниц существует. Если вместо слов искать числа, например, 1901, 1902, и т. д., то можно узнать на скольких страницах упоминается каждый из годов прошедшего века - см. график. Если год запомнился чем-то особенным, то на графике будет иметься пик. Самый яркий пик соответствует году 1917 - очевидно, именно тогда произошло самое труднозабываемое событие века (для нашей страны). Следующие по яркости года - революционный 1905-й, победный 1945-й и первый год войны - 1941-й: также вполне разумный и ожидаемый результат. Все - в первой половине века, вторая прошла более спокойно. Менее значительными пиками отмечены года: 1914 - начало первой мировой войны, 1921 - видимо, поворотный год от войны к нэпу, 1961 - очевидно, первый полет в космос, 1948 и 1972 - менее очевидно.

Степенной закон

Из предыдущего графика видно, что если отвлечься от отдельных пиков, то в среднем кривая уверенно движется вверх. Это означает, что чем ближе к нам данный год, тем в большем количестве документов он упоминается. Построим ту же кривую в двойном логарифмическом масштабе и в более широком диапазоне - за последние 300 лет. Только по горизонтальной оси будем откладывать не год, а удаленность в годах от настоящего момента, т.е. от 2002 года. Все данные с разумной погрешностью ложатся на прямую линию, которая соответствует степенной функции с показателем 1.5. Это очень важный результат, имеющий фундаментальное значение с точки зрения того, как устроена память человечества. Задумаемся над тем, что означает, например, что год 1982 встречается примерно в 3 раза чаще, чем год 1962? Значит ли это что в 1982 произошло в 3 раза больше событий? Нет, это значит, что в 1982 произошло в 3 раза больше событий достойных упоминания, т.е. значимых для нас сейчас. Остальные события забылись, или просто реже вспоминаются: они уже неинтересны сегодня. Так устроен человек, что все ненужное забывается и отбрасывается. Теперь мы знаем как быстро это происходит. 1962 год находится по шкале времени в 2 раза дальше от сегодня, чем 1982 год. Степенной закон с показателем 1.5 и означает, что события 1962 года примерно в 3 раза менее значимы для нас, чем события 1982-го. А события 1922-го года, который находится еще в 2 раза дальше, еще в 3 раза менее значимы. Можно сформулировать открытый закон так:
по мере того как событие удаляется от нас во времени в 2 раза, почти 2/3 информации о нем теряется.

Круговая диаграмма

Теперь оценим относительный вес каждого года, для чего построим круговую диаграмму. Из нее видно, например, что 20% хранящейся в интернете информации имеет прямое отношение к текущему 2001 году. Это больше, чем вся совокупная информация, имеющая отношение к тому, что происходило до ХХ века. Весь ХХ век до 1990 года, в свою очередь, уступает одному последнему десятилетию 1990-1999. А это десятилетие примерно соответствует суммарной мощности двух последних (2000 и 2001) годов. Разумно предположить, что содержание интернета примерно отражает содержание усредненной головы его пользователя. Поэтому интерпретировать круговую диаграмму можно, представив, что изображенный круг - это круглая человеческая голова, наполненнная информацией и мыслями. При этом, количество информации и мыслей, относящихся к какому-либо отрезку времени пропорционально площади соответствующего сегмента. Заинтересовавшемуся читателю предлагается самостоятельно проверить насколько диаграмма согласуется с реальным содержанием конкретной головы.

Асимметрия прошлого и будущего

Самый маленький сегмент на круговой диаграмме - будущее - есть результат поиска по годам 2002, 2003 и т.д. Очевидно, страниц, содержащих эти года немного. Как видно из данного графика, пик приходится на 2001 год. Однако, пик явно несимметричный. После 2001 идет резкий спад, гораздо более резкий, чем в сторону прошлого. Отсюда делаем вывод: у нас имеется значительно больше информации о прошлом, чем о будущем. Вообщем, никто в этом и не сомневался, но все равно приятно, что теория находится в согласии со здравым смыслом.

Мировой и российский взгляд на историю

Вернемся к первому рисунку, который иллюстрирует самые значительные вехи ХХ века с точки зрения Яндекса, т.е. с точки зрения русскоязычной части человечества. Для того, чтобы узнать каково на этот счет мнение всего человечества в целом, мы провели аналогичное исследование, используя поисковую машину Аltavista, которая не гнушается включать в свою базу данных сайты и на всех других языках мира. Оказалось, что мировое сообщество смотрит на историю ХХ века несколько иначе. Такие важные для человечества.ру даты как 1917, 1941 и 1905 практически не дали пиков. Мнения рунета и мировой сети совпали только относительно 1945 года. В список значимых дат также попали годы начала и конца первой мировой войны: 1914-1918, и начало второй мировой, 1939. Для объяснения пиков в 1933-1934 и 1948 годах, по-видимому, нужны дополнительные исследования.

Доработкиболее точное определение показателя для степенного закона

Технические подробности
  • Исследование проведено в ноябре 2001г, последняя часть с использованием Аltavista - в январе 2002.
  • Все круглые даты были исключены из анализа: они встречаются гораздо чаще, чем некруглые, но лишь потому, что люди очень любят округлять.
  • Для четырехзначных чисел типа 19хх имеется порядка 15000 документов (по Яндексу), где такое число обозначает не год, а что-либо другое. Это обстоятельство принималось во внимание, хотя в большинстве случаев 19хх обозначает год.
  • База данных Яндекса состоит из 50 миллионов документов общим объемом около 1000 Гб. При таком объеме погрешность уже не влияет на результат. До изобретения интернета, когда таких баз данных не существовало, подобные исследования не были возможны.

  На главную