№ 27 (4132)
июль 2005

Миллиард документов в Рунете

Участники проекта Nigma.ru провели оценку суммарного объема Рунета и получили следующий результат: по состоянию на 16 мая 2005 года в сети зарегистрировано примерно 1 млрд. 52 млн. русскоязычных документов.

Это вторая попытка группы посчитать размер Рунета. Первая окончилась неудачно, т. к. предложенный тогда алгоритм не обладал устойчивостью – при изменении некоторых параметров оценка количества документов не колебалась около «равновесного решения», а резко изменялась. Новый алгоритм лишен этого недостатка – он основывается на «закачивании» случайных запросов, созданных на базе частотного словаря, на сравнении общего объема выданных результатов со всех поисковых машин, с которыми работает Nigma.ru, и эталонной поисковой машины, размер базы которой известен.

Первоначально устранение дублей происходило по URL и заголовкам документов, однако во второй версии, с использованием частотного словаря, количество дублей резко сократилось, и сейчас используется только URL. Если исключить из алгоритма одну из поисковых машин, оценка в среднем падает всего на 12%. Соответственно, возможно, что не более 20–30% документов Рунета осталось непроиндексированными ни одной из поисковых машин, использующихся в проекте Nigma.ru. Не совсем корректно называть полученное число как объем «базы» поисковой системы Nigma.ru, т. к. собственной базы у проекта нет. Вместо этого предлагается воспринимать это число как оценку общего количества русскоязычных документов в Интернете.

Первая полоса

Вести МГУ

Мир науки

Повестка дня

Пресс-служба

60-летию ВОВ

Конкурсы, гранты, стипендии

Конференции

Знаменательное событие

Память

Образование

Дела профсоюзные

Наши выпускники

Мир творчества

Новости науки

Мнение

Хочу все знать

Студентка

Новости Москвы

Флюс

На главную страницу