Газета "Московский Университет"

Участники проекта Nigma.ru провели оценку суммарного объема Рунета и получили следующий результат: по состоянию на 16 мая 2005 года в сети зарегистрировано примерно 1 млрд. 52 млн. русскоязычных документов.

Это вторая попытка группы посчитать размер Рунета. Первая окончилась неудачно, т. к. предложенный тогда алгоритм не обладал устойчивостью – при изменении некоторых параметров оценка количества документов не колебалась около «равновесного решения», а резко изменялась. Новый алгоритм лишен этого недостатка – он основывается на «закачивании» случайных запросов, созданных на базе частотного словаря, на сравнении общего объема выданных результатов со всех поисковых машин, с которыми работает Nigma.ru, и эталонной поисковой машины, размер базы которой известен.

Первоначально устранение дублей происходило по URL и заголовкам документов, однако во второй версии, с использованием частотного словаря, количество дублей резко сократилось, и сейчас используется только URL. Если исключить из алгоритма одну из поисковых машин, оценка в среднем падает всего на 12%. Соответственно, возможно, что не более 20–30% документов Рунета осталось непроиндексированными ни одной из поисковых машин, использующихся в проекте Nigma.ru. Не совсем корректно называть полученное число как объем «базы» поисковой системы Nigma.ru, т. к. собственной базы у проекта нет. Вместо этого предлагается воспринимать это число как оценку общего количества русскоязычных документов в Интернете.

№ 27 (4132) июль 2005	Миллиард документов в Рунете Участники проекта Nigma.ru провели оценку суммарного объема Рунета и получили следующий результат: по состоянию на 16 мая 2005 года в сети зарегистрировано примерно 1 млрд. 52 млн. русскоязычных документов. Это вторая попытка группы посчитать размер Рунета. Первая окончилась неудачно, т. к. предложенный тогда алгоритм не обладал устойчивостью – при изменении некоторых параметров оценка количества документов не колебалась около «равновесного решения», а резко изменялась. Новый алгоритм лишен этого недостатка – он основывается на «закачивании» случайных запросов, созданных на базе частотного словаря, на сравнении общего объема выданных результатов со всех поисковых машин, с которыми работает Nigma.ru, и эталонной поисковой машины, размер базы которой известен. Первоначально устранение дублей происходило по URL и заголовкам документов, однако во второй версии, с использованием частотного словаря, количество дублей резко сократилось, и сейчас используется только URL. Если исключить из алгоритма одну из поисковых машин, оценка в среднем падает всего на 12%. Соответственно, возможно, что не более 20–30% документов Рунета осталось непроиндексированными ни одной из поисковых машин, использующихся в проекте Nigma.ru. Не совсем корректно называть полученное число как объем «базы» поисковой системы Nigma.ru, т. к. собственной базы у проекта нет. Вместо этого предлагается воспринимать это число как оценку общего количества русскоязычных документов в Интернете.
Первая полоса
Вести МГУ
Мир науки
Повестка дня
Пресс-служба
60-летию ВОВ
Конкурсы, гранты, стипендии
Конференции
Знаменательное событие
Память
Образование
Дела профсоюзные
Наши выпускники
Мир творчества
Новости науки
Мнение
Хочу все знать
Студентка
Новости Москвы
Флюс
На главную страницу

Миллиард документов в Рунете