вторник, 29 июля 2008 г.

Как нужно переделать Сапу ;)

Контент под Sape - 10 долларов за 50 уникальных статей в готовой к импорту упаковке. *
[Бомж всея Руси]

Опять ап PR грозит тем, что в сапе ап произойдет только через месяц… решил высказать мои предложения. Рассуждения на тему “а как бы сделал я, будь я куратором проекта”. По образованию я программист, поэто представления о больших программных комплексах имею и думаю что мои идеи не лишены смысла…

И так мое предложение. Стараюсь предложить то, что не вызовет больших переделок в системе.

Структурное изменение - для страницы добавляем еще один статус - “нужен ап пр”.

Вм может сам посмотреть где появился ПР сторонними программами и пометить эти страницы флагом.

Теперь при апе пр в системе робот использует систему приоритетов, а не так, что все страницы всех сайтов подряд “шерстит”. Кроме того более приоритетными считаются главные страницы.

при этом у страниц, у которых пр в предыдущий был не 0, автоматом стоит флаг “нужен ап пр”.

Таким образом будет такая картина - робот сначала обходит все главные помеченные флагом, затем 2 уровень, потом 3, а потом уже перекидывается на страницы без пометки “нужен ап пр” (и тут начинается процедура проверки всех миллионов страниц, которая затягивается на месяц).

Что мы имеем в результате - у заинтересованных ВМ ап проходит за первые 3-4 дня + все страницы у которых уже был пр обновляются и О видят новые “реалии”. Все довольны. А потом уже долго и муторно проверяем миллионы страниц, на 0,001% которых обнаружится пр (причем тоже начинаем с главных).

При этом в процессе могут от ВМ поступать новые пометки из массива еще не пройденных страниц. Естественно создаем еще флаг, что бы нельзя было заказывать несколько апов пр для одной страницы, то есть новые пометки могут выплывать только из ранее не пройденных.

По моим представлениям без сильных переделок системы имеем весьма устойчивый механизм ускорения ап для важных страниц.

проблема на мой взгляд только одна - ВМ может помечать много лишнего (типа пометить все страниц как “апнутые”) поэтому тут нужен доп механизм - если помеки ВМ стоят а ПР ноль, то “сбрасываем” пометки на этом сайте и он идет в общей куче (если ВМ одумается - может еще раз поставить пометки, но таким образом “мусорные” пометки не убьют алгоритм)

Ну вот спалил алгоритм который придумывал для других целей :) мне кажется если его внедрят будет очень хорошо для общей ситуации в системе - главное что этот алгоритм никак не может ухудшить ситуации, которую имеем сейчас.

Кому есть что добавить - высказывайтесь.


Бомж - отдохни культурно в Ночлежке

* Эффективная реклама в бомжеленте.

Помогите Марине!

[http://ruping.ru/2008/07/kak-nuzhno-peredelat-sapu/]