PageRank отражало суть их работы — все веб-страницы в индексе BackRub получали свой
рейтинг (он и назывался PageRank). Фамилия Пейджа использовалась не совсем
случайно, это, скорее, служило примером его специфического юмора и льстило его
самолюбию. «Да, к сожалению, я тогда имел в виду себя, — позже застенчиво
признавался Пейдж. — Мне до сих пор немного неудобно».
Попытка составить рейтинг сайтов усложнила их задачу. Вместо того чтобы просто
посчитать количество ссылок, ведущих на страницу, Пейдж и Брин решили, что было бы
еще лучше, если бы они оценили ценность каждой входящей ссылки. Например, ссылка
New York Timss должна была иметь больший вес, чем ссылка с сайта Джастина Холла,
который он вел из общежития колледжа Суортмор. Получался рекурсивный процесс с
несколькими петлями: каждый веб-сайт получал место в рейтинге согласно количеству и
авторитетности входящих ссылок, а ценность этих ссылок зависела от рейтинга их
родного сайта. Влиятельность же этого сайта также определялась по количеству и
авторитетности ссылок, которые вели на него. «Это все рекурсия, — пояснял Пейдж. —
Один большой круг. Но математика восхитительна, она позволяет решать такие задачи».
Математические задачи именно такого уровня интересовали Брина. «Чтобы достичь
нашей цели, мы решили немало математических проблем, — вспоминает он. — Мы как
будто превратили Всемирную паутину в огромное уравнение, в котором были сотни
миллионов переменных — рейтинги всех сайтов Интернета». Они опубликовали статью в
соавторстве со своими научными руководителями, где разъяснили сложные
математические формулы, основанные на количестве входящих ссылок и относительном
рейтинге каждой из этих ссылок. Затем они объяснили все то же самое простыми
словами, чтобы было понятно и непрофессионалам: «„У веб-сайта будет высокий
рейтинг, если будет высока сумма рейтингов его входящих ссылок“. Сюда относились
случаи, когда у страницы имелось много входящих ссылок и когда на страницу
ссылалось не так много, но авторитетных сайтов».
Мог ли рейтинг PageRank улучшить результаты поиска — это был вопрос на миллион.
Пейдж и Брин провели один сравнительный тест: попробовали набрать слово
«университет» в разных поисковых системах. AltaVista и другие сайты выдавали список
случайных страниц, в названии которых встречалось это слово. «Помню, я как-то
спросил авторов тех систем: „Зачем вы кормите людей бессмыслицей?“» — вспоминает
Пейдж. Ему ответили, что такие результаты поиска — его вина и что ему нужно
уточнять свои поисковые запросы. «Благодаря лекциям по взаимодействию человека и
машины я знал, что обвинять пользователей — не лучшая идея. То есть владельцы тех
поисковиков в корне ошибались. Мы были уверены, что пользователь всегда прав,
поэтому нам удалось создать поисковую систему, которая была лучше остальных». Когда
они ввели слово «университет» в свою систему, учитывающую рейтинг PageRank, то
получили следующие результаты: Стэнфорд, Гарвард, Массачусетский технологический
институт и Университет Мичигана. Такой список невероятно их порадовал. «Вот это
да, — сказал себе Пейдж. — Мне и всей нашей команде стало очевидно, что можно
искать информацию намного эффективнее, если уметь определять авторитетность веб-
сайтов, основываясь на мнении общественности, а не на данных самих страниц».
Пейдж и Брин продолжили совершенствовать свою поисковую систему. Алгоритм
PageRank «научился» учитывать такие факторы, как частота употребления, размер
шрифта и расположение ключевых слов на веб-странице. Сайт получал больше баллов,
если ключевое слово было расположено в его URL-адресе или названии, а также если
оно было набрано заглавными буквами. Пейдж и Брин анализировали каждый блок
результатов и слегка поправляли формулу. Они вычислили, что важную роль необходимо
отводить якорному тексту ссылок, то есть «кликабельным» подчеркнутым словам,
которые представляли собой гиперссылку. Например, слова «Билл Клинтон» являлись
якорным текстом для многих ссылок, ведущих на портал whitehouse.gov, чтобы этот сайт
появлялся среди верхних результатов, когда пользователь искал слова «Билл Клинтон».
При этом на стартовой странице сайта whitehouse.gov имя Билла Клинтона не было по-
особенному расположено или выделено. Тем временем конкурирующая поисковая
система на запрос «Билл Клинтон» в качестве первого результата поиска выдавала сайт
«Анекдот дня от Билла Клинтона».
Поисковой системе Пейджа и Брина приходилось иметь дело с огромным количеством
страниц и ссылок, в частности, поэтому они назвали ее Google. Гугол (googol) — это
число, состоящее из единицы и сотни нулей. Название предложил Шон Андерсон,
аспирант из Стэнфорда, с которым Пейдж и Брин делили учебную комнату. Оказалось,
что домен Google свободен, и Пейдж моментально его купил. «Мне кажется, мы не
поняли, что сделали орфографическую ошибку, — позднее признается Брин. — Но
googol все равно был занят. Какой-то парень уже купил домен Googol.com и не хотел с
ним расставаться, сколько я его ни уговаривал. Поэтому мы оставили себе Google». Это
было забавное слово. Оно хорошо запоминалось и легко превращалось в глагол.
Пейдж и Брин развивали Google в двух направлениях. Во-первых, они улучшали
техническое оснащение своего проекта: были значительно увеличены пропускная
способность интернет-канала, вычислительная мощность серверов и объем их памяти.
Здесь они обошли всех конкурентов. Имея такие ресурсы, их поисковые роботы могли
индексировать сотни страниц в секунду. Во-вторых, Пейдж и Брин фанатично изучали
поведение пользователей, чтобы постоянно корректировать свои алгоритмы. Если
пользователь кликал по верхним результатам и больше не возвращался в Google, это
означало, что он нашел то, что искал. Однако если человек проходил по предложенным
ссылкам, но тут же возвращался на страницу поиска и изменял свой запрос, значит, он
был недоволен результатами. В таком случае инженерам следовало рассмотреть
отредактированный запрос и понять, что же пользователь изначально пытался найти.
Если же пользователи проматывали две или три страницы с результатами, то, значит, их
не устраивал порядок выведения ссылок. Как заметил журналист Стивен Леви,
благодаря постоянному потоку обратной связи разработчики Google узнали, что
пользователи могут набирать «собаки», но искать при этом щенков или что слово
«кипячение» может означать горячую воду. В конечном итоге Google научится
«понимать», что запрос «хот-дог» («горячая собака») не имеет отношения к кипячению
щенков.
Один человек придумал похожую на PageRank систему оценки ссылок. Это был
китайский инженер Янхон (Робин) Ли, который закончил Университет штата Нью-Йорк в
Буффало и устроился в отделение агентства Dow Jones в Нью-Джерси. Весной 1996 года
Пейдж и Брин работали над PageRank, а Ли написал алгоритм RankDex, позволявший
сортировать результаты поиска по тому, сколько входящих ссылок вело на предлагаемые
страницы и какие слова являлись якорным текстом этих ссылок. Ли купил самоучитель
по патентованию и при помощи Dow Jones запатентовал свой алгоритм. Однако
компания несильно интересовалась разработками Ли, поэтому он переехал на запад и
обосновался в компании Infoseek, а затем вернулся в Китай. Там он выступил
сооснователем поисковой системы Baidu, которая стала лидером китайского рынка и
одним из основных конкурентов Google на мировом рынке.
К началу 1998 года в базе данных Пейджа и Брина имелись карты, содержащие
приблизительно 518 миллионов гиперссылок из существующих 3 миллиардов. Пейдж не
хотел, чтобы система Google осталась научным проектом, и мечтал видеть ее
популярным коммерческим продуктом. «У Николы Теслы была похожая проблема, —
говорит Пейдж. — Изобретаешь прекрасную (по твоему мнению) вещь и хочешь, чтобы
люди ею пользовались как можно скорее».
Поскольку Пейдж и Брин собирались превратить свою диссертацию в бизнес-проект, они
не жаждали публиковать материалы своих исследований или проводить презентации.
Однако их научные руководители настаивали на публикации, и весной 1998 года Пейдж
и Брин написали статью длиной двадцать страниц. В ней они описали теоретическую
базу, лежащую в основе PageRank и Google, но так, чтобы не раскрыть конкурентам все
свои карты. Статья называлась «Анатомия системы крупномасштабного гипертекстового
веб-поиска», а доклад по ней был сделан на конференции в Австралии в апреле 1998
года.
«В данной работе мы представляем Google, прототип крупномасштабной поисковой
системы, которая активно использует структуру гипертекста», — так начиналась статья.
Приятели создали карты, содержащие более полумиллиарда из 3 миллиардов ссылок
интернета, что позволило вычислить рейтинг PageRank для минимум 25 миллионов веб-
сайтов. А по заверениям Пейджа и Брина, люди в целом связывают этот рейтинг «с
субъективным понятием авторитетности». Далее они в деталях описывали «простой
итеративный алгоритм», который рассчитывал PageRank для каждой страницы. «Мы
изучили научные источники о цитировании и применили полученные знания к интернет-
ресурсам, что по большей части означало, что мы подсчитали частоту цитирования
каждой страницы или количество входящих ссылок. Так мы получили приближенные
значения „влиятельности“ или надежности страницы. PageRank позволял смотреть
глубже, поскольку при расчете рейтинга ссылкам с разных страниц назначалась разная
ценность».
В статье приводилось много технических деталей о рейтинге, поисковых роботах,
индексации данных и итеративном алгоритме. Несколько абзацев было посвящено
перспективным направлениям исследований. Однако к концу статьи становилось ясно,
что целью Пейджа и Брина было не решить математическую задачку или приумножить
научное знание. Они явно закладывали основы для запуска коммерческого продукта.
«Система Google разработана как масштабируемая поисковая система, — писали они в
заключении. — Наша основная задача — обеспечить высокое качество поиска».
Возможно, Пейджу и Брину пришлось бы нелегко в других университетах, где
исследования считались способом реализации научных интересов, а не коммерческих.
Однако в Стэнфорде студентам не просто разрешалось вести бизнес-проекты, такие
инициативы поощряли и поддерживали. В университете даже существовала служба,
которая помогала студентам патентовать и лицензировать свои разработки. «В
Стэнфорде имеются все условия для развития предпринимательства и проведения
исследовании, связанных с риском, — утверждает президент университета Джон
Хеннесси. — Люди здесь действительно понимают, что иногда лучший способ повлиять
на мир — это не написать научную работу, а взять перспективную, на ваш взгляд,
технологию и сделать из нее что-то стоящее».
Пейдж и Брин пытались продать права на свое программное обеспечение другим
компаниям. В частности, они встречались с руководителями Yahoo! Excite и AltaVista и
просили за свой сервис один миллион долларов. Сумма не была заоблачной, поскольку
покупатель получил бы все патенты и двух сотрудников в лице Пейджа и Брина. «Тогда
те компании стоили сотни миллионов или даже больше, — вспоминает Пейдж. — Для
них это была бы не такая большая трата. Но руководители этих корпораций не видели
дальше собственного носа. Многие из них сказали нам, что „поиск не столь важен“».
В результате Пейдж и Брин основали собственную компанию. Им повезло: в нескольких
километрах от кампуса располагались преуспевающие компании, владельцы которых
были готовы вложиться в молодой бизнес, а чуть дальше по Сэнд-Хилл-роуд обитали
венчурные фонды. Пейджу и Брину нужен был оборотный капитал. Преподаватель
Стэнфорда Дэвид Черитон и инвестор Энди Бехтольшайм основали компанию по
продаже оборудования для сети Ethernet, которую затем приобрела Cisco Systems. В
августе 1998 года Черитон предложил Пейджу и Брину встретиться с Бехтольшаймом,
который также был сооснователем Sun Microsystems. Брин написал ему электронное
письмо и мгновенно получил ответ. Рано утром следующего дня они все встретились в
доме Черитона в Пало-Альто.
В столь ранний час, когда большинство студентов неспособно собраться с мыслями,
Пейдж и Брин смогли убедительно представить свою поисковую систему. Они
продемонстрировали, что могут загрузить, индексировать и рассортировать по рейтингу
большую часть интернет-сайтов, используя мини-компьютеры, размещенные в
телекоммуникационных стойках. Эта встреча проходила в разгар бума доткомов, и
Бехтольшайм задавал вопросы, которые обнадеживали приятелей. К нему каждую
неделю приходило немало разработчиков, которые показывали презентации PowerPoint о
каком-то фантомном, еще не существующем программном обеспечении. А в случае с
Do'stlaringiz bilan baham: |