За стеной фильтров. Что Интернет скрывает от вас?, стр. 7

Естественно, эта система работала не только с электронной почтой. Tapestry, по словам ее создателей, была «разработана для управления любым потоком входящих электронных документов. Электронная почта лишь один из примеров такого потока; другие примеры — ленты информагентств и статьи онлайн-форумов» [61].

Tapestry представила миру коллаборативную фильтрацию, но в 1990 году такая услуга была не очень интересна. Интернет насчитывал всего несколько миллионов пользователей; он оставался маленькой экосистемой, и информации, подлежащей сортировке, было не так уж много, а пропускная способность каналов — не столь велика. Так что много лет коллаборативная фильтрация оставалась уделом компьютерных исследователей и скучающих студентов. Если бы в 1994 году вы отправили на адрес [email protected] список альбомов, которые вам нравятся, то получили бы в ответ письмо с рекомендациями новой музыки и рецензиями. На сайте сообщалось, что «один раз в час сервер обрабатывает все входящие сообщения и отправляет ответы» [62]. Это был ранний предшественник Pandora [63] — персонализированный музыкальный сервис для эпохи, когда широкополосного Интернета еще не существовало.

Но когда в 1995 году стартовал Amazon, все изменилось. С самого начала этот сайт представлял собой книжный магазин со встроенной персонализацией. Изучая, какие книги люди покупают, и используя методы коллаборативной фильтрации, изобретенные в PARC, Amazon мог выдавать рекомендации мгновенно. (О, вы берете «Руководство для чайников по фехтованию»? Может, возьмете еще «Очнулся слепым: судебные иски в связи с травмой глаза»?) И, отслеживая покупки, через какое-то время Amazon мог выделять пользователей с похожими предпочтениями. («Другие люди, которым нравится то же, что и вам, приобрели новинку этой недели—"Ангард!"») Чем больше книг люди покупали на Amazon, тем точнее была персонализация.

В 1997 году Безос обслужил первый миллион покупателей. Спустя полгода — два миллиона. А в 2001 году компания впервые получила квартальную прибыль: это был один из первых бизнесов, доказавших, что в онлайне можно делать серьезные деньги.

И хотя Amazon не мог в полной мере передать атмосферу местного книжного магазинчика, система персонализации работала весьма неплохо. Топ-менеджеры держат язык за зубами и не признаются, какую долю выручки она обеспечивает, но часто называют этот механизм ключевым элементом успеха компании.

На Amazon идет нескончаемая погоня за пользовательскими данными: когда вы читаете книги на ридере Kindle, информация о фразах, которые вы выделяете, страницах, которые вы переворачиваете, и о том, читаете ли вы внимательно или пролистываете, отправляется на серверы Amazon и используется, чтобы определить, какие книги могут вам еще понравиться. Если вы зайдете на сайт после дня на пляже с Kindle, Amazon может слегка изменить страницу, чтобы ее содержание соответствовало тому, что вы только что прочли. Если вы полдня читали новый роман Джеймса Паттерсона и лишь мельком заглянули в руководство по диете, то вы, возможно, увидите на первой странице сайта больше триллеров и куда меньше книг о здоровье [64].

Пользователи Amazon так привыкли к персонализация, что сайт теперь использует обратный трюк, чтобы заработать еще больше денег. Издатели платят за размещение книг в традиционных магазинах, но не могут купить мнения продавцов. Однако, как и предсказывал Ланир, подкупить алгоритм нетрудно: заплатите Amazon достаточную сумму, и ваша книга будет продвигаться под видом «объективной» рекомендации собственного софта сайта [65]. Большинство клиентов не способны отличить одно от другого.

Amazon доказал, что релевантность может обеспечить доминирующие позиции в отрасли. Но затем на сцену вышли два аспиранта из Стэнфорда, которые применили принципы машинного обучения ко всему миру онлайн-информации.

Клик — это сигнал

Когда новая компания Джеффа Безоса только начинала работу, основатели Google Ларри Пейдж и Сергей Брин занимались своими докторскими диссертациями в Стэнфорде. Они знали об успехе Amazon: в 1997 году «пузырь доткомов» раздувался вовсю, и Amazon — по крайней мере на бумаге — стоил миллиарды. Пейдж и Брин были математическими гениями; первый, в частности, был одержим темой искусственного интеллекта. Но их интересовала другая проблема. Что если использовать компьютерные алгоритмы не для более эффективной продажи товара, а для сортировки сайтов?

Пейдж изобрел новаторский подход к такой сортировке и с присущей компьютерным гикам склонностью к игре слов назвал его PageRank [66]. Большинство компаний, занимавшихся интернет-поиском в то время, сортировали страницы по ключевым словам и едва ли могли оценить, насколько первые соответствуют вторым. В статье, опубликованной в 1997 году, Брин и Пейдж сухо отмечали, что три из четырех крупнейших поисковых машин не могут найти сами себя. «Мы хотим, чтобы наша концепция "релевантности" распространялась только на лучшие документы, — писали они, — поскольку пользователю могут быть доступны десятки тысяч лишь слегка релевантных документов» [67].

Пейдж понял, что в пронизанной ссылками структуре Сети кроется гораздо больше данных, чем могут использовать большинство поисковых машин. Тот факт, что одна страница содержит ссылку на другую, можно считать «голосом» в пользу второй. Пейдж наблюдал за тем, как стэнфордские профессора считают, сколько раз их статьи были процитированы, и составляют таким образом примерный рейтинг своей значимости. Он прикинул, что сайты, на которые часто ссылаются — например, главная страница Yahoo, — могут, подобно академическим статьям, считаться более значимыми, а те, за которые они «голосуют», тоже значат больше. Весь этот процесс, как утверждал Пейдж, «опирается на уникальную демократическую структуру Сети».

В те дни Google обитал на сайте google.stanford.edu, и Брин с Пейджем были убеждены, что сервис должен оставаться некоммерческим и свободным от рекламы. «Мы считаем, что поисковые машины, финансируемые за счет рекламы, будут неизбежно склоняться в сторону нужд рекламодателей, а не нужд потребителей, — писали они. — Чем лучше поисковая система, тем меньше сообщений понадобится потребителю, чтобы найти искомое… мы уверены, что вопрос о рекламе создает достаточно неоднозначные стимулы, и поэтому крайне важно иметь конкурентоспособную поисковую систему, которая прозрачна для пользователей и остается в академической сфере» [68].

Но когда они запустили бета-версию сайта на просторы Интернета, трафик зашкалил. Google действительно работал — внезапно он стал лучшей поисковой машиной Интернета. Вскоре искушение сделать на этом бизнес оказалось слишком сильным, и основатели Google, которым было по двадцать с небольшим, не смогли перед ним устоять.

По легенде, именно алгоритм PageRank вознес Google на вершину мирового господства. Я подозреваю, что компании нравится эта версия: это ясная, простая история, привязывающая успех поискового гиганта к одному гениальному прорыву, совершенному одним из основателей. Но с самого начала PageRank был лишь малой частью проекта Google. На самом деле Брин и Пейдж поняли вот что: ключ к релевантности, к сортировке массы данных в Интернете — это… еще больше данных.

Брину и Пейджу был важен не только сам факт, что страница ссылается на другую. Позиция ссылки, ее размеры, возраст страницы — все эти факторы имели значение. С годами Google стал называть эти путеводные нити, скрытые в данных, «сигналами».

вернуться

David Goldberg, David Nichols, Brian M. Oki and Douglas Terry. Using Collaborative Filtering to Weave an Information Tapestry. Communications of the ACM 35 (1992), no. 12:61.

вернуться

Upendra Shardanand. Social Information Filtering for Music Recommendation (graduate diss., Massachusetts Institute of Technology, 1994).

вернуться

Популярное интернет-радио, подсказывающее пользователям новую музыку исходя из их предпочтений. Прим. пер.

вернуться

Martin Kaste. Is Your E-Book Reading Up On You? NPR.org, Dec. 15, 2010, http://www.npr.org/2010/12/15/132058735/is-your-e-book-reading-up-on-you.

вернуться

Aaron Shepard. Aiming at Amazon: The NEW Business of Self Publishing, Or How to Publish Your Books with Print on Demand and Online Book Marketing (Shepard Publications, 2006), 127.

вернуться

Фамилия Пейдж (Page) в переводе с английского означает «страница». Прим. пер.

вернуться

Sergey Brin and Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Section 1.3.1.

вернуться

Brin and Page. Anatomy of a Large-Scale Hypertextual Web Search Engine. Section 8 Appendix A.