Ричард Харрис: Забудьте про big data… встречайте машинное обучение
Ричард Харрис, директор и основатель Intent Media рассказывает о том, какое будущее человеко-машинного взаимодействия ждет онлайн-бронирование в сфере туризма

Ричард выступит на Travel Tech Conference Russia. А мы публикуем перевод поста Ричарда о том, почему стоит забыть про big data и обратить взоры на машинное обучение.
Каждый день в мире создается целых 2,5 квинтиллиона байт. Пишется это так: 2 500.000.000.000.000.000. Для того, чтобы лучше понять, сколько это: на один символ слова, которое вы сейчас читаете, приходится 1 байт данных. 2,5 квинтиллиона знаков – это 705 миллиардов копий Библии Короля Якова, в каждом экземпляре которой содержится свыше 780 000 слов. Если положить книги друг на друга, то получится башня высотой в 384 633 км, которая устремится ввысь – в небо, через космос, дойдет до Луны… и так 400 раз.
Ну, а здесь, на Земле, мы продолжим генерировать по 3,6 млн Google-поисков, 103 млн спам-сообщений, 15 млн смс и 18 млн запросов о прогнозе погоды… каждую минуту. Стоит ли удивляться тому, что фразой «big data» теперь бросаются на каждом углу?

Данные не решают проблем… но машинному обучению это под силу
Говоря о важности всех этих гигантских объемов данных, не могу не поделиться одним маленьким секретом … данные – бесполезны. Сами со себе данные не содержат какого-либо смысла и не несут никакой ценности. Чтобы извлечь выгоду из создаваемой нами информации, необходимо сначала отсортировать данные, разделить их на подходящие и не подходящие, определиться с шаблонами и приспособить данные для работы, используя череду сложных предсказаний всевозможных значений. Несомненно, такая задача непосильна даже для наисветлейших умов землян без использования вспомогательных ресурсов.

Вспомним китайскую игру Го. «Что может быть общего между необъятными квадрильонами байт данных с 2500-летней игрой с черно-белыми камешками?». Считается, что в Го, с ее 361 движимым камнем, существует больше положений, чем атомов во всей Вселенной. Лучшие игроки руководствуются интуицией, просчитывая шаги и предугадывая результат на запредельном уровне, не подвластном когнитивному восприятию. Из-за этого Го крайне привлекательная для исследователей машинного обучения (МО), задавшихся целью сымитировать человеческие возможности. В 2016 году система AlphaGo от Google DeepMind одержала победу у действующего чемпиона мира по Го Ли Седоля, используя «глубокую нейронную сеть», обученную на 30 млн ходах человеческих игроков. Анализируя представленные шаги AlphaGo научилась совершенствовать собственный выбор, став лучшим игроком в Го в мире. Самое удивительное здесь то, что в некоторых аспектах машинное обучение уже превосходит аналитические способности человека.

Но машинное обучение присутствует не только в навороченных научных лабораториях у исследователей данных, решающих редкие интеллектуальные проблемы. Из десятков миллиардов долларов, которые компании ежегодно инвестируют в искусственный интеллект, порядка 60% идет на машинное обучение, продвигающее реальные решения на рынке.

Машинное обучение – это не магия, но работает оно на удивление классно.
Одной из областей с огромным потенциалом для машинного обучения является индустрия бронирования в туризме. В 2016 году объем онлайн-продаж туров по всему миру превысил отметку в $550 млрд. Ожидается, что к 2019 году эта цифра дойдет до отметки в $100 млрд в год. Но из сотен миллионов туристов, прибегающих к услугам онлайн-менеджеров по туризму, менее 5% на самом деле завершают бронирование.

Что тут происходит? Как нам понять столь противоречивые данные?
На помощь приходит машинное обучение. В Intent Media мы тренировали системы МО на миллиардах просмотров туристических сайтов с онлайн-бронированием, стараясь извлечь полезную информацию о том, как именно туристы покупают что-либо. Мы обнаружили то, что каждый посетитель отправляет сотни отдельных «сигналов»: демографических, поведенческих и контекстных точек данных, которые генерируются во время сессии онлайн-покупки. С машинным обучением туристические сайты могут использовать данные сигналы для сегментации покупателей по различным типам и создания более точного предсказания их поведения в течение всей операции.

Готов ли этот посетитель совершить покупку именно сейчас? Может ли заманчивое предложение в этот конкретный момент времени довести его до осуществления покупки? Стоит ли перенаправить его рекламным сообщением? Или же нам попалась категория посетителей, про которых говорят, «что рыба сорвалась с крючка»? Также, как и в рассмотренном ранее примере игры Го, хорошо натренированные системы МО просчитывают все возможные варианты одновременно, в режиме реального времени, и реализуют тактику взаимодействия, которая с максимальной вероятностью принесет ценность для каждого посетителя. Взращенная на полноценной диете из отобранных данных, наша система машинного обучения узнает о намерениях пользователя быстрее, чем он сам. Вот это действительно грандиозно.

Но все-таки, машинное обучение – это не магия, поэтому работа по научению систем МО не закончится никогда. После количественного определения пользователей, мы все равно должны вновь и вновь возвращаться к А/В тестированию результатов предсказаний моделей МО и контрольных групп: подсчитывать и сегментировать пользователей, размещать и проверять машинные предсказания, добавлять полученные результаты в нашу постоянно совершенствующуюся систему искусственного интеллекта. Зачем нам проходить через столь архисложный и итеративный процесс? Все просто… это окупается. За восемь лет работы поддерживаемые нами туристические сайты монетизировали на машинном обучении миллиарды долларов дополнительной прибыли.

Будущее машин – это будущее человечества
Несмотря на, что в последние годы отмечался плавный переход машинного обучения от теории к практике, оно все еще находится в зачаточном состоянии. И это здорово. В течение следующих десяти лет МО станет таким же незаметным и полномасштабным спутником нашей жизни, как это уже произошло в сфере туристического бронирования.

Ну а что насчет тех «полетов до Луны и обратно»? График прироста данных похож на хоккейную клюшку. Объем информации настолько велик, что Microsoft успешно экспериментирует с решением проблемы сохранения всех этих данных в самой плотной из ныне существующих сред хранения – той, которая сможет удерживать целый квинтильон данных в одном кубическом миллиметре – ДНК. Колоссальные объемы информации появляются настолько быстро, что их не сможет обработать ни один человеческий ум без посторонней помощи.

Машинное обучение готово помочь в создании новых способов ведения бизнеса и жизни. Как недавно сказал Джефф Безос: «Сейчас с помощью машинного обучения и искусственного интеллекта мы можем решать проблемы, которые не один десяток лет относились к разряду фантастики».
Узнайте о новых трендах и расширьте круг профессиональных знакомств