Путешествие от данных к интеллекту

Изучение перспектив и проблем, которые несет с собой новая эра принятия решений на основе данных для финансовой индустрии.

В настоящее время мы являемся свидетелями начала мощной приливной волны, которая может оказать долгосрочное воздействие на нашу цивилизацию в течение последующих поколений. Вот-вот начнется новая эра, время, когда наука и техника призваны решать и решать некоторые из самых важных задач нашего времени. Этот призыв к действию вызван мощным общественным спросом, подобного которому еще никто не видел, в то время как новаторские технологические достижения последних десятилетий, наконец, делают эти цели достижимыми.

Доктор Джим Крэй, один из величайших американских ученых-компьютерщиков 20-го века и лауреат премии Лэннинга, предсказал наступление этой новой эры более десяти лет назад. Он назвал это эпохой исследования данных , или время, когда теория, экспериментирование и моделирование объединятся, чтобы решить некоторые из самых важных проблем нашего времени. Эта новая парадигма в корне изменит способы функционирования многих отраслей промышленности и, в частности, произведет революцию в структуре будущей рабочей силы.

Эпоха исследования данных

В самом начале эмпиризм был главным методом исследования и представлял собой первую парадигму научного открытия. В эпоху Возрождения возникла вторая парадигма, которая характеризовалась использованием теоретических моделей и обобщений, основанных на экспериментах. В результате этой парадигмы было создано много теорий, от законов движения Ньютона до уравнений Максвелла. Более 400 лет назад Иоганн Кеплер использовал каталог систематических астрономических наблюдений и открыл законы движения планет. Это историческое событие стало первым документально подтвержденным использованием экспериментальных данных для создания научных теорий. Появление компьютеров в 20 веке ознаменовало переход к третьей парадигме, которая сделала возможным новый тип научной методологии - компьютерное моделирование.

Созревание наиболее важных технологических достижений последних двух десятилетий внесло свой вклад в генерацию огромных объемов данных и в рождение так называемой эпохи больших данных. В настоящее время огромные объемы научных, промышленных и коммерческих данных собираются в режиме реального времени. Последние достижения в области высокопроизводительных вычислений и аппаратного ускорения (например, GPU и 1 PCi As) в сочетании с новыми открытиями в области алгоритмической обработки создали условия для применения сложных алгоритмов машинного обучения к различным практическим задачам. Эти новые технологии создали условия для того, чтобы стало возможным проведение интенсивных научных исследований с использованием данных, и которые лежат в основе четвертой парадигмы научных открытий.

Весь этот научно-технический прогресс окажет революционное воздействие на многие отрасли промышленности, и, как обычно, ожидается, что финансовая отрасль будет находиться в авангарде процесса внедрения. Принятие решений на основе данных - это новая концепция, которая уже пробивает себе дорогу в современном финансовом мире. Как высокочастотная торговля, так и инвестиции с более длительным временным горизонтом все больше зависят от крупномасштабного анализа данных, поскольку использование альтернативных данных становится повсеместным. Это начало новой эры, когда бизнес-решения будут приниматься на основе данных и подкрепляться алгоритмами.

Определение данных и их полезность.

Поскольку понятие данных занимает центральное место в четвертой парадигме научного открытия, необходимо дать ему правильное определение. Данные - один из наиболее часто используемых терминов в современной культуре, но каков реальный смысл этого понятия? По мнению экспертов, "данные представляют собой совокупность - неорганизованные и необработанные факты, необработанные числа, цифры, образы, слова и звуки, полученные в результате наблюдений или измерений.” Очень часто, хотя и неверно, данные и информация используются взаимозаменяемо, хотя с точки зрения теории информации, данные являются предшественником информации, характеризуемой ее мерой энтропии Шеннона: “информационная энтропия - это средняя скорость, с которой информация производится стохастическим источником данных." Слово data присутствует в английском языке с 1640 года, но оно стало часто использоваться в 1940-х годах, на заре компьютерной эры.

Происхождение слова data происходит от латыни, где данные - это множественное число от datum, что означает “данная вещь". Однако в современном английском языке данные рассматриваются как недифференцированная коллекция и обычно используются в единственном числе. Данные - это общее понятие, которое используется для кодирования информации и знаний в форматы, пригодные для компьютерной обработки. Как неопределенный набор вещей (фактов, цифр или символов), данные обычно получают путем измерений, а после сбора они анализируются и представляются в виде графиков, изображений и других статистических и обобщающих инструментов. Будем определять данные как артефакт, используемый для кодирования окружающей действительности. Он представляет собой ортогональное измерение концепции алгоритма, который является комплементарным устройством, используемым для декодирования одной и той же реальности. С точки зрения физиков, данные - это не что иное, как вестник окружающей действительности и отражение ее явлений, а с точки зрения информатики-это кодирование свойств изучаемых объектов.

Решение задач возрастающей сложности требует более качественных данных и более совершенных алгоритмов обработки. Человеческая активность ежедневно создает несколько квинтиллионов байт данных, и это представляет собой уникальную возможность для обработки, анализа и использования информации способами, которые были невозможны до самого недавнего времени. Однако извлечение информации, содержащейся в таком огромном количестве сложных данных, является сложной задачей для традиционных математических методов. Необходимы новые методы, имитирующие человеческое мышление и способные использовать неполную и неточную информацию. Такие методы называются методами вычислительного интеллекта и все чаще применяются в финансовой торговле для выработки решений и прогнозов путем обработки огромных объемов данных, которые люди не в состоянии обработать. Финансовая торговля и инвестиции зависят от точных исходных данных, которые вводятся в модели принятия бизнес-решений, которые традиционно обрабатывались людьми, которые делали суждения на основе этих исходных данных. В настоящее время эта функциональность обеспечивается системами информатики, которые могут вычислять в огромных масштабах и извлекать информацию из множества источников для принятия более эффективных решений практически мгновенно. Однако следует подчеркнуть, что полезность данных может быть измерена только нашей способностью извлекать из них действенный интеллект. Этот процесс трансформации довольно непрозрачен, часто неправильно понимается и очень специфичен для конкретной области.

От данных к интеллекту

Мы живем в такое время, когда такие термины, как большие данные, искусственный интеллект постепенно завоевывают внимание. Эти термины используются для выражения стремления к техническому прогрессу, и чаще всего они порождают своего рода культурный всплеск. Один из наиболее важных вопросов, который следует задать, касается возможности достижения машинного кодируемого интеллекта с помощью использования Больших Данных и вычислительных средств. Другими словами, является ли интеллект вычислимым (кодируемым) при использовании чрезвычайно больших объемов данных? Достаточно ли данных для эмуляции интеллекта? Ответ, очевидно, спорный и сильно зависящий от респондента. Для того чтобы упростить понимание огромной сложности применения машинно-кодируемых методов к практическим задачам, необходимо исследовать роль данных в процессе достижения интеллекта. Цель этой статьи - кратко описать общий процесс извлечения интеллекта из данных. Необходимо определить ряд терминов, которые обычно используются (например, данные, информация, знания и интеллект), а затем описать процесс, который перегоняет необработанные данные в интеллект.

Способность извлекать практические выводы из данных абсолютно необходима для научных открытий и инновационного процесса. В последнее десятилетие появилось новое междисциплинарное направление-наука о данных. Его инструментарий охватывает широкий спектр областей, от математики и статистики до информатики, а также более специализированные научные методы. Извлечение действенных инсайтов из данных - это очень сложное преобразование, которое включает в себя перегонку данных в значимую информацию и кодирование ее в знания, чтобы в конечном итоге достичь желаемого результата - разумного интеллекта. Это можно назвать путешествием от данных к интеллекту (см. Рис. 1).

Этот процесс изучался в течение некоторого времени, и есть несколько версий, которые были предложены. От Кеннета Боулдинга (1955) до Рассела Акоффа (1989) многие исследователи пытались смоделировать преобразование данных в более совершенную форму. Этот процесс состоит из нескольких этапов, как описано ниже. Через восприятие сигналы улавливаются из окружающей среды в наиболее сырой и нефильтрованной форме - в виде данных. Эта цифровая руда может быть набором символов, сигналов или просто набором фактов. Результаты первоначального процесса фильтрации в сочетании с контекстуализацией данных позволят выявить закономерности, которые в свою очередь будут структурированы в информацию. Данные считаются элементом "ничего не знаю", поскольку удобство использования этой нерафинированной формы ограничено. Хотя большинство определений относятся к абстрактной природе данных, можно использовать различные категории абстракций, основанные на типе данных:

(1) символы располагаются на самом высоком уровне абстракции в этом слое, и они представляют свойства объектов, которые закодированы в виде чисел, графиков, изображений или слов. Эти символы являются строительными блоками коммуникационного процесса, и они должны быть захвачены и сохранены с целью моделирования и понимания процессов, которые отвечают за их генерацию.

(2) сигналы находятся в большей степени в субъективной области, потому что они воспринимаются либо через наши пять органов чувств, либо другими типами датчиков. Этот тип субъективных данных связан с эмпирическим знанием, особым типом знания, основанным на непосредственном опыте стимулов и в меньшей степени на фактических данных

(3) факты - это особый тип данных, которые считаются фактологически истинными, поскольку они отражают объективную реальность и могут быть проверены. Это устраняет любые ложные или бессмысленные данные.

Независимо от категории абстракции данных, процесс фильтрации приведет к более совершенной форме, которая будет структурирована, организована и полезна - или то, что называют информацией. Например, финансовые данные, такие как фундаментальные данные, рыночные данные (цены, объемы, дивиденды), новости, а также альтернативные данные, являются входными данными в процесс фильтрации. Эти данные, как структурированные, так и неструктурированные, не имеют большой ценности без надлежащей контекстуализации и структурирования, которые достигаются на этапе анализа. Как только данные контекстуализируются и структурируются в информацию, можно определить набор шаблонов и построить модели. Это повысит предсказуемость, поскольку информационные паттерны могут быть закодированы в знания. Процесс фильтрации управляется задаванием вопросов, первым из которых является “что?” вопрос. Ответ на этот вопрос позволит выявить взаимосвязи и выявить закономерности в очень описательных формах. Как только данные обогащаются смыслом, они становятся информацией. Связь между данными и информацией можно рассматривать либо как функциональную, либо как просто структурную. В зависимости от используемой абстракции данных (т. е. символической, субъективной или фактической) генерируемая информация может быть символического или субъективного типа или их комбинации. Иногда информация также приравнивается к ноу-хау. - Структурирование финансовых данных в информацию позволяет проводить моделирование. Например, ставки и предложения могут быть объединены в структуру данных книги лимитных ордеров, которая представляет собой базовый артефакт, используемый в исследованиях микроструктуры рынка.

Информация, собранная на этапе анализа, обрабатывается далее, чтобы обнаружить закономерности и извлечь из нее знания. Знания - это очень ценный актив, и они будут обновляться по мере появления новых технологий. Как только знание (или ноу-хау) получено, оно может быть применено к реальным проблемам для достижения конечной цели - приобретения интеллекта. Знание - это гораздо более абстрактное и сложное понятие, чем информация. Его можно представить себе как карту мира, запечатленную в человеческом мозгу. Эта карта помогает узнать, где находится информация. Мозг связывает всю информацию вместе в гигантскую сеть идей, воспоминаний, предсказаний и убеждений. Процесс принятия решений обычно основывается на этой карте и не обязательно на реальных фактах. Человеческий мозг постоянно обновляет эту карту, основываясь на сигналах, поступающих от сенсорных рецепторов. По сравнению с этим компьютеры не понимают, что они обрабатывают, и не могут принимать решения, которые не зависят от входных данных, - следовательно, компьютеры не проявляют сознания в человеческом смысле.

Согласно древнегреческому философу Платону, знание характеризуется “личностно - оправданной верой в то, что оно считается истинным? Различие здесь между субъективным знанием и субъективной информацией состоит в том, что первое характеризуется обоснованным убеждением, а второе - описанием смысла данных. Обнаружение паттернов является одним из основных методов, используемых в финансовой области для извлечения полезных знаний из информации. От обнаружения изменений режима в финансовых временных рядах до генерирования полезных сигналов для торговых стратегий, фаза обнаружения паттернов является абсолютно необходимой в процессе достижения разумных решений в торговле и инвестировании.

Последняя фаза процесса трансформации - это структурирование знания (обоснованного убеждения) в более качественную форму - интеллект. Интеллект можно определить как способность использовать знания для решения проблем, проявлять творческий подход, приспосабливаться к новым ситуациям и извлекать уроки из прошлого опыта. Эта способность - чисто человеческая черта, и главная цель искусственного интеллекта - создать набор инструментов, который мог бы в конечном итоге подражать ей. Интеллект - это обычно слабо определенное понятие. Американский психолог Р. Дж. Штернберг однажды сказал, что " кажется, существует почти столько же определений интеллекта, сколько было экспертов, которых попросили дать ему определение."Несмотря на долгую историю исследований и дискуссий, до сих пор нет стандартного определения интеллекта. Среди очень многих определений интеллекта наиболее общим представляется утверждение 52 экспертов: “интеллект - это очень общая умственная способность, которая, помимо всего прочего, включает в себя способность рассуждать, планировать, решать проблемы, абстрактно мыслить, понимать сложные идеи, быстро учиться и учиться на опыте."В непрофессиональных терминах интеллект обычно определяется как способность достигать сложных целей, и процесс его достижения может быть представлен в двумерном пространстве - степень понимания в сравнении со сложностью.

Типичным примером в количественных финансах является проблема оптимального исполнения. Способность достичь оптимальной скорости исполнения зависит от поведения и склонности к риску участников рынка. В процессе обучения и адаптации к состоянию рынка интеллектуальному агенту придется иметь дело с системой переменных высокой размерности, поскольку наблюдаемое состояние рынка потенциально может эволюционировать в почти бесконечное число других состояний рынка. В такой среде набор возможных активных параметров (например, время заказа, цена или размер) очень велик и плотен. Решение такой нестационарной и многомерной задачи требует процесса обучения, который постоянно взаимодействует с окружающей средой (участниками рынка).

Достижение интеллекта создает условия для того, чтобы в конечном итоге кристаллизовать все в высшую форму человеческой способности, которую называют мудростью, также известной как фактор "ноу-хау", или способность достигать прогресса. Мудрость подразумевает наличие здравого суждения, которое будет управлять процессом принятия решений. Его можно было бы также сформулировать как способность трансформировать сложность в простую полезную информацию.

Создание интеллектуальных решений на основе данных является конечной целью науки о данных, и количественные финансы являются одной из наиболее вероятных областей, чтобы воспользоваться этим процессом. Полезность данных и их побочных продуктов (информации и знаний) будет в конечном счете измеряться степенью интеллекта, достигнутой в конце процесса фильтрации, и способностью отвечать на такие вопросы, как “что лучше всего?"и “как оптимизировать?”

Выводы

Главная цель этой статьи состояла в том, чтобы привлечь внимание к основным моментам, а также к огромным вызовам, которые несет с собой новая эра принятия решений на основе данных для финансовой индустрии. Правильное определение используемой терминологии является хорошим первым шагом в продвижении понимания этого очень сложного предмета.

Данные были определены как артефакт, используемый для кодирования окружающей действительности, и, как таковой, они представляют собой наилучший доступный посредник генеративного процесса. Идея о том, что наличия большего количества данных достаточно для решения любой проблемы, просто неверна. Огромное количество доступных данных или наличие самых эффективных алгоритмов и самых быстрых вычислительных платформ не смогут волшебным образом компенсировать отсутствие понимания процесса, который генерирует данные. Сами по себе данные - это не более чем непрозрачный артефакт, который нужно захватить, отфильтровать, проанализировать и смоделировать, чтобы расшифровать из него истинное значение процесса, который его генерирует. Идентификация и понимание природы процесса, который генерирует данные, должно быть конечной целью науки о данных.

Эта статья призвана передать послание уверенности в возможностях, которые открывает новая эра исследования данных. Однако практикам необходимо иметь реалистичные ожидания относительно этих возможностей, поскольку переход от нынешней парадигмы обучения репрезентации (или обучения путем имитации - от данных - т. е. машинного обучения) к парадигме машинного сознания, где агент сможет принимать решения на основе независимого мышления (используя подход, более близкий к человеческому поведению), все еще является отдаленной вехой.

До тех пор, пока исследования в области когнитивных наук не достигнут большего прогресса в понимании того, как работает человеческий интеллект и как его можно эмулировать, специалисты по количественным финансам должны будут сосредоточить свои усилия на применении новых методов вычислительного интеллекта к своей конкретной проблемной области и сосредоточиться на улучшении аспектов автоматизации процесса, который преобразует финансовые данные в действенный рыночный интеллект.

(c)

#big data

Путешествие от данных к искусственному интеллекту

Комментарии: