Статья
«Impact of memory on human dynamics» (автор Alexei Vazquez), посвящена исследованию типовых сценариев человеческого поведения (Human activity patterns), знание которых критически важно для разработки эффективных систем, имеющих дело с совокупной активностью множества людей. Типичными примерами таких систем являются Call-центры, веб-серверы, транспортные магистрали или стратегии предотвращения распространения эпидемий.
От себя добавлю, что ECM-решения также являются примерами таких систем, поскольку в них агрегируется активность людей при выдаче поручений, обращении к архивам, согласовании документов, совместной работе и т.п.
Автор отмечает, что стохастичность человеческой динамики обычно моделируется Пуассоновским процессом с постоянным уровнем интенсивности либо с переменным, учитывающим сезонность процесса. Для объяснения экспериментально наблюдаемых особенностей статистического распределения интервалов времени между событиями в различных видах человеческой деятельности автор предлагает математическую модель, учитывающую наличие у человека памяти.
Рассмотрим человека и некоторую специфическую активность, в которую он или она часто вовлекается, такую, например, как отправка электронной почты. Тогда вероятность того, что человек выполняет какое-либо действие (событие) в данное время в предлагаемой модели зависит от предыстории: человек помнит предшествующий уровень активности и, основываясь на этом, ускоряет или замедляет текущий уровень. Математически это можно записать так: если лямбда(t) – вероятность того, что конкретный индивидуум выполняет какое либо действие в интервал времени от t до t+dt, то
где параметр a>0 определяет тип и степень реакции на прошлые события. Если a=0 – процесс стационарный, если a>1 – процесс ускоряется, если a<1 – процесс замедляется. Интервал времени Х между двумя последовательно выполняемыми событиями – случайная величина. Если предположить, что на коротких временных промежутках сохраняется пуассоновский процесс, а в более долгосрочной перспективе действует эффект памяти, то, как следует из предложенной модели, интегральное распределение вероятности Х описывается степенным законом. Проверка теоретических выкладок проводилась на основе анализа двух массивов данных. Во-первых, анализировались доступные исторические сведения о почтовой корреспонденции двух всемирно известных ученых: Чарльза Дарвина и Альберта Эйнштейна. Это не означает, что подвергалась перлюстрации именно переписка между Дарвином и Эйнштейном – просто рассматривалось совокупное количество писем, отправленное данными учеными всем своим корреспондентам с того момента, когда было написано первое из них (а за всю свою жизнь как Дарвин, так и Эйнштейн отправили более чем 6000 писем). Как видно из рисунка, общее количество отправленных писем показывает рост, более быстрый, нежели линейный и на отдельных участках эта зависимость хорошо представима степенным законом N(t)~t^2.7.
Так как 2,7>1, это значит, что мы имеем здесь ускоряющийся процесс. Другими словами, вероятность увидеть Дарвина или Эйнштейна за подготовкой исходящего письма в конце их жизни была существенно выше, чем в начале научной карьеры. Предлагаемая математическая модель предсказывает для данного случая также степенное распределение интервала времени между двумя событиями (отправка писем) с показателем степени 2,4. Близкое значение наблюдается и в действительности:
Вторым массивом проанализированных данных стала переписка по электронной почте, которую 3188 человек вели в течение 81 дня. Автор не сообщает подробности о месте и обстоятельствах сбора данной информации, но упоминает, что в данном массиве в среднем на одного человека за два дня приходится отправки исходящего сообщения по электронной почте. Из этого можно предположить, что местом сбора информации, скорее всего, был университет, а не коммерческая компания или социальная сеть.
В данном случае, по мнению автора, имеет место замедление процесса в течение рабочего дня, что также приводит к степенному закону распределения интервала времени между двумя последовательно отправляемыми сообщениями электронной почты. На рисунке ниже график, представленный черными точками, соответствует событиям внутри одного дня, а график, показанный белыми точками, учитывает также и события, разделенные несколькими днями. Виден характерный пик, связанный с ежедневными повторами людьми однотипных действий.
В заключение работы автор подчеркивает важность интегральных эффектов для формирования степенного распределения, указывает на связь данной работы с другими, в которых изучалось распределение времени ответа на полученное сообщение и выражает надежду на дальнейшее последовательное изучение представленной модели.
Несколько мыслей вдогонку. Выявленные особенности человеческого поведения могут оказаться очень важными при проведении нагрузочного тестирования информационных систем и их необходимо учитывать при составлении тестовых сценариев. Традиционное моделирование активности пользователей как случайных и независимых действий может давать неверные результаты.