четверг, 23 июня 2011 г.

Экспоненциальный рост затрат на доступ у старому электронному контенту

Во многих рассуждениях о стоимости хранения электронного контента упускается важная вещь - экспоненциальный рост стоимости доступа с увеличением "возраста" носителя этого самого контента.

Поясню на простом примере:

Предположим, мне нужно прочитать примерно 100 кб текста. 
Сейчас у меня есть флешка, на которой хранятся гигабайты. Для доступа к тексту объемом 100 кб мне потребуется секунд двадцать - воткнуть флешку, подождать, пока она опознается компьютером, открыть нужную папку, выбрать файл и все.

10 лет назад аналогичным устройством хранения была трёх-дюймовая дискета.
В то время для доступа к файлам хватило бы тех же 20 секунд, но сейчас время уже другое. Придется поискать компьютер, на котором сохранился бы привод для трёх-дюймовых дискет. Найти можно и не очень сложно, но примерно пол-часа придутся потратить: найти, договориться с владельцем, принести дискету, как-то передать с этого компьютера на свой и т.п.

20 лет назад в ходу были пяти-дюймовые дискеты. Они тогда тоже читались достаточно быстро. Но сейчас привод для пяти-дюмовых дисков сохранился только в самых старых компьютерах. По крайней мере мне придется затратить не менее пары дней, чтобы добраться до 100 Кб хранимого на пяти-дюймовой дискете. А там еще были разные плотности записи, разные форматы текста, для которых надо искать (или писать?) конвертеры и т.п. и т.д.)

А вот 30 лет назад дискеты были размером в 8 дюймов... И. помнится,  влезало на них аж 180 Кбайт. Где теперь искать дисководы для таких носителей? Разве, что в музее сохранились... Думаю, не ошибусь сильно, если на поиск, решение технических (а еще больше организационных проблем) уйдет не менее полугода. Есть еще, конечно, вариант расшифровки магнитной записи побитно под поляризационным микроскопом, но и тут меньше чем за пол-года не управится...

В итоге имеем вот такую картинку:


вторник, 21 декабря 2010 г.

Блеск и нищета традиционных подходов к сбору исходных данных

Сервис подписки в Google Scholar честно отработал оставленный поисковый запрос [ "social circle" complex networks ] и принес интересную статью "Knowledge Management in China and in Finland. A cross-country comparison".

Сравнительный анализ процессов управления знаниями в финских и китайских организациях проводился традиционным методом - путем заполнения сотрудниками данных компаний специальных опросников. Кстати, в приложении к статье данные опросники приведены и, переведя их на русский язык, любой желающий может провести аналогичное исследование в собственной компании.

Как показал анализ собранных данных, в среднем китайские компании оказались более продвинутыми в плане KM по сравнению с финскими. Вот одна из диаграмм.

Казалось бы, китайский KM впереди. Однако автор не спешит со скоропалительными выводами и для объяснения такого расхождения в показателях приводит три причины:
  • Во-первых, опрос в Китае проводился среди компаний, являющихся участниками китайского "KM-коммьюнити".
  • Во-вторых, китайские компании представляли наиболее "продвинутые" в экономическом плане области страны.
  • В третьих, китайские компании были существенно крупнее (в среднем в 5-6 раз) финских по числу сотрудников (что неудивительно: население Финляндии и Китая соответственно ~5,3 млн.чел. и ~1,4 млрд.чел.).

Столь высокая степень свободы в трактовке результатов и неопределенности выводов при проведении исследований путем заполнения опросных листов наглядно свидетельствует, на мой взгляд, о давно назревшем переходе к объективно-измеримым характеристикам корпоративной культуры в части создания, накопления, разделения знаний и информации.

понедельник, 26 июля 2010 г.

Коммуникации поверх барьеров

Группа авторов (Adam M. Kleinbaum, Michael Tushman, Toby E. Stuart) из Гарвардской школы бизнеса (Harvard Business School) в статье, озаглавленной «Communication (and Coordination?) in a Modern, Complex Organization» исследовали структуру внутренних коммуникаций между 30328 сотрудников крупной международной ИТ – компании за трехмесячный период в 2006 году. Конкретное название компании авторы статьи не раскрывают (используется псевдоним «BigCo»), однако сообщают, что данная компания имеет более 30 продуктовых подразделений, сгруппированных по четырем направлениям – железо, софт, технологические сервисы, бизнес-сервисы. В последние годы компания реализует стратегию интеграции между её различными продуктами, и, следовательно, и между структурными подразделениями; в результате неформальные коммуникации через формально определенные границы рассматриваются как приоритетные для компании. Первоначально массив данных включал 114 млн. сообщений электронной почты и 68 млн.записей о собраниях в календарях и логах телеконференций, после удаления сообщений\собраний с числом адресатов\участников более четырех, массовых рассылок и сообщений, адресат которых указывался в поле «скрытая копия» массив «сжался» до 13 млн. сообщений и 3 млн. собраний.

Основной вопрос для авторов данной статьи звучал так: какова роль границ между индивидуумами в структурировании внутрифирменных коммуникаций? Авторы выделяют три основные типа границ: организационные (бизнес-направления, функциональные подразделения), пространственные (локализация офисов, расстояние между людьми внутри офиса) и социальные (пол, стаж работы в компании). Было обнаружено, что на вероятность возникновения связи между двумя индивидуумами очень большое влияние оказывает формальная организационная структура и пространственное расположение рабочих мест сотрудников. Эффекты гомофилии (ассортативности), основанные на социодемографических категориях, являются значительно более слабыми. При исследовании индивидуальных шаблонов коммуникационного поведения было обнаружено, что женщины, исполнительный персонал высокого уровня, менеджеры, маркетологи и продавцы с большей вероятностью участвуют в межгрупповых коммуникациях. Фактически, сотрудники этих категорий связывают разделенные группы в единую корпоративную социальную структуру.

понедельник, 5 июля 2010 г.

О влиянии памяти на поведение

Статья «Impact of memory on human dynamics» (автор Alexei Vazquez), посвящена исследованию типовых сценариев человеческого поведения (Human activity patterns), знание которых критически важно для разработки эффективных систем, имеющих дело с совокупной активностью множества людей. Типичными примерами таких систем являются Call-центры, веб-серверы, транспортные магистрали или стратегии предотвращения распространения эпидемий.


От себя добавлю, что ECM-решения также являются примерами таких систем, поскольку в них агрегируется активность людей при выдаче поручений, обращении к архивам, согласовании документов, совместной работе и т.п.

Автор отмечает, что стохастичность человеческой динамики обычно моделируется Пуассоновским процессом с постоянным уровнем интенсивности либо с переменным, учитывающим сезонность процесса. Для объяснения экспериментально наблюдаемых особенностей статистического распределения интервалов времени между событиями в различных видах человеческой деятельности автор предлагает математическую модель, учитывающую наличие у человека памяти.
Рассмотрим человека и некоторую специфическую активность, в которую он или она часто вовлекается, такую, например, как отправка электронной почты. Тогда вероятность того, что человек выполняет какое-либо действие (событие) в данное время в предлагаемой модели зависит от предыстории: человек помнит предшествующий уровень активности и, основываясь на этом, ускоряет или замедляет текущий уровень. Математически это можно записать так: если лямбда(t) – вероятность того, что конкретный индивидуум выполняет какое либо действие в интервал времени от t до t+dt, то

где параметр a>0 определяет тип и степень реакции на прошлые события. Если a=0 – процесс стационарный, если a>1 – процесс ускоряется, если a<1 – процесс замедляется. Интервал времени Х между двумя последовательно выполняемыми событиями – случайная величина. Если предположить, что на коротких временных промежутках сохраняется пуассоновский процесс, а в более долгосрочной перспективе действует эффект памяти, то, как следует из предложенной модели, интегральное распределение вероятности Х описывается степенным законом. Проверка теоретических выкладок проводилась на основе анализа двух массивов данных. Во-первых, анализировались доступные исторические сведения о почтовой корреспонденции двух всемирно известных ученых: Чарльза Дарвина и Альберта Эйнштейна. Это не означает, что подвергалась перлюстрации именно переписка между Дарвином и Эйнштейном – просто рассматривалось совокупное количество писем, отправленное данными учеными всем своим корреспондентам с того момента, когда было написано первое из них (а за всю свою жизнь как Дарвин, так и Эйнштейн отправили более чем 6000 писем). Как видно из рисунка, общее количество отправленных писем показывает рост, более быстрый, нежели линейный и на отдельных участках эта зависимость хорошо представима степенным законом N(t)~t^2.7.
Так как 2,7>1, это значит, что мы имеем здесь ускоряющийся процесс. Другими словами, вероятность увидеть Дарвина или Эйнштейна за подготовкой исходящего письма в конце их жизни была существенно выше, чем в начале научной карьеры. Предлагаемая математическая модель предсказывает для данного случая также степенное распределение интервала времени между двумя событиями (отправка писем) с показателем степени 2,4. Близкое значение наблюдается и в действительности:


Вторым массивом проанализированных данных стала переписка по электронной почте, которую 3188 человек вели в течение 81 дня. Автор не сообщает подробности о месте и обстоятельствах сбора данной информации, но упоминает, что в данном массиве в среднем на одного человека за два дня приходится отправки исходящего сообщения по электронной почте. Из этого можно предположить, что местом сбора информации, скорее всего, был университет, а не коммерческая компания или социальная сеть.

В данном случае, по мнению автора, имеет место замедление процесса в течение рабочего дня, что также приводит к степенному закону распределения интервала времени между двумя последовательно отправляемыми сообщениями электронной почты. На рисунке ниже график, представленный черными точками, соответствует событиям внутри одного дня, а график, показанный белыми точками, учитывает также и события, разделенные несколькими днями. Виден характерный пик, связанный с ежедневными повторами людьми однотипных действий.

В заключение работы автор подчеркивает важность интегральных эффектов для формирования степенного распределения, указывает на связь данной работы с другими, в которых изучалось распределение времени ответа на полученное сообщение и выражает надежду на дальнейшее последовательное изучение представленной модели.


Несколько мыслей вдогонку. Выявленные особенности человеческого поведения могут оказаться очень важными при проведении нагрузочного тестирования информационных систем и их необходимо учитывать при составлении тестовых сценариев. Традиционное моделирование активности пользователей как случайных и независимых действий может давать неверные результаты.

среда, 30 июня 2010 г.

Динамическая центральность

В дополнение к предыдущему посту про динамические свойства сложных сетей и в ознаменование начала новой серии подобных обзоров публикую краткое изложение статьи «From Centrality to Temporary Fame: Dynamic Centrality in Complex Networks», Dan Braha, Yaneer Bar-Yam. Published in Complexity, Vol. 12 (2), pp. 59-63, November 2006.
(http://arxiv.org/ftp/physics/papers/0611/0611295.pdf)

среда, 23 июня 2010 г.

Что можно почитать по данной теме на русском языке?

Количество статей по теме "Complex Networks" на английском языке, которые выдает Google Scholar, исчисляется десятками тысяч. Статей на русском в сотни раз меньше... Вот один из немногих примеров начальных учебных материалов на русском языке по сложным сетям:  http://yury.name/internet/04ianote.pdf