Rambler's Top100
Просмотреть марку >>
О нас
Учителя и авторитеты
Они просто сделали это
Статьи по разделам
Приятное с полезным
События. Фотоальбом.
Книги и полезные ссылки
Гостевая книга
Обратная связь
Партнеры журнала
Карта сайта
Поиск

TOP



"ДА" на все вопросы.

Кирилл Резник (исполнительный директор Контекст, почта).

  1. Выборы, социология

  2. Маркетинг

  3. Банковский бизнес

  4. Финансовое прогнозирование

  5. Страхование

  6. Медицина

  7. Экология

Какова основная идея ДА?

Ответ. Основная идея ДА это идея правила, которое можно найти по частотам совпадений или несовпадений событий. Такое правило называется "детерминацией", а математическая теория таких правил – носит название «детерминационный анализ» или ДА.

Другая ключевая идея: ДА это основа для удобной и полезной технологии анализа с широкими возможностями применения. Эта идея реализована в ДА-системе.

Что такое правило

Люди находят правила (детерминации), наблюдая совпадения либо несовпадения событий. Например, если замечено, что появление A всегда сопровождается появлением B, значит есть правило "Если A, то B", или, короче, A --> B. Если A изобразить в виде одного кружка, а B – в виде другого, то кружок A полностью входит в кружок B, как показано на рисунке 1. Это и означает, что имеет место точное правило A --> B:

 Рисунок 1. Случай, когда имеется точное правило A --> B. Кружок A (красный) полностью входит в кружок B. Обрамляющий прямоугольник символизирует весь массив наблюдений.

 

Правила нужны всем

Идея правила как детерминации тесно связана с идеей предсказания, объяснения. Знание правил позволяет успешно действовать, предвидя результат. В этом причина интереса к правилам. Врачам интересны правила типа "Если человеку, страдающему такой-то болезнью в таких-то условиях дать такое-то лекарство, то он выздоровеет или ему станет значительно легче, и при этом не возникнет побочных явлений". Подобные правила помогают врачу лучше делать свое дело. Для специалиста по маркетингу важны правила типа "Если так-то изменить облик товара, его привлекательность для таких-то покупателей станет выше". Знание подобных правил позволяет лучше планировать поведение на рынке. Пример правила, которое может заинтересовать специалиста по предвыборным технологиям: "Если кандидат сделает в таких-то условиях такое-то заявление, его рейтинг в таких-то группах повысится, а в таких-то – станет ниже". Правила – это самая естественная форма знаний, поэтому они нужны всем.

Любое правило имеет две фундаментальные характеристики – точность и полноту

Точность правила A --> B это, по определению, доля случаев B среди случаев A. На рисунке 1 эта доля равна 1 (100%), что и означает, что правило A --> B предельно точное. Помимо точности есть еще одна фундаментальная характеристика – полнота. Из рисунка 1 видно, что с помощью правила A --> B можно предсказать лишь примерно одну четверть всех случаев появления B. Чтобы применить правило A --> B, нужно сначала обнаружить A, и только после этого можно предсказать наличие B. А площадь кружка A составляет примерно одну четверть от площади кружка B. Правило A --> B точное, но не полное, его полнота равна примерно одной четверти (25%).

В общем случае полнота правила A --> B есть, по определению, доля случаев A среди случаев B. Полнота правила A --> B равна точности обратного правила B --> A, а точность правила A --> B равна полноте обратного правила. При перемене направления стрелки в любом правиле точность и полнота меняются местами.

Неточное правило можно сделать точным

Точных правил не так много. Большинство правил – неточные. Если правило A --> B неточное, кружок A не полностью входит в кружок B, как показано на рисунке 2.

Рисунок 2. Случай, когда имеется неточное правило A --> B. Только часть кружка A (окрашена красным) входит в кружок B.

Если в неточное правило A --> B добавить некоторый фактор C, может случиться, что правило AC --> B, которое получится в результате, будет точным. Пример такой ситуации показан на рисунке 3.

Рисунок 3. В неточное правило A --> B добавлен фактор C. В результате получилось точное правило AC --> B. Все случаи, когда имеется сочетание A и C (окрашены красным) оказались внутри кружка B.

Конечно, может случиться, что точность правила AC --> B будет еще менее точным, чем первоначальное правило A --> B. На рисунке 4 правило AC --> B имеет точность, равную нулю.

Рисунок 4. В неточное правило A --> B добавлен фактор C. В результате получилось правило AC --> B, которое имеет точность, равную нулю. Все случаи, когда имеется сочетание A и C (окрашены серым) оказались вне кружка B.

 

ДА-система ищет и анализирует правила

ДА-система позволяет находить нужные правила и, дает информацию о факторах, которые делают их более точными или менее точными (режим Таблицы Правил).

Если имеется неточное правило A --> B и какая-либо текстовая переменная, ДА-система укажет те значения переменной, которые, будучи добавленными в правило A --> B, увеличивают точность этого правила (либо уменьшают ее, либо оставляют неизменной). Так ДА-система работает с качественными факторами в правилах (режим Таблицы Правил).

Если имеется неточное правило A --> B и какая-либо числовая переменная x, ДА-система найдет границы p, q, определяющие признак C = {p --> x --> q}, такой, что правило AC --> B имеет точность не ниже заранее заданного порога. Так ДА-система работает с количественными факторами в правилах (Оптимизация в режиме Таблицы Правил).

Что является главной отличительной чертой ДА-системы?

Ответ. Это новая технология обработки и анализа данных, в основу которой положен анализ правил.

Чем ДА-система отличается от других аналитических пакетов?

Вместо десятков методов – единая технология анализа.

В отличие от пакетов, содержащих десятки разнообразных методов, ДА-система предлагает продуманную и удобную технологию решения основных задач описательного анализа:

  • Задача 1 "Анализ связей между признаками"

  • Задача 2 "Построение новых признаков на основе имеющихся".

ДА-система – единственный пакет в мире, где для решения этих задач применяется единая система методов анализа правил, объединенных общим названием Детерминационный Анализ (ДА).

Ориентация на задачу, а не на метод.

Все задачи объяснения, прогноза, поиска существенных факторов сводятся к задачам анализа правил. Математическая теория правил (ДА) устраняет недостатки, которыми обладает факторный анализ и классические подходы к анализу взаимосвязей между признаками. Благодаря эффективной математике и продуманному интерфейсу ДА-система предлагает не "101-й способ анализа к 100 уже известным", а дает самый простой и фундаментальный способ решать широко распространенные практические задачи.

Ведущая роль естественного языка в общении пользователя с пакетом.

ДА-система обеспечивает ведущую роль естественного языка при решении задач обработки и анализа данных. Это достигается с помощью оригинальной технологии оперирования Словарями переменных. Использование Словарей обеспечивает гуманитарный стиль, дружественность, простоту управления, быстрое обучение навыкам работы с пакетом.

Методы анализа правил применимы всегда.

Методы, реализованные в ДА-системе, не имеют ограничений на применимость. В случаях, когда обычные статистические методы действуют безупречно, методы анализа правил приводят к сопоставимым результатам, отличающимся по форме представления. В случаях, когда обычные статистические методы неприменимы, методы анализа правил оказываются единственным надежным способом решать задачи поиска правил с целью получить объяснение интересующего явления или сделать прогноз.

Любой результат открыт для понимания.

В пакете используется оригинальная математика, но нет математических “черных ящиков”. Результаты, полученные с помощью ДА-системы, формулируются просто и полностью открыты для понимания.

ДА-система не нарушает экологию естественного языка.

В естественном языке существует норма, требующая, чтобы существовала явная связь между обобщающим суждением и конкретными случаями, на основании которых это суждение было получено. Например, сравним два высказывания:

"Среди обследованных женщин груз в 50 килограмм способны поднять 15 % женщин, а среди мужчин – 90%" и "Коэффициент корреляции между полом и способностью поднимать тяжести равен 0.62".

Первое высказывание не противоречит вышеупомянутой норме, оно сохраняет связь с образами мужчин и женщин, способных или не способных поднимать тяжести. Во втором высказывании эта связь потеряна, оно нарушает вышеупомянутую норму. Большинство статистических методов нарушают нормы естественного языка в указанном смысле.

Принципы, на которых действует ДА-система, не противоречат нормам естественного языка. Технические специалисты и гуманитарии работают с ДА-системой одинаково легко.

Пакет доступен как для новичков, так и для имеющих опыт работы с данными.

Качественные и количественные факторы как-то влияют на происходящее. Как? Если это действительно важно выяснить, ДА-система – незаменимый помощник.

Что может ДА-система

Какие математические методы анализа данных используются в ДА-системе?

Ответ. В отличие от "поли-пакетов", где используются многочисленные методы современной математической статистики, Да-система представляет собой "моно-пакет", основу которого образует один класс методов. Класс включает методы анализа правил, объединенные общим названием Детерминационный Анализ (ДА). Это направление в анализе данных создано российским ученым Сергеем Чесноковым. Методология и поддерживающая математика изложены в работах С.Чеснокова за период около 30 лет в основном на русском языке (см. "Где найти информацию о Детерминационном Анализе?" и "Краткая историческая справка" в разделе 6 "Анализ правил (ДА). Сравнение с другими подходами").

Методы ДА в совокупности представляют собой альтернативный факторный анализ качественных и количественных признаков. Эти методы обеспечивают получение закономерностей, объяснений и правил для прогноза. Они позволяют:

  • Находить правила, скрытые в данных.

  • Строить новые признаки и использовать их при поиске правил.

  • Находить и анализировать качественные факторы.

  • Вычислять критические границы числовых факторов.

  • Вычислять связи между признаками в несвязанных массивах данных

Логический модуль, поддерживающий решение последней задачи, планируется в составе следующей версии ДА-системы.

Основные функции пакета

Пакет поддерживает все этапы работы с документами от ввода данных и обмена данными (экспорта-импорта) до анализа и отчета.

  • Функции создания базы данных

  • Создание Словаря переменных

  • Ввод и корректировка данных

  • Экспорт-импорт данных в форматах Excel, Access, SPSS, FoxPro, dBase, в текстовых форматах DOS  и Windows.

При вводе данных в систему содержание любого документа переводится в Словарь переменных. Словарь поддерживает ручной ввод данных, управление данными при обработке и анализе. В Словаре длина названий переменных и их значений не ограничена. Удобная техника работы со Словарями – отличительный признак ДА-системы. Для обмена информацией с внешними базами данных имеются процедуры экспорта-импорта.

  • Стандартный анализ

  • Получение таблиц и графиков для различных статистик.

  • Статистические оценки

  • Конструирование новых признаков и вторичных переменных

  • Анализ с неальтернативными переменными

  • Перевзвешивание данных

  • Анализ в подвыборках

  • Специальный анализ

  • Получение и анализ правил.

  • Анализ нечисловых факторов в правилах.

  • Вычисление критических границ для числовых факторов в правилах.

  • Подготовка данных для анализа динамических рядов и текстов.

  • Анализ структуры текстов.

  • Прогнозирование в динамических рядах.

  • Анализ правил, связывающих символы в текстах.

  • Создание отчетов и сервис

  • Экспорт таблиц и графиков в MS Word, Excel и другие приложения MS Windiws.

  • Поиск и просмотр документов

  • Получение коллекций документов

  • Распечатка словарей, таблиц и графиков

  • Получение коллекций одномерных и двумерных таблиц

Примеры применения ДА в различных областях

Почти все приведенные ниже примеры могут быть рассмотрены более подробно на демонстрационных массивах, которые входят в комплект ДА-системы.

Социология, выборы

(?) Президентские выборы

При проведении выборных кампаний штабы кандидатов пользуются данными опросов населения, для анализа которых ДА-система – удобный инструмент. Во время президентской кампании 1996 года столбики гистограмм “За” и “Против” каждую неделю волновали зрителей ТВ, а экспертов интересовали более реалистичные способы оценить перспективность того или иного кандидата. В марте того года, за три месяца до выборов, обычный электорат Лебедя был вдвое меньше, чем у Ельцина:

  • Обычный (узкий) электорат Ельцина 13%.

  • Обычный (узкий) электорат Лебедя 6,3%.

Но перспективность кандидата измеряется еще и так называемым “широким электоратом”, – теми, кто готов голосовать за него если не в первую, то во вторую или третью очередь. С помощью ДА-системы было показано, что в этом Лебедь не уступал Ельцину – широкий электорат Лебедя был больше, чем у Ельцина:

  • Широкий электорат Ельцина 19,9%.

  • Широкий электорат Лебедя 21, 7%.

У Ельцина широкий электорат больше узкого в полтора раза, тогда как у Лебедя – в три с половиной раза (Журнал “Эксперт”, №13, 1996, стр. 6-7).

(?) Региональные выборы

В ходе предвыборной кампании по выборам мэра города аналитики из штаба кандидата поставили перед собой задачу:

"Выявить группы избирателей, в которых следует вести активную пропаганду кандидата, чтобы быстрее всего увеличить уже имеющийся электорат кандидата."

Политологический анализ и опросы общественного мнения показали, что на электоральные предпочтения влияют образование и возраст. Исходя из этого конкретная задача была поставлена так:

"В каждой группе потенциально активных избирателей, имеющих определенное образование, указать возрастную группу, в которой доля избирателей, не принявших окончательного решения, за кого голосовать, составляет более 50%."

С помощью ДА-системы эта задача была решена. Было найдено, что вести предвыборную кампанию нужно с расчетом на следующие группы избирателей:

  • Высшее образование, возраст от 20 до 35 лет

  • Среднее образование, возраст от 20 до 49 лет

  • Образование ниже среднего, возраст от 80 лет и старше.

Возрастные границы в группах были не “взяты с потолка”, а вычислены с помощью ДА-системы исходя из того, чтобы в каждой группе было более 50% потенциально активных избирателей, которые еще не приняли окончательного решения, за кого голосовать.

Оказалось, что указанные группы охватывают 57% "ничейного" электората, за голоса которого имеет смысл бороться в ходе предвыборной кампании. Это высокий процент. Он показывает, что вложение средств в проведение разъяснительной работы в найденных группах (с учетом интересов избирателей в каждой из групп) оправдано.

Маркетинг

(?) Как планировать размещение товаров в торговом зале супермаркета?

ДА-система помогает анализировать предпочтения покупателей, лучше учитывать их интересы. Вот простая задача, где анализировались регистрационные талоны клиентов супермаркета, заполняемые при выходе из магазина. ДА-система позволила определить, кто из трех крупнейших поставщиков A, B, C пользуется наибольшим успехом у покупателей.

Сочетания товаров в корзине клиента

% случаев

Только товары фирмы C

78%

Только товары фирмы A

55%

Только товары фирмы B

44%

Товары фирм A и C

40%

Товары фирм B и C

33%

Товары фирм A и B

11%

На основании этих результатов товары фирм были расположены в торговом зале супермаркета в таком порядке: сначала C, затем A, и непосредственно перед кассовыми аппаратами – B. Это позволило минимизировать время, которое клиенты тратят на поиск нужных товаров, увеличило пропускную способность торгового зала и привело к увеличению выручки.

(?) На какие счета клиентов обратить особое внимание?

Крупная оптовая фирма обслуживает тысячи клиентов и теряет на неоплате счетов. ДА-система помогла найти “критический день” – пятницу – и позволила установить правило:

Если в пятницу выписан счет на общую сумму от 12,74  до 15 тысяч рублей, стопроцентная гарантия, что счет будет сильно задержан с оплатой.

Оба фактора (пятница и интервал общей суммы счета) важны.

После того, как критические границы суммы счета были вычислены, к оформлению сделок по счетам, попадающим в эти критические границы, менеджеры фирмы стали относиться более внимательно, и это дало выигрыш.

Спрос на банковские услуги

(?) Кто больше всех нуждается в пластиковых карточках?

Конкуренция в предоставлении банковских услуг вынуждает банки анализировать своих клиентов. Документы с данными о корпоративных клиентах нужны для учета и контроля. В одном из московских коммерческих банков дополнительно проанализировали их, чтобы узнать из каких сфер деятельности ждать наибольшего притока клиентов по пластиковым карточкам. ДА-система нашла эти сферы: розничная торговля, оптовая торговля, и строительно-монтажные работы. Информация о том, что эти три направления покроют 65% ожидаемого прироста корпоративных пользователей пластиковых карточек, была использована при планировании пакета банковских услуг.

Финансовый бизнес

(?) Как сегодня предсказать курс акций на завтра?

Динамические ряды котировок похожи на “пилы”, зубцы которых показывают колебания цен при переходе от одного момента наблюдения к другому. Глядя на изменения котировок во времени, специалист иногда может различить плавные тенденции, действующие на интервалах, включающих десятки или сотни наблюдений. Но когда нужно предсказать, что будет завтра, если сегодня и вчера было то-то и то-то, сделать это трудно, потому что на протяжении любых двух-трех дней пилообразные зубцы колебаний котировок выглядят полностью случайными. ДА-система позволяет решить проблему краткосрочного прогноза на финансовом рынке. Она дает возможность находить неслучайные правила на фоне действительно непредсказуемых колебаний.

Например, с января 1994 года по июнь текущего года на Нью-Йоркской бирже действовало такое правило, полученное с помощью ДА-системы:

"Если сегодня индекс Dow Jones упал и изменение относительного прироста цены акций General Electric находится в пределах от 0.01031 до 0.01147, то завтра будет рост цены акций General Electric”.

За рассматриваемый период правило было применимо в 13 случаях и в 12 из них прогноз оправдался (вероятность правильного прогноза составила 0.92). Проблема в том, как найти границы изменения котировок, чтобы получилось надежное правило. Ее и решает ДА-система.

(?) Как предсказать котировки валют на финансовом рынке?

Правила краткосрочного прогноза котировок, действующие на финансовом рынке, рождаются, живут и умирают. Надежные правила типа “если сегодня случилось то-то и то-то, а вчера (позавчера) было то-то и то-то, завтра жди такого-то развитие событий, а не другого”, безусловно, не могут охватить все секторы рынка и существовать вечно. Но оценки, проведенные с помощью ДА-системы, показывают, что в среднем не менее 25% событий на рынке поддаются устойчивому прогнозу. Для участника рынка владение надежными краткосрочными прогнозами – это дополнительный шанс на успех. Так, с начала 1993 года до октября 1995 года на фьючерсном рынке России действовали довольно простые и устойчивые закономерности, найденные с помощью ДА-системы. Например, “если во вторник (или в среду) курс доллара падает, то на следующий день фьючерсные котировки тоже должны снизиться”. Или: “если в понедельник наличный доллар и фьючерсные котировки растут, то во вторник следует ожидать дальнейшего роста фьючерсов”. Эти и некоторые им подобные прогнозные правила выполнялись с вероятностью 0.7-0.9 и позволяли получать прибыль от спекулятивной игры, превышающую 1000% годовых. К концу 1995 года закономерности на фьючерсном рынке стали меняться…[Журнал “Эксперт”, №7 от 19 февраля 1996 года, стр 54]. ДА-система позволяет вести поиск и мониторинг правил прогнозирования пока только в масштабе часов и дней, но, к сожалению, не минут и секунд. Однако, совершенствование технологии это вопрос времени.

Страховой бизнес

(?) Когда клиенту тоже нужно расти

Страховой бизнес это не только предложение страховых услуг, это еще и культура цивилизованного планирования жизни. В нашей стране она только-только зарождается, – говорит Андрей Евгеньевич Бабаев, консультант отдела по работе с клиентами страховой компании “Народный Резерв”. – Мы использовали ДА-систему для анализа настроений потенциальных клиентов. Результаты подтвердили, что страхование, этот необходимый “у них” в повседневной жизни среднего класса продукт, в России пока далек от потребителя. Проведенный с помощью ДА-системы анализ отчетливо показал, что в большинстве случаев выполняется правило: кто имеет страховку, тот и интересуется страхованием. Попутно выяснилось, что страховку имеют всего 14% опрошенных. Спрашивать об отношении к тому, чего люди не знают  – не рационально. Имея достаточно высокую позицию в рейтинге страховых компаний РФ, мы приняли решение вкладывать средства в информирование потенциальных клиентов не только об услугах нашей компании, но и о страховании вообще, развивая одновременно эффективную имиджевую рекламу. На очереди – более детальный анализ эффективности этих вложений [Журнал "Рынок ценных бумаг", №16 (127), 1998, стр. 135]. Подробнее об использовании ДА-системы в страховом бизнесе см. материал компании "Народный резерв" в журнале "Эксклюзивный маркетинг", выпуск 5, 1998, стр. 69-94.

Медицина

(?) Анализ клинического опыта

В современных медицинских клиниках проблема документооборота это прежде всего проблема ведения электронной истории болезни пациента. Больному важно то, что происходит с ним лично, и, как правило, безразлично, будет его опыт учтен когда-нибудь потом, или нет. Но и пациенту и врачу важно, чтобы в данном конкретном случае был учтен опыт, полученный при лечении других больных. Тысячи людей обращаются в клинику. Их истории болезни содержат клинический опыт, значительная часть которого без современных средств анализа «уходит в отвалы». Связь документооборота с анализом в медицине теснее, чем может показаться на первый взгляд. ДА-система помогает осуществлять анализ историй болезни в условиях современной клиники.

Экология

(?) Экология и здоровье детей

В одном из городов России проводилось обследование связи между здоровьем детей и экологической обстановкой.

Проблема. Найти правила, объясняющие плохое здоровье ребенка экологической  обстановкой по месту жительства и условиями труда его матери.

Применение ДА-системы позволило решить проблему, установить связи между состоянием окружающей среды и здоровьем детей.

Пример одного из правил:

ЕСЛИ мать ребенка работает на вредном производстве и экологическая обстановка в районе проживания катастрофическая, ТО ребенок нездоров.

Правило подтверждается в 103 случаях из 123 (вероятность правильного прогноза 0.84). Правило не универсально. Оно объясняет только 26% случаев плохого здоровья детей. Другие случаи объясняются другими правилами.

Высказаться

 

 
Яндекс цитирования
Рейтинг@Mail.ru
 
Главная страница Написать письмо Поиск
 


© Е.Г. Маркушина, 2001