ТЕМА 9


Чтобы посмотреть презентацию с картинками, оформлением и слайдами, скачайте ее файл и откройте в PowerPoint на своем компьютере.
Текстовое содержимое слайдов презентации:

ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИЕ СИСТЕМЫ Оперативный анализ данных Подходы к анализу на основе информационных технологий Требования к OLAP - системам Задачи и содержание многомерного анализа Типы многомерных OLAP - систем ТРЕМБАЧ Василий Михайловичк.т.н., доцент [email protected] Классификация IT-анализа по режиму и темпу: статические ИАС; динамические ИАС. Статические ИАС имеют ограниченные возможности по информационной поддержке принятия решений. Зачастую полученная в отчётах информация порождает вытекающие из её содержания вопросы, на которые в допустимое время ответ не может быть получен. Динамические ИАС предназначены для обработки незапланированных заранее, неожиданных запросов. Пользователи работают с такой ИАС в интерактивном режиме. Обрабатывается серия непредусмотренных заранее запросов, которые возникают в ходе подготовки и принятия решения. Заранее может быть подготовлена некоторая цепочка действий или сценарий, который может корректироваться. Поддержка принятия управленческих решений осуществляется в следующих режимах или базовых сферах: детализированных данных; агрегированных показателей; закономерностей. В сфере детализированных данных подсистемы ИАС или автономные ИС нацелены на поиск данных. Эту задачу отлично выполняют реляционные СУБД. В качестве языка манипулирования данными, используется, как правило, SQL. Сфера агрегированных показателей отличается: агрегацией данных, оперативной аналитической обработкой, многомерным представлением в виде гиперкубов, многомерным анализом. В этой сфере используются специальные многомерные СУБД. Допустимо использование реляционных представлений данных. Анализ детализированных данных и агрегированных показателей относится к оперативному или OLAP-анализу. Сфера закономерностей основана на интеллектуальной обработке данных. Задачи: выявление закономерностей в исследуемых процессах, взаимосвязей и взаимовлияния различных факторов, поиск крупных "непривычных" отклонений, прогноз хода различных существенных процессов. Эта сфера относится к интеллектуальному анализу (Data mining). Содержание требований к OLAP-системам Многомерное представление данных.Средства должны поддерживать многомерный на концептуальном уровне взгляд на данные. Прозрачность. Пользователь не должен знать: о том, какие конкретные средства используются для хранения и обработки данных, как они организованы,откуда они берутся. Доступность. Средства должны сами выбирать источник данных и связываться с ним для формирования ответа на данный запрос. Согласованная производительность. Производительность не должна зависеть от количества Измерений в запросе. Поддержка архитектуры «клиент-сервер». Средства должны работать в архитектуре "клиент-сервер". Равноправность всех измерений. Ни одно из измерений не должно быть базовым, все они должны быть равноправными. Динамическая обработка разреженных матриц. Неопределённые значения должны храниться и обрабатываться наиболее эффективными способами. Поддержка многопользовательского режима работы с данными.Все многомерные операции должны единообразно и согласованно применяться к любому числу любых измерений. Поддержка операций на основе различных измерений.Все многомерные операции должны единообразно и согласованно применяться к любому числу любых измерений. Простота манипулирования данными.Обеспечивается наличием максимально удобного, интуитивно понятного, комфортного интерфейса.Развитые средства представления данных.Средства должны поддерживать различные способы визуализации (представления) данных.Неограниченное число измерений и уровней агрегации данных.Не должно быть ограничений на число поддерживаемых Измерений. Свод требований к ИАС В конце 90-х годов получил распространение свод требований к ИАС в виде "теста FASMI" — аббревиатуры английских слов, определяющих требования к OLAP-системам. Fast Analysis of Shared Multidimensional Information (Быстрый Анализ Разделяемой Многомерной Информации). Содержание свойств ИАС Fast (Быстрый) — это свойство выражается во временных требованиях к ответам системы на запросы пользователей. Ответ должен быть получен обычно за время в пределах секунды. Более сложные запросы допускается обрабатывать в течение 5-ти секунд и лишь отдельные запросы допускаются с 20-секундной реакцией. Специальные исследования показали, что при времени ответа более 30-ти секунд наступает раздражение и возможна реакция в виде перезапуска системы. Analysis (Анализ) — возможности системы выполнять аналитические работы различного характера в предметной области пользователя собственными средствами, не прибегая к программированию. Для описания специфических для данного пользователя аналитических процессов могут применяться встроенные средства в виде языков высокого уровня электронных таблиц со встроенными функциями, графических конструкторов, визуальных средств с применением кнопочных и рамочных технологий. Shared (Разделяемый) — система должна обепечивать необходимый уровень защиты при множественном доступе для исключения взаимных помех, несанкционированного доступа. Ценность результатов анализа гораздо выше исходной информации. Multidimensional (Многомерный) - определяющее требование. Средства OLAP-системы должны обеспечить работу с данными в многомерном представлении на концептуальном уровне с полной поддержкой иерархий. Information (Информация) — должна обеспечиваться возможность получения её из любых необходимых источников. Инструментальные средства оперируют с необходимыми объёмами и структурами данных. Задачи и содержание оперативного (OLAP) анализа Оперативный анализ — это функция ИАС, обеспечивающая быстрый, в соответствии с правилами FASMI , доступ к любой необходимой информации, содержащейся в ИХ (в факт-таблице), представляемой в виде многомерного куба (на практике трёхмерного). Извлечение информации.Сопровождается обработкой её по несложным алгоритмам: суммирования, определения процентов от заданных величин, получения относительных показателей, вычисления величин с заданными коэффициентами и другие действия над данными на разных уровнях детализации. Пример целей OLAP-анализа Определение суммарных издержек на производство всей совокупности изделий предприятия в течение заданного периода, начиная с большого периода времени (года). Получение данных по этому показателю по каждому изделию за более короткие промежутки времени (полугодие, квартал, месяц) и т.д. Выявление наиболее затратных процессов, места их возникновения. Пример целей OLAP-анализа В сфере сбыта продукции можно изучать: объёмы продаж, их динамику, привязку их к регионам, а также получать другие интересующие аналитика или ЛПР сведения. Процедуры извлечения необходимой информации для построения отчётов: Сечение или срез — извлечение данных из факт-таблицы по каким-либо определённым значениям одного или нескольких измерений. Например из гипер-куба, содержащей сведения об издержках в отчёт помещают данные только по какому-либо одному или группе издержек. Поворот - изменение координат, их порядка или добавление измерений. Обеспечивается замена в готовом отчёте “Издержки”, к примеру, аргумента — время на регионы или центры затрат; если рассматривалась взаимозависимость “возраст — семейное положение” то можно в качестве аргумента брать любое из этих измерений и менять их местами. Свёртка — агрегируются данные по заданным признакам и алгоритмам. Можно группировать необходимые данные, содержащиеся в ИХ в детальном виде.При занесении сведений в операционную БД ежесуточно в ИХ их можно передавать в агрегированном виде — еженедельно или ежемесячно.Агрегированные данные можно помещать в отчёты; Развёртка или раскрытие — процедура, обратная свёртке, данные детализируются.Например: группы товаров представляются по конкретным товарам, более крупные временные периоды разбиваются на мелкие и т.д. Создание кросс-таблиц —совмещение данных из разных таблиц по заданным признакам.Например, создаётся отчёт, в котором сводятся данные об издержках и выручке по одним и тем же изделиям и временным периодам; Проекция — конструирование отчётов, являющихся подмножествами из множества единичных реквизитов или атрибутов, содержащихся в операционных базах или в ИХ; Построение трендов — зависимость числовых или качественных значений показателя от тех или иных параметров, времени, технологии и т.д. Типы многомерных OLAP-cистем Многомерное представление данных может быть организовано как средствами реляционных СУБД, так многомерных специализированных средств, различают три типа OLAP-систем: многомерный (Multidimensional) OLAP-MOLAP реляционный (Relation) OLAP-ROLAP смешанный или гибридный (Hibrid) OLAP-HOLAP Многомерные OLAP-системы Данные организованы в виде упорядоченных многомерных массивов (гиперкубов).Все хранимые данные должны иметь одинаковую размерность, что означает необходимость образовывать максимально полный базис измерений. Структура хранилища упрощается, т.к. отпадает необходимость в зоне хранения данных. Снижаются огромные затраты на создание моделей и систем преобразования данных из реляционной модели в объектную. Достоинства MOLAP: более быстрое, чем при ROLAP получение ответов на запросы - затрачиваемое время на один-два порядка меньше; из-за ограничений SQL затрудняется реализация многих встроенных функций. Ограничения MOLAP:сравнительно небольшие размеры БД — предел десятки Гбайт; за счёт денормализации и предварительной агрегации многомерные массивы используют в 2,5-100 раз больше памяти, чем исходные данные (расход памяти при увеличении числа измерений растёт по экспоненциальному закону); отсутствуют стандарты на интерфейс и средства манипулирования данными; имеются ограничения при загрузке данных. Реляционные OLAP-системы В настоящее время преобладает использование инструментов на основе реляционного подхода. Трудозатраты на создание зоны многомерных данных резко увеличиваются, т.к. практически отсутствуют в этой ситуации специализированные средства объективизации реляционной модели данных, содержащихся в информационном хранилище. Время отклика на запросы часто не может уложиться в рамки требований к OLAP-системам. Достоинства ROLAP-систем: возможность оперативного анализа непосредственно содержащихся в хранилище данных; при переменной размерности задачи выигрывают ROLAP, так как не требуется физическая реорганизация базы данных; ROLAP-системы могут использовать менее мощные клиентские станции и серверы; уровень защиты информации и разграничения прав доступа в реляционных СУБД несравненно выше, чем в многомерных. Недостатки ROLAP-систем: меньшая производительность, необходимость тщательной проработки схем базы данных, специальная настройка индексов, анализ статистики запросов, учёт выводов анализа при доработках схем баз данных, что приводит к значительным дополнительным трудозатратам. Гибридные OLAP-системы Представляют собой сочетание инструментов, реализующих реляционную и многомерную модель данных. Структура хранилища остаётся в основном такой же, однако зона многомерных данных создаётся специализированными средствами. Это позволяет резко снизить затраты ресурсов на создание и поддержание такой зоны.Время отклика на запросы, в том числе незапланированные, удовлетворяет требованиям к OLAP-системам. Используются достоинства первых двух подходов и компенсируются их недостатки. Интеллектуальный анализ данных Data Mining Переводится как "добыча" или "раскопка данных". С Data Mining встречаются слова (синонимы Data Mining) :"обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Интеллектуальный анализ данных Data Mining Возникновение указанных терминовДо начала 90-х годов не было особой нужды переосмысливать ситуацию в этой области. Использовались методы прикладной статистики. Совершенствование технологий записи и хранения данных стали причиной того, что на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Data Mining Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Главная причина — концепция усреднения по выборке, приводящая к операциям над фиктивными величинами (типа средней температуры пациентов по больнице, средней высоты дома на улице, состоящей из дворцов и лачуг и т.п.). Уровни знаний, извлекаемых из данных Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Сфера применения Data Mining Отдача от использования Data Mining может достигать 1000%. Известны сообщения об экономическом эффекте, в 10–70 раз превысившем первоначальные затраты от 350 до 750 тыс. дол.. Известны сведения о проекте в 20 млн. дол., который окупился всего за 4 месяца. Другой пример — годовая экономия 700 тыс. дол. за счет внедрения Data Mining в сети универсамов в Великобритании.Data Mining представляют большую ценность для руководителей и аналитиков в их повседневной деятельности. Некоторые бизнес-приложения Data MiningРозничная торговля Предприятия розничной торговли сегодня собирают подробную информацию о каждой отдельной покупке, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Типичные задачи Data Mining в сфере розничной торговли: анализ покупательской корзины (анализ сходства) - выявления товаров, которые покупатели стремятся приобретать вместе. Необходимо для улучшения рекламы, выработки стратегии создания запасов товаров и способов их раскладки в торговых залах. Типы закономерностей ассоциация, последовательность, классификация, кластеризация и прогнозирование. Ассоциация. Несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и "кока-колу", а при наличии скидки за такой комплект "колу" приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка. Последовательность. Цепочка связанных во времени событий. Например, после покупки дома в 45% случаев в течение месяца покупается кухонная плита, а в пределах двух недель 60% новоселы покупают холодильник. Классификация. Выявление признаков, характеризующие группу, к которой принадлежит тот или иной объект. Осуществляется посредством анализа уже классифицированных объектов и формулирования некоторого набора правил. Кластеризация. Отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных. Прогнозирование. В качестве основы используется историческая информация, хранящаяся в БД в виде временных рядов. Если удается найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем. Классы систем Data Mining Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений: прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. Data Mining Визуализация данных системой DataMiner 3D Предметно-ориентированные аналитические системы Подкласс систем, получивший распространение в области исследования финансовых рынков, носит название "технический анализ". Технический анализ представляет собой совокупность нескольких десятков методов прогноза динамики цен и выбора оптимальной структуры инвестиционного портфеля, основанных на различных эмпирических моделях динамики рынка. Эти методы часто используют несложный статистический аппарат, но максимально учитывают сложившуюся в своей области специфику (профессиональный язык, системы различных индексов и пр.). Статистические пакеты Последние версии почти всех известных статистических пакетов включают наряду с традиционными статистическими методами также элементы Data Mining.Основа - классические методики по корреляционному, регрессионному, факторному анализу и другим. Обзор пакетов для статистического анализа http://is1.cemi.rssi.ru/ruswin/publication/ep97001t.htm. Недостаток статистических пакетов, ограничивающий их применение в Data Mining. Большинство методов, входящих в состав пакетов опираются на статистическую парадигму, в которой главными фигурантами служат усредненные характеристики выборки. Эти характеристики, как указывалось выше, при исследовании реальных сложных жизненных феноменов часто являются фиктивными величинами. Нейронные сети Имитируется работа нейронов в составе иерархической сети, где каждый нейрон более высокого уровня соединен своими входами с выходами нейронов нижележащего слоя. На нейроны самого нижнего слоя подаются значения входных параметров, на основе которых нужно принимать какие-то решения, прогнозировать развитие ситуации и т. д Нейронные сети Для того чтобы сеть можно было применять в дальнейшем, ее прежде надо "натренировать" на полученных ранее данных, для которых известны и значения входных параметров, и правильные ответы на них. Тренировка состоит в подборе весов межнейронных связей, обеспечивающих наибольшую близость ответов сети к известным правильным ответам. Нейронные сети Основным недостатком нейросетевой парадигмы является необходимость иметь очень большой объем обучающей выборки. Другой существенный недостаток заключается в том, что даже натренированная ИНС представляет собой черный ящик. Знания, зафиксированные как веса нескольких сотен межнейронных связей, совершенно не поддаются анализу и интерпретации человеком. Примеры нейросетевых систем: BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic). Стоимость: $1500–8000. Нейронные сети Интернет - ресурсы http://inftech.webservis.ru/it/database/datamining/images/ar2big009.jpghttp://inftech.webservis.ru/it/database/datamining/images/ar2big009.jpg Системы рассуждений на основе аналогичных случаев Для прогноза на будущее или выбора правильного решения, эти системы находят в прошлом близкие аналоги наличной ситуации и выбирают тот же ответ, который был для них правильным. Поэтому этот метод еще называют методом "ближайшего соседа" (nearest neighbour).Распространен также термин memory based reasoning, который акцентирует внимание, что решение принимается на основании всей информации, накопленной в памяти. Системы рассуждений на основе аналогичных случаев Достоинства CBR: неплохие результаты в самых разнообразных задачах. Главный их минус: они вообще не создают каких-либо моделей или правил, обобщающих предыдущий опыт. В выборе решения основываются на всем массиве доступных исторических данных, поэтому невозможно сказать, на основе каких конкретно факторов CBR системы строят свои ответы.Другой минус заключается в произволе, который допускают системы CBR при выборе меры "близости". От этой меры самым решительным образом зависит объем множества прецедентов, которые нужно хранить в памяти для достижения удовлетворительной классификации или прогноза Системы рассуждений на основе аналогичных случаев Примеры систем, использующих CBR:KATE tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США). Деревья решений (decision trees) Один из наиболее популярных подходов к решению задач Data Mining. Они создают иерархическую структуру классифицирующих правил типа "ЕСЛИ... ТО..." (if-then), имеющую вид дерева. Деревья решений (decision trees) Для принятия решения, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Вопросы имеют вид "значение параметра A больше x?". Если ответ положительный, осуществляется переход к правому узлу следующего уровня, если отрицательный — то к левому узлу; затем снова следует вопрос, связанный с соответствующим узлом. Деревья решений (decision trees) Популярность подхода связана как бы с наглядностью и понятностью. Но деревья решений принципиально не способны находить “лучшие” (наиболее полные и точные) правила в данных. Они реализуют наивный принцип последовательного просмотра признаков и “цепляют” фактически осколки настоящих закономерностей, создавая лишь иллюзию логического вывода. Система KnowledgeSeeker обрабатывает банковскую информацию Деревья решений (decision trees) http://inftech.webservis.ru/it/database/datamining/images/ar2big011.jpg http://inftech.webservis.ru/it/database/datamining/images/ar2big011.jpg Деревья решений (decision trees) Самыми известными являются: See5/С5.0 (RuleQuest, Австралия), Clementine (Integral Solutions, Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США), KnowledgeSeeker (ANGOSS, Канада). Стоимость этих систем варьируется от 1 до 10 тыс. долл. Эволюционное программирование Современное состояние данного подхода рассматривается на примере системы PolyAnalyst — отечественной разработке, получившей сегодня общее признание на рынке Data Mining. Эволюционное программирование В PolyAnalyst гипотезы о виде зависимости целевой переменной от других переменных формулируются в виде программ на некотором внутреннем языке программирования. Синтез программ идет как эволюция в мире программ (этим подход немного похож на генетические алгоритмы). Когда система находит программу, более или менее удовлетворительно выражающую искомую зависимость, она начинает вносить в нее небольшие модификации и отбирает среди построенных дочерних программ те, которые повышают точность Эволюционное программирование Таким образом система "выращивает" несколько генетических линий программ, которые конкурируют между собой в точности выражения искомой зависимости. Специальный модуль системы PolyAnalyst переводит найденные зависимости с внутреннего языка системы на понятный пользователю язык (математические формулы, таблицы и пр.). Эволюционное программирование Другое направление эволюционного программирования связано с поиском зависимости целевых переменных от остальных в форме функций какого-то определенного вида. Например, в одном из наиболее удачных алгоритмов этого типа — методе группового учета аргументов (МГУА) зависимость ищут в форме полиномов. Эволюционное программирование В настоящее время из продающихся в России систем МГУА реализован в системе NeuroShell компании Ward Systems Group.Стоимость систем до $ 5000. Генетические алгоритмы ГА - мощное средство решения разнообразных комбинаторных задач и задач оптимизации. Первый шаг при построении генетических алгоритмов — это кодировка исходных логических закономерностей в базе данных, которые именуют хромосомами, а весь набор таких закономерностей называют популяцией хромосом. Генетические алгоритмы Далее для реализации концепции отбора вводится способ сопоставления различных хромосом. Популяция обрабатывается с помощью процедур: репродукции, изменчивости (мутаций), генетической композиции. Эти процедуры имитируют биологические процессы. В ходе работы процедур на каждой стадии эволюции получаются популяции со все более совершенными индивидуумами. Генетические алгоритмы ГА легко распараллеливать. Например, можно разбить поколение на несколько групп и работать с каждой из них независимо, обмениваясь время от времени несколькими хромосомами. Существуют также и другие методы распараллеливания генетических алгоритмов. Генетические алгоритмы Критерий отбора хромосом и используемые процедуры являются эвристическими и далеко не гарантируют нахождения “лучшего” решения. Как и в реальной жизни, эволюцию может “заклинить” на какой-либо непродуктивной ветви. И, наоборот, можно привести примеры, как два неперспективных родителя, которые будут исключены из эволюции генетическим алгоритмом, оказываются способными произвести высокоэффективного потомка. Это особенно становится заметно при решении высокоразмерных задач со сложными внутренними связями. Генетические алгоритмы Примером может служить система GeneHunter фирмы Ward Systems Group. Стоимость — около $1000. Алгоритмы ограниченного перебора Алгоритмы ограниченного перебора были предложены в середине 60-х годов М.М. Бонгардом для поиска логических закономерностей в данных. Эти алгоритмы вычисляют частоты комбинаций простых логических событий в подгруппах данных. http://inftech.webservis.ru/it/database/datamining/images/ar2big013.jpghttp://inftech.webservis.ru/it/database/datamining/images/ar2big013.jpg Алгоритмы ограниченного перебора Примеры простых логических событий: X = a; X < a; X > a; a < X < b и др., где X — какой либо параметр, “a” и “b” — константы. Ограничением служит длина комбинации простых логических событий (у М. Бонгарда она была равна 3). На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации для установления ассоциации в данных, для классификации, прогнозирования и пр. Алгоритмы ограниченного перебора Наиболее ярким современным представителем этого подхода является система WizWhy предприятия WizSoft. Хотя автор системы Абрахам Мейдан не раскрывает специфику алгоритма, положенного в основу работы WizWhy, по результатам тщательного тестирования системы были сделаны выводы о наличии здесь ограниченного перебора (изучались результаты, зависимости времени их получения от числа анализируемых параметров и др.). Алгоритмы ограниченного перебора Автор WizWhy утверждает, что его система обнаруживает ВСЕ логические if-then правила в данных. На самом деле это, конечно, не так.Во-первых, максимальная длина комбинации в if-then правиле в системе WizWhy равна 6, и, во-вторых, с самого начала работы алгоритма производится эвристический поиск простых логических событий, на которых потом строится весь дальнейший анализ. Поняв эти особенности WizWhy, нетрудно было предложить простейшую тестовую задачу, которую система не смогла вообще решить. Другой момент — система выдает решение за приемлемое время только для сравнительно небольшой размерности данных. Алгоритмы ограниченного перебора Тем не менее, система WizWhy является на сегодняшний день одним из лидеров на рынке продуктов Data Mining. Это не лишено оснований. Система постоянно демонстрирует более высокие показатели при решении практических задач, чем все остальные алгоритмы. Стоимость системы около $ 4000. Системы для визуализации многомерных данных В той или иной мере средства для графического отображения данных поддерживаются всеми системами Data Mining. Вместе с тем, весьма внушительную долю рынка занимают системы, специализирующиеся исключительно на этой функции. Примером здесь может служить программа DataMiner 3D словацкой фирмы Dimension5 (5-е измерение). Системы для визуализации многомерных данных Основа - дружелюбный пользовательский интерфейс, позволяющий ассоциировать с анализируемыми показателями различные параметры диаграммы рассеивания объектов (записей) базы данных. К таким параметрам относятся: цвет, форма, ориентация относительно собственной оси, размеры и другие свойства графических элементов изображения. Системы для визуализации многомерных данных Системы визуализации данных снабжены удобными средствами для масштабирования и вращения изображений. Стоимость систем визуализации может достигать нескольких сотен долларов Визуализация данных системой DataMiner 3D Data Mining - РЕЗЮМЕ Применяются по двум основным направлениям: 1) как массовый продукт для бизнес-приложений; 2) как инструменты для проведения уникальных исследований (генетика, химия, медицина и пр.). В настоящее время стоимость массового продукта от $1000 до $10000. Лидеры Data Mining связывают будущее этих систем с использованием их в качестве интеллектуальных приложений, встроенных в корпоративные хранилища данных. Data Mining - РЕЗЮМЕ Несмотря на обилие методов Data Mining, приоритет постепенно все более смещается в сторону логических алгоритмов поиска в данных if-then правил. С их помощью решаются задачи: прогнозирования, классификации, распознавания образов, сегментации БД, извлечения из данных “скрытых” знаний, интерпретации данных, установления ассоциаций в БД и др. Результаты таких алгоритмов эффективны и легко интерпретируются. Специфические методы и области применения data mining методы нечёткой логики; системы рассуждений на основе аналогичных случаев; классификационные и регрессионные деревья решений; нейронные сети; генетические алгоритмы; байесовское обучение (ассоциации); кластеризация и классификация; эволюционное программирование; алгоритмы ограниченного перебора. Методы нечёткой логики используются для описания плохо формализуемых объектов из состава «мягких» знаний. Над ними также совершаются мягкие вычисления. Используется понятие «лингвистическая переменная», значения которой определяются через нечёткие множества, а они представляются базовым набором значений или базовой числовой шкалой. Системы рассуждений на основе аналогичных случаев case based reasoning (CBR) основаны на том, что принятие решения осуществляется по прецеденту, наиболее подходящему к данной ситуации с учётом определённых корректив. Иногда решение принимается на основе учёта всех примеров, находящихся в хранилище данных. Деревья решений основаны на иерархической древовидной структуре классифицирующих правил. Решения об отнесении того или иного объекта или ситуации к соответствующему классу принимается по ответам на вопросы, стоящие в узлах дерева. Положительный ответ означает переход к правому узлу следующего уровня, отрицательный — к левому узлу. Процесс разделения продолжается до полного ответа на все поставленные вопросы. Нейронные сети — это упрощённая аналогия нервной системы живого организма. Разработаны модели нейронных сетей. Распространённой моделью является многослойный персептрон с обратным распространением ошибки. Нейроны работают в составе иерархической сети, в которой нейроны нижележащего слоя своими выходами соединены с входами нейронов вышележащего слоя. На нейроны нижнего слоя подаются значения входных параметров, которые являются сигналами, которые передаются в следующий слой. При этом они ослабляются или усиливаются в зависимости от числовых значений, которые придаются межнейронным связям, называемых весами. На выходе нейрона верхнего слоя вырабатывается сигнал, являющийся ответом сети на введённые значения входных параметров. Для получения необходимых значений весов сеть необходимо «тренировать» на примерах с известными значениями входных параметров и правильных ответов на них. Подбираются такие веса, которые обеспечивают наибольшую близость ответов нейронной сети к правильным. Генетические алгоритмы представляют собой поисковый метод, используемый для нахождения наилучшего решения или совокупности решений. Он основан на идее естественного отбора. Начинается построение генетических алгоритмов с кодировки исходных логических закономерностей, называемых как и в биологии хромосомами. Набор таких кодов называют популяцией хромосом. Далее применяется функция пригодности, которая выделяет наиболее подходящие элементы для дальнейших операций. Это может быть отбор в какие-либо группы, но возможен и вариант применения скрещивания и мутации с целью получения «нового» поколения. Алгоритм работает над изменением старой популяции до тех пор, пока новая не будет отвечать заданным требованиям. Байесовское обучение или ассоциации применяются в тех случаях, когда сложилась ситуация увязки между собой некоторых событий. Например, заселение новостроек сопровождается приобретением мебели и других предметов домашнего обихода. Необходимо выявить количественные характеристики этой связи. Кластеризация и классификация. Слово кластеризация происходит от английского cluster — пучок, сгусток. Кластеризация предусматривает разделение совокупности схожих объектов на группы — кластеры по наибольшей близости их признаков. Проблема состоит в том, что оценка производится не по одному какому либо признаку, а одновременно по их совокупности. Разработаны алгоритмы кластеризации, которые пересчитывают значения признаков в некоторую величину, характеризующую «расстояние» между объектами рассматриваемой совокупности и объединяют близкие объекты в кластеры. Классификация отличается тем, что выявляются признаки, объединяющие объекты, которые уже состоят в группах. Этими методами занимается также и эконометрика. Эволюционное программирование. В этой методике предположения о виде аппроксимирующей функции строятся в виде программ на внутреннем языке программирования. Процесс построения программ выглядит как эволюция в среде программ. После нахождения в этой среде подходящей программы система начинает вносить в неё необходимые корректировки Эта методика реализована российской системой Polyanalyst . Специальный модуль этой системы переводит найденные зависимости на доступный язык формул, таблиц. Алгоритмы ограниченного перебора. Они вычисляют частоты комбинаций простых логических событий в группах данных. На основании оценки полученных частот делается заключение о полезности комбинаций для обнаружения ассоциаций в данных, прогнозирования и других целей. Эти методы стали весьма широко и эффективно применяться в связи с бурным развитием в последнее десятилетие XX века самих методик и соответствующих инструментальных средств. Они находят применение в тех ситуациях, когда обычные методы анализа трудно или невозможно применить из-за отсутствия сведений о характере или закономерностях исследуемых процессов, взаимозависимостях явлений, фактов, поведении объектов и систем из различных предметных областей, в том числе в социальной и экономической.

Приложенные файлы

  • ppt 26575734
    Размер файла: 1 MB Загрузок: 0

Добавить комментарий