Об одном подходе в организации практикума по разделу математики "Статистический анализ данных"
Автор: Кузнецов Владимир Георгиевич, доц. кафедры ТиМЕМОиИКТ ОГБУ ДПО "РИРО"; Назарова Ольга Анатольевна, старший преподаватель кафедры математики, физики и медицинской информатики ФГБОУ ВО Рязанский государственный медицинский институт Минздрава России; Жбанов Никита Сергеевич, студент магистратуры инженерного факультета Рязанского агротехнологического университета имени П.А.КостычеваСтатистическая обработка данных - раздел математики, который нужен практически всем: и руководителям всех рангов, и политологам, и социологам, и психологам, и экономистам, и медицинским работникам, и инженерно-техническим работникам, и бизнесменам.
Современному человеку ежедневно приходится решать многие проблемы выбора, связанные с организацией производства, сбытом готовой продукции, оптимизацией поставок сырья, областями вложения капитала, эффективностью деятельности персонала, перспективными исследованиями и т.д. Прошло то время, когда все эти вопросы можно было решать за счет личной энергии, интуиции и предыдущего опыта.
Тот, кто серьезно думает о перспективах своей деятельности, обязательно будет накапливать информацию об окружающем мире, пытаясь выделить закономерности из случайностей, чтобы опереться на них в своих действиях, и он будет постоянно искать стабильные и обоснованные критерии выбора, позволяющие стандартизировать процесс принятия решений.
Именно таким, изумительным по мощности и гибкости инструментом
для отсеивания закономерностей от случайностей и является аппарат
математической статистики, созданный многими поколениями выдающихся математиков.
В развитых странах практически любое решение: политическое, финансовое, техническое и даже бытовое решение принимается только после всестороннего анализа данных. Поэтому изучение прикладной статистики и методов анализа данных становится неотъемлемым компонентом образования на всех уровнях, а компьютерные статистические пакеты для аналитических исследований и прогнозирования превращаются в настольные рабочие инструменты любого специалиста, так или иначе связанного с информационной сферой.
Однако для осмысленной работы пользователь статистических пакетов должен обладать определенной подготовкой: понимать, в каких ситуациях применимы те или иные статистические методы, знать их возможности и ограничения, уметь корректно интерпретировать результаты. На Западе такая подготовка обеспечивается обучением по специальным программам и курсам практически на всех уровнях - в университетах, школах бизнеса, технических и гуманитарных колледжах, в старших классах средней школы.
Долгое время серьезным препятствием на пути внедрения в учебный процесс отечественных учебных заведений дисциплин, связанных с статистическим анализом данных, была дороговизна прикладного программного обеспечения, связанного с статистической обработкой данных.
С появлением широкодоступных учебных или бесплатных версий универсальных и специализированных статистических пакетов для персональных компьютеров, встроенных наборов статистических функций и специальных надстроек для табличных процессоров, бесплатных онлайн сервисов для решения различных статистических задач, доступной для скачивания из Интернета литературы по статистическому анализу данных появилась реальная возможность включения в отечественных учебных заведениях дисциплин, связанных с статистическим анализом данных, не только в технических и гуманитарных вузах, но и в учебный процесс общеобразовательный школ, гимназий, лицеев и колледжей.
Что касается наших общеобразовательных школ, то в них уже сейчас можно организовывать подготовку по прикладной статистике на факультативных курсах, в математических кружках, в классах с физико-математическим уклоном.
До недавнего времени в отечественных вузах гуманитарного профиля в дисциплинах по статистической обработки данных в качестве математического инструмента в лабораторных практикумах использовался, в основном, только табличный процессор Excel. В Интернете выложен широкий набор учебных пособий для свободного скачивания, лабораторный практикум в которых основан на использовании этого табличного процессора. В том числе:
- Статистический анализ средствами пакета MS Excel: Лабораторный практикум по дисциплине ≪Статистика≫ / Уфимск. гос. авиац. техн. ун-т; Сост.: В.Ю. Арьков, А.В. Жевак, А.И. Абдулнагимов. – Уфа, 2008. – 51 с.
- В.Я.Гельман. Решение математических задач средствами Excel. Практикум. Санкт-Петербург.: "Питер", 2003 - 240 с.
- Лапач С.Н., Чубенко А.В., Бабич П.Н. Статистические методы в медико-биологических исследованиях с использованием Excel - 2-е изд.,
перераб. и доп. - К МОРИОН. 2001 - 108 с.
- Лялин B.C. Статистика: теория и практика в Excel: учеб. пособие /
B.C. Лялин, И.Г. Зверева, Н.Г. Никифорова. - М.: Финансы и статистика; ИНФРА-М, 2010. - 448 с.
- Зайцев В. М., Лифляндский В. Г., Маринкин В. И. Прикладная медицинская статистика. - СПб: ООО «Издательство ФОЛИАНТ», 2003. - 432 с.
Но, несмотря на полезность в использовании Excel для анализа данных, мы хотели бы самым серьезным образом предостеречь потенциального пользователя от чрезмерного доверия к получаемым результатам. Речь, разумеется, не идет о том, что в табличном процессоре неверно считается среднее или дисперсия - формулы для вычисления простейших статистик, естественно, в них заложены правильные. Однако для более сложных задач типа проверки согласия или регрессионного анализа табличные процессоры очень часто содержат грубейшие ошибки, приводящие к неправильным выводам. Это не удивительно - в свое время при создании табличных процессоров статистические методы были включены в эти приложения как некий дополнительный сервис, наравне со встраиванием в них функций и для других категорий. Поэтому программирование статистических методов для таких программ свелось к переписыванию из какого-либо справочника по статистике соответствующих формул без учета их предназначения и границ применимости, что и приводит к указанным выше последствиям.
Непрофессионализм в статистике создателей подобных программ способен
сказаться и во многом другом. Например, проведя регрессионный анализ, Вы
можете получить совсем не те результаты из-за того, что где-то в матрице данных случайно забыли ввести одно число, а программа не исключила соответствующее наблюдение из обработки, не выдала сообщение об ошибке, а просто посчитала пропущенное число нулевым - просто потому, что таковы были заложенные в нее «соглашения». Ясно, что возможность подобных ситуаций требует крайней осторожности при использовании статистических методов, заложенных в табличные процессоры.
Таким образом, было бы надежнее не использовать продвинутые статистические возможности табличных процессоров, а экспортировать анализируемые данные и обрабатывать их с помощью статистических пакетов. Если же это неудобно, то следует сравнить на одних и тех же наборах данных результаты вычислений той статистической процедуры табличного процессора, которую Вы хотите использовать, и аналогичной процедуры статистического пакета. Если результаты для нескольких наборов данных в обоих случаях совпадают, то пользоваться статистической процедурой табличного процессора можно. Однако, при этом следует тщательно следить за правильностью подготовки исходных данных, так как обычно при каких-либо ошибках в этом случае Вы получите не сообщение об ошибке, а неправильный результат.
По указанным причинам расчеты, сделанные в среде Excel, не признаются авторитетными биомедицинскими журналами. Также в Excel невозможно построить качественные научные графики.
В этой связи в дополнение к табличному процессору Excel можно установить специальный статистический пакет AtteStat, являющийся надстройкой к Excel. Этот пакет был разработан И.П.Гайдышевым и выложен в Интернете для свободного скачивания. В Интернете также выложено для свободного скачивания авторское руководство пользователя этим пакетом (Гайдышев И.П. Моделирование стохастических и детерминированных систем: Руководство пользователя программы AtteStat. – Курган, 2015).
Можно также скачать из Интернета учебное пособие П.К.Петрова "Математико-статистическая обработка и графическое представление результатов педагогических исследований с использованием информационных технологий", в котором лабораторный практикум организован с использованием табличного процессора Excel, программы-надстройки AtteStat, а также бесплатных онлайн сервисов для решения отдельных статистических задач (Петров П.К. Математико-статистическая обработка и графическое представление результатов педагогических исследований с использованием информационных технологий: учеб. пособие, Ижевск: Изд-во «Удмуртский университет», 2013. 179 с.)
Еще большими функциональными возможностями обладает универсальный статистический пакет STADIA (Statistical Dialogue System), разработанный специалистами Московского государственного университета им. М.В. Ломоносова совместно с НПО "Информатика и компьютеры". Первая версия этого пакета была выпущена в 1989 году. На сегодняшний день разработана 7-я версия пакета STADIA 7.0.
Пакет ориентирован на массового пользователя, имеющего небольшой опыт как в статистическом анализе, так и в общении с персональным компьютером, но нуждающегося в быстром и удобном средстве оформления и обработки данных.
Пакет предоставляет пользователям широкий набор методов статистического анализа данных: описательная статистика, дисперсионный, корреляционный и спектральный анализ, сглаживание, прогнозирование, простая, нелинейная регрессия, кластерный и факторный анализ, методы контроля качества, анализ и замена пропущенных значений. Также возможно построение и редактирование 2-х, 3-х и многомерной графики: зависимости, прогнозы, диаграммы рассеяния, карты, гистограммы, столбиковые, башенные и круговые диаграммы, установка размеров, надписей по осям и под рисунком и пр.
В настоящее время пакет уже используется в учебном процессе и научно-практической работе более чем в 150 университетах России, включая 17 университетов медицинского профиля. Среди пользователей пакета не только ведущие медицинские центры страны (НИИ им. Сербского, НИИ педиатрии РАМН, НИИ дефектологии, институт медико-биологических проблем, НИИ медицинского приборостроения и др.), но и поликлиники, больницы, медсанчасти городов: Москвы, Самары, Перми, Тулы, Уфы, Липецка, Архангельска, Кисловодска, Оренбурга, Бердянска и др.
Пакет выпускается в трех вариантах: учебный, базовый и профессиональный.
Учебный вариант - бесплатный. В Интернете для свободного скачивания выложены две работы, связанные с анализом данных в среде STADIA:
- Кулаичев А.П. Методы и сродства анализа данных в среде Windows. STADIA. Изд. 4-е. - М: Информатика и компьютеры. 2002 - 341 с.
- Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. Изд. 3-е, перераб. и доп./ Под ред. В. Э. Фигурнова - М.: ИНФРА–М, 2002. - 528 с.
Обе работы являются учебными пособиями по анализу данных и статистике, рассчитанными на прикладных специалистов, менеджеров и студентов.
Излагаются основные сведения, необходимые на практике для анализа данных, на наглядных примерах рассматриваются основные постановки задач, а затем эти же примеры решаются с использованием STADIA.
В последней работе дополнительно приводятся также примеры решения статистических задач с помощью специализированного статистического пакета Эвриста, ориентированного на анализ временных рядов.
Примечание. Система Эвриста разработана и распространяется "Центром статистических исследований" и "Лабораторией математической статистики" при кафедре математической статистики факультета вычислительной математики и кибернетики МГУ. Пакет Эвриста имеет также бесплатный вариант для учебных целей, который можно скачать из Интернета.
Таким образом, в отечественных учебных заведениях любого уровня, включая общеобразовательные школы, гимназии, лицеи и колледжи, можно и нужно организовывать курсы по статистическому анализу данных с совместным использованием и Excel, и AtteStat, и Stadia.
В Интернете имеется обширная библиотека учебной литературы по статистической обработке данных для свободного скачивания, которые отличаются друг от друга не только своей специализацией (для политологов, социологов, психологов, медицинских работников, и т.д.), но и ориентацией своей практической частью на использование конкретных статистических пакетов (Statistica, SPSS, STATA, AtteStat, Stadia, и т.д).
Нами подготовлен на диске своеобразный банк данных, свободный для доступа со стороны студентов, в который мы включили, наряду со своими авторскими разработками, все скаченные из Интернета учебные материалы (перечень работ из этого банка данных с соответствующими аннотациями представлен в приложении к статье).
По нашему мнению, предлагаемый банк данных может оказать помощь не только студентам, но и преподавателям по следующим направлениям:
- преподаватели могут воспользоваться приводимыми в подборке литературы примерами при составлении своих авторских практикумов по конкретному направлению (сельское хозяйство, медицина, физкультура и спорт, социология и т.д.);
- студенты и старшеклассники смогут воспользоваться приводимыми материалами при самостоятельном освоении других статистических пакетов при установке на своих домашних компьютерах их демонстрационных или условно-бесплатных аналогов;
- организации студенческой научной работы в форме подготовки докладов по конкретной тематике, подготовке рефератов и т.д.
Предполагается, что банк данных будет постоянно пополняться новыми учебными материалами.
Полный вариант статьи во вложении (doc, 3MB)
Современному человеку ежедневно приходится решать многие проблемы выбора, связанные с организацией производства, сбытом готовой продукции, оптимизацией поставок сырья, областями вложения капитала, эффективностью деятельности персонала, перспективными исследованиями и т.д. Прошло то время, когда все эти вопросы можно было решать за счет личной энергии, интуиции и предыдущего опыта.
Тот, кто серьезно думает о перспективах своей деятельности, обязательно будет накапливать информацию об окружающем мире, пытаясь выделить закономерности из случайностей, чтобы опереться на них в своих действиях, и он будет постоянно искать стабильные и обоснованные критерии выбора, позволяющие стандартизировать процесс принятия решений.
Именно таким, изумительным по мощности и гибкости инструментом
для отсеивания закономерностей от случайностей и является аппарат
математической статистики, созданный многими поколениями выдающихся математиков.
В развитых странах практически любое решение: политическое, финансовое, техническое и даже бытовое решение принимается только после всестороннего анализа данных. Поэтому изучение прикладной статистики и методов анализа данных становится неотъемлемым компонентом образования на всех уровнях, а компьютерные статистические пакеты для аналитических исследований и прогнозирования превращаются в настольные рабочие инструменты любого специалиста, так или иначе связанного с информационной сферой.
Однако для осмысленной работы пользователь статистических пакетов должен обладать определенной подготовкой: понимать, в каких ситуациях применимы те или иные статистические методы, знать их возможности и ограничения, уметь корректно интерпретировать результаты. На Западе такая подготовка обеспечивается обучением по специальным программам и курсам практически на всех уровнях - в университетах, школах бизнеса, технических и гуманитарных колледжах, в старших классах средней школы.
Долгое время серьезным препятствием на пути внедрения в учебный процесс отечественных учебных заведений дисциплин, связанных с статистическим анализом данных, была дороговизна прикладного программного обеспечения, связанного с статистической обработкой данных.
С появлением широкодоступных учебных или бесплатных версий универсальных и специализированных статистических пакетов для персональных компьютеров, встроенных наборов статистических функций и специальных надстроек для табличных процессоров, бесплатных онлайн сервисов для решения различных статистических задач, доступной для скачивания из Интернета литературы по статистическому анализу данных появилась реальная возможность включения в отечественных учебных заведениях дисциплин, связанных с статистическим анализом данных, не только в технических и гуманитарных вузах, но и в учебный процесс общеобразовательный школ, гимназий, лицеев и колледжей.
Что касается наших общеобразовательных школ, то в них уже сейчас можно организовывать подготовку по прикладной статистике на факультативных курсах, в математических кружках, в классах с физико-математическим уклоном.
До недавнего времени в отечественных вузах гуманитарного профиля в дисциплинах по статистической обработки данных в качестве математического инструмента в лабораторных практикумах использовался, в основном, только табличный процессор Excel. В Интернете выложен широкий набор учебных пособий для свободного скачивания, лабораторный практикум в которых основан на использовании этого табличного процессора. В том числе:
- Статистический анализ средствами пакета MS Excel: Лабораторный практикум по дисциплине ≪Статистика≫ / Уфимск. гос. авиац. техн. ун-т; Сост.: В.Ю. Арьков, А.В. Жевак, А.И. Абдулнагимов. – Уфа, 2008. – 51 с.
- В.Я.Гельман. Решение математических задач средствами Excel. Практикум. Санкт-Петербург.: "Питер", 2003 - 240 с.
- Лапач С.Н., Чубенко А.В., Бабич П.Н. Статистические методы в медико-биологических исследованиях с использованием Excel - 2-е изд.,
перераб. и доп. - К МОРИОН. 2001 - 108 с.
- Лялин B.C. Статистика: теория и практика в Excel: учеб. пособие /
B.C. Лялин, И.Г. Зверева, Н.Г. Никифорова. - М.: Финансы и статистика; ИНФРА-М, 2010. - 448 с.
- Зайцев В. М., Лифляндский В. Г., Маринкин В. И. Прикладная медицинская статистика. - СПб: ООО «Издательство ФОЛИАНТ», 2003. - 432 с.
Но, несмотря на полезность в использовании Excel для анализа данных, мы хотели бы самым серьезным образом предостеречь потенциального пользователя от чрезмерного доверия к получаемым результатам. Речь, разумеется, не идет о том, что в табличном процессоре неверно считается среднее или дисперсия - формулы для вычисления простейших статистик, естественно, в них заложены правильные. Однако для более сложных задач типа проверки согласия или регрессионного анализа табличные процессоры очень часто содержат грубейшие ошибки, приводящие к неправильным выводам. Это не удивительно - в свое время при создании табличных процессоров статистические методы были включены в эти приложения как некий дополнительный сервис, наравне со встраиванием в них функций и для других категорий. Поэтому программирование статистических методов для таких программ свелось к переписыванию из какого-либо справочника по статистике соответствующих формул без учета их предназначения и границ применимости, что и приводит к указанным выше последствиям.
Непрофессионализм в статистике создателей подобных программ способен
сказаться и во многом другом. Например, проведя регрессионный анализ, Вы
можете получить совсем не те результаты из-за того, что где-то в матрице данных случайно забыли ввести одно число, а программа не исключила соответствующее наблюдение из обработки, не выдала сообщение об ошибке, а просто посчитала пропущенное число нулевым - просто потому, что таковы были заложенные в нее «соглашения». Ясно, что возможность подобных ситуаций требует крайней осторожности при использовании статистических методов, заложенных в табличные процессоры.
Таким образом, было бы надежнее не использовать продвинутые статистические возможности табличных процессоров, а экспортировать анализируемые данные и обрабатывать их с помощью статистических пакетов. Если же это неудобно, то следует сравнить на одних и тех же наборах данных результаты вычислений той статистической процедуры табличного процессора, которую Вы хотите использовать, и аналогичной процедуры статистического пакета. Если результаты для нескольких наборов данных в обоих случаях совпадают, то пользоваться статистической процедурой табличного процессора можно. Однако, при этом следует тщательно следить за правильностью подготовки исходных данных, так как обычно при каких-либо ошибках в этом случае Вы получите не сообщение об ошибке, а неправильный результат.
По указанным причинам расчеты, сделанные в среде Excel, не признаются авторитетными биомедицинскими журналами. Также в Excel невозможно построить качественные научные графики.
В этой связи в дополнение к табличному процессору Excel можно установить специальный статистический пакет AtteStat, являющийся надстройкой к Excel. Этот пакет был разработан И.П.Гайдышевым и выложен в Интернете для свободного скачивания. В Интернете также выложено для свободного скачивания авторское руководство пользователя этим пакетом (Гайдышев И.П. Моделирование стохастических и детерминированных систем: Руководство пользователя программы AtteStat. – Курган, 2015).
Можно также скачать из Интернета учебное пособие П.К.Петрова "Математико-статистическая обработка и графическое представление результатов педагогических исследований с использованием информационных технологий", в котором лабораторный практикум организован с использованием табличного процессора Excel, программы-надстройки AtteStat, а также бесплатных онлайн сервисов для решения отдельных статистических задач (Петров П.К. Математико-статистическая обработка и графическое представление результатов педагогических исследований с использованием информационных технологий: учеб. пособие, Ижевск: Изд-во «Удмуртский университет», 2013. 179 с.)
Еще большими функциональными возможностями обладает универсальный статистический пакет STADIA (Statistical Dialogue System), разработанный специалистами Московского государственного университета им. М.В. Ломоносова совместно с НПО "Информатика и компьютеры". Первая версия этого пакета была выпущена в 1989 году. На сегодняшний день разработана 7-я версия пакета STADIA 7.0.
Пакет ориентирован на массового пользователя, имеющего небольшой опыт как в статистическом анализе, так и в общении с персональным компьютером, но нуждающегося в быстром и удобном средстве оформления и обработки данных.
Пакет предоставляет пользователям широкий набор методов статистического анализа данных: описательная статистика, дисперсионный, корреляционный и спектральный анализ, сглаживание, прогнозирование, простая, нелинейная регрессия, кластерный и факторный анализ, методы контроля качества, анализ и замена пропущенных значений. Также возможно построение и редактирование 2-х, 3-х и многомерной графики: зависимости, прогнозы, диаграммы рассеяния, карты, гистограммы, столбиковые, башенные и круговые диаграммы, установка размеров, надписей по осям и под рисунком и пр.
В настоящее время пакет уже используется в учебном процессе и научно-практической работе более чем в 150 университетах России, включая 17 университетов медицинского профиля. Среди пользователей пакета не только ведущие медицинские центры страны (НИИ им. Сербского, НИИ педиатрии РАМН, НИИ дефектологии, институт медико-биологических проблем, НИИ медицинского приборостроения и др.), но и поликлиники, больницы, медсанчасти городов: Москвы, Самары, Перми, Тулы, Уфы, Липецка, Архангельска, Кисловодска, Оренбурга, Бердянска и др.
Пакет выпускается в трех вариантах: учебный, базовый и профессиональный.
Учебный вариант - бесплатный. В Интернете для свободного скачивания выложены две работы, связанные с анализом данных в среде STADIA:
- Кулаичев А.П. Методы и сродства анализа данных в среде Windows. STADIA. Изд. 4-е. - М: Информатика и компьютеры. 2002 - 341 с.
- Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. Изд. 3-е, перераб. и доп./ Под ред. В. Э. Фигурнова - М.: ИНФРА–М, 2002. - 528 с.
Обе работы являются учебными пособиями по анализу данных и статистике, рассчитанными на прикладных специалистов, менеджеров и студентов.
Излагаются основные сведения, необходимые на практике для анализа данных, на наглядных примерах рассматриваются основные постановки задач, а затем эти же примеры решаются с использованием STADIA.
В последней работе дополнительно приводятся также примеры решения статистических задач с помощью специализированного статистического пакета Эвриста, ориентированного на анализ временных рядов.
Примечание. Система Эвриста разработана и распространяется "Центром статистических исследований" и "Лабораторией математической статистики" при кафедре математической статистики факультета вычислительной математики и кибернетики МГУ. Пакет Эвриста имеет также бесплатный вариант для учебных целей, который можно скачать из Интернета.
Таким образом, в отечественных учебных заведениях любого уровня, включая общеобразовательные школы, гимназии, лицеи и колледжи, можно и нужно организовывать курсы по статистическому анализу данных с совместным использованием и Excel, и AtteStat, и Stadia.
В Интернете имеется обширная библиотека учебной литературы по статистической обработке данных для свободного скачивания, которые отличаются друг от друга не только своей специализацией (для политологов, социологов, психологов, медицинских работников, и т.д.), но и ориентацией своей практической частью на использование конкретных статистических пакетов (Statistica, SPSS, STATA, AtteStat, Stadia, и т.д).
Нами подготовлен на диске своеобразный банк данных, свободный для доступа со стороны студентов, в который мы включили, наряду со своими авторскими разработками, все скаченные из Интернета учебные материалы (перечень работ из этого банка данных с соответствующими аннотациями представлен в приложении к статье).
По нашему мнению, предлагаемый банк данных может оказать помощь не только студентам, но и преподавателям по следующим направлениям:
- преподаватели могут воспользоваться приводимыми в подборке литературы примерами при составлении своих авторских практикумов по конкретному направлению (сельское хозяйство, медицина, физкультура и спорт, социология и т.д.);
- студенты и старшеклассники смогут воспользоваться приводимыми материалами при самостоятельном освоении других статистических пакетов при установке на своих домашних компьютерах их демонстрационных или условно-бесплатных аналогов;
- организации студенческой научной работы в форме подготовки докладов по конкретной тематике, подготовке рефератов и т.д.
Предполагается, что банк данных будет постоянно пополняться новыми учебными материалами.
Полный вариант статьи во вложении (doc, 3MB)
Скачать вложение