Интернет

Программный комплекс статистика. Бесплатные программы для статистического анализа данных

Программный комплекс статистика. Бесплатные программы для статистического анализа данных

Аннотация: В современном мире принятие управленческих, производственных, финансовых, кадровых и других решений все чаще основывается на всестороннем анализе данных, что позволяет делать более обоснованные выводы и прогнозы, давать оценки вероятности их выполнения и зачастую предотвращать принятие необоснованных и непродуманных решений.

В этой главе представлен обзор наиболее известных программных продуктов, разработанных для статистической обработки данных на компьютере и относящихся к упомянутым ранее трем основным группам программ (см. таблицу 11.1), перечислены их основные характеристики и возможности статистического анализа данных.

При рассмотрении каждого пакета отдельно будут отмечены возможности статистического анализа, которые он предоставляет пользователям. Необходимо отметить, что существует минимальный набор статистических методов анализа, который включен во все рассмотренные пакеты:

  • описательная статистика (базовые статистические методы, проверка нормальности распределения данных);
  • дисперсионный анализ;
  • непараметрическая статистика (анализ таблиц сопряженности, непараметрические сравнения, дисперсионный анализ);
  • контроль качества;
  • анализ выживаемости;
  • кластерный анализ;
  • факторный анализ;
  • дискриминантный анализ;
  • регрессионный анализ;
  • обработка данных (сортировка, отбор, трансформация данных ).

11.2. Пакет SPSS

Пакет SРSS (Statistical Package for the Social Sciences ) – универсальный статистический пакет компании SРSS Inc 5Официальный сайт компании SPSS Inc.: http://www.spss.com . Первая версия пакета была выпущена в 1968 г. В 2009 г. компания IBM поглотила SPSS Inc., поэтому новая версия пакета включает в свое название аббревиатуру IBM ( IBM SPSS Statistics 19).

По мнению разработчиков пакета, SPSS является одним из лидирующих программных продуктов в области статистического анализа данных для решения вопросов в правительственной, академической и бизнессфере.

SРSS является модульной программой. Ее основу составляет базовый модуль (SPSS Base ), позволяющий осуществлять управление данными и содержащий наиболее распространенные методы статистического анализа данных: проведение описательной статистики ; построение линейных и нелинейных моделей ; осуществление преобразования данных; проведение факторного, кластерного, дисперсионного анализов; вычисление корреляций; построение графиков; подготовка отчетов и пр.

Для проведения расширенного и углубленного анализа данных могут быть установлены дополнительные модули пакета. Для пакета IBM SPSS Statistics 19 разработаны 16 различных модулей. Например, модуль IBM SPSS Advanced Statistics предназначен для проведения анализа сложных взаимосвязей при помощи процедур, учитывающих свойства исследуемых данных, что позволяет продвинуться за рамки базового анализа данных. В модуль встроены мощные инструменты построения моделей. Модуль

  • 7. Информационные технологии сбора, хранения и быстрой обработки научной информации
  • 8 Вычислительная техника, классификация компьютеров по применению
  • 9 Проблемы и риски внедрения информационных технологий в общественной практике
  • 10. Периферийные устройства. Электронная оргтехника
  • 11. Техническое и программное обеспечение современных процедур научной деятельности.
  • 12.Понятие модели. Основные принципы и этапы моделирования.
  • 13. Компьютерное моделирование
  • 14. Математическое обеспечение информационных технологий
  • 15. Пакеты прикладных программ по статистическому анализу данных
  • 16. Возможности и особенности пакета Statgraphics
  • 17. Пакет Statgraphics. Одномерный статистический анализ: оценка числовых характеристик, подбор закона распределения случайных величин
  • 18. Пакет Statgraphics. Сравнение нескольких случайных величин: сравнение числовых характеристик и законов распределения
  • 19. Пакет Statgraphics. Анализ зависимостей между величинами: регрессионный и корреляционный анализ. Анализ временных рядов
  • 20. Пакет Statgraphics. Многомерный анализ: метод главных компонент, кластерный, дискриминантный анализ
  • 21. Имитационное моделирование. Принципы построения имитационных моделей
  • 22. Имитационные эксперименты. Язык имитационного моделирования gpss - возможности, структура
  • 23. Назначение и состав универсальной интегрированной компьютерной математики matlab
  • 24.Интерфейс системы, основные объекты и форматы чисел matlab.
  • 25.Операторы и функции в matlab.
  • 26. Матричные вычисления в MathCad
  • 27. Построение графиков
  • 28. Основы программирования в MathCad
  • 29. Текстовые и табличные процессоры
  • 30. Анализ данных средствамиExcel
  • 31. Пакет анализа ms Excel. Описательная статистика. Гистограммы.
  • 1. Общие сведения
  • 2. Основные встроенные статистические функции
  • 3. Анализ выборок и совокупности
  • 4. Инструмент анализа Описательная статистика
  • 5. Инструмент Гистограмма
  • 6. Ранг и Персентиль
  • 32. Пакет анализа ms Excel. Генерация случайных чисел.
  • 7. Генерирование случайных чисел
  • 8. Построение выборок из генеральной совокупности
  • 9. Вычисление скользящего среднего
  • 10. Линейная и экспоненциальная регрессии
  • 33. Корреляционно-регрессионный анализ в msExcel
  • Однофакторный регрессионный анализ с применением инструмента регрессии
  • 34 Поиск корней уравнения с помощью подбора параметра в ms Excel
  • 35 Поиск решения. Решение задач оптимизации средствами ms Excel
  • 36. Системы подготовки презентаций.
  • 37 Основы web-дизайна
  • 38 Основы использования языка html
  • Раздел 1
  • Раздел 2
  • Раздел 1
  • Раздел 2
  • 39. Сервисные инструментальные средства.
  • 40. Основы компьютерной графики.
  • 41 Возможности и назначение AutoCad.
  • 42 Разработка проекта в системе Autocad
  • 43 Модели представления данных. Типы, структуры данных.
  • 44 Базы и банки данных. Основы проектирования баз данных.
  • 45 Реляционные сетевые и иерархические базы данных
  • 46. Системы управления базами данных субд
  • 47. Объекты ms Access
  • 48. Построение различных типов запросов в ms Access
  • 1 Создание запроса на выборку при помощи мастера
  • 2 Создание запроса на выборку без помощи мастера
  • 3. Создание запроса с параметрами, запрашивающего ввод условий отбора при каждом запуске
  • 49. Формы и отчеты в ms Access
  • 50. Основы программирования на языке Visual Basic for Applications
  • 51. Базы знаний
  • 52. Компьютерные сети: Локальные, корпоративные, региональные, глобальные.
  • 53. Службы сети Интернет
  • 54. Работа с почтовым клиентом.
  • 55 Планирование совместной деятельности в корпоративной сети с помощью почтовых программ.
  • 56. Работа со средствами навигации в www
  • 57 Методы и средства поиска информации в Интернет
  • 1 Поисковые системы
  • 3. Каталоги интернет-ресурсов
  • 58. Деловые интернет-технологии
  • 59. Проблемы защиты информации.
  • 60. Организационные методы защиты информации
  • 61. Технические и программные методы защиты локальных данных
  • 62.Технические и программные методы защиты распределённых данных.
  • 1) Служба www
  • 2) Электронная цифровая подпись (эцп)
  • 63 Тенденции развития информационных технологий
  • 64. Пути решения проблемы информатизации общества
  • 65. Новые технические средства и программные продукты, интеллектуализация средств
  • 66. Внедрение информационных технологий (ит) в образование
  • Глава 1 общие положения
  • Глава 2 государственное регулирование и управление в области информации, информатизации и защиты информации
  • Глава 3 правовой режим информации
  • Глава 4 распространение и (или) предоставление информации
  • Глава 5 информационные ресурсы
  • Глава 6 информационные технологии, информационные системы и информационные сети
  • Глава 7 защита информации
  • Глава 8 права и обязанности субъектов информационных отношений. Ответственность за нарушение требований законодательства об информации, информатизации и защите информации
  • Глава 9 заключительные положения
  • 9 Августа 2010 г. № 1174
  • Глава 1 общие положения
  • Глава 2 состояние развития информационного общества
  • Глава 3 цель, задачи и условия развития информационного общества
  • Глава 4 факторы развития информационного общества
  • Глава 5 приоритетные направления развития информационного общества
  • Глава 6 показатели системы мониторинга
  • Глава 7 механизм реализации настоящей стратегии
  • Глава 8 ожидаемые результаты от реализации настоящей стратегии
  • 15. Пакеты прикладных программ по статистическому анализу данных

    Все программы статистической обработки данных можно разделить на профессиональные, полупрофессиональные (популярные) и специализированные.

    MS Excel . Microsoft Excel (также иногда называется Microsoft Office Excel) - программа для работы с электронными таблицами. Она предоставляет возможности экономико-статистических расчетов, графические инструменты и, язык макропрограммирования VBA (Visual Basic для приложений). MS Excel - это электронная таблица с достаточно мощными математическими возможностями, где некоторые статистические функции являются просто дополнительными встроенными формулами.

    SPSS (Statistical Package for Social Science). SPSS Statistics (аббревиатура англ. «Statistical Package for the Social Sciences» - «статистический пакет для социальных наук») - компьютерная программа для статистической обработки данных, один из лидеров рынка в области коммерческих статистических продуктов, предназначенных для проведения прикладных исследований в социальных науках.

    Между 2009 и 2010 название программного обеспечения SPSS было изменено на PASW (Predictive Analytics SoftWare) Statistics. По состоянию на январь 2010 года компания стала называться "SPSS: An IBM Company".

    Возможности

      Ввод и хранение данных.

      Возможность использования переменных разных типов.

      Частотность признаков, таблицы, графики, таблицы сопряжённости, диаграммы.

      Первичная описательная статистика.

      Маркетинговые исследования

      Анализ данных маркетинговых исследований

    STATISTICA . Statistica (торговая марка - STATISTICA) - пакет для всестороннего статистического анализа, разработанный компанией StatSoft. В пакете STATISTICA реализованы процедуры для анализа данных(data analysis), управления данными (data management), добычи данных (data mining), визуализации данных (data visualization). Несложный в освоении этот статистический пакет включает большое количество методов статистического анализа (более 250 встроенных функций) объединенных специализированными статистическими модулями.

    Существуют различные варианты пакета в зависимости от целей и задач пользователя:

      однопользовательская версия (Single-User)

      сетевая версия (Concurrent Network) - для использования в локальных вычислительных сетях

      Enterprise версия - для использования в вычислительных системах и крупных организациях

      Web-Based - для использования в крупных сетях через web-браузер.

    Структура пакета

      Пакет STATISTICA имеет модульную структуру. Каждый модуль содержит уникальные процедуры и методы анализа данных:

      Base - включает в себя обширный выбор основных статистик, широкий набор методов для разведочного анализа.

      Advanced Linear/Non-Linear Models - предлагает широкий спектр линейных и нелинейных средств моделирования, регрессионный анализ, анализ компонент дисперсий, анализ временных рядов и т. д.

      Multivariate Exploratory Techniques - многомерные разведочные технологии анализа STATISTICA предоставляет широкий выбор разведочных технологий, начиная с кластерного анализа до расширенных методов классификационных деревьев, в сочетании с бесчисленным набором средств интерактивной визуализации для построения связей и шаблонов

      QC - Контроль качества - предоставляет широкий спектр аналитических методов управления качеством, а также контрольные карты презентационного качества, непревзойденной гибкости и разнообразия.

      Neural Networks - (отдельный модуль) единственный в мире программный продукт для нейросетевых исследований, полностью переведенный на русский язык

      Data Miner - интеллектуальный анализ данных

    Графика

    Система STATISTICA обладает широкими графическими возможностями. STATISTICA включает в себя большое количество разнообразных категорий и типов графиков (включая научные, деловые, трехмерные и двухмерные графики в различных системах координат, специализированные статистические графики - гистограммы, матричные, категорированные графики и др.).

    В систему STATISTICA включено большое количество инструментов настройки всех компонент графиков. Имеется возможность выбора различных типов линий, форматов разметки осей, цветов, легенд, названий и других атрибутов графика. Настроенные атрибуты могут быть сохранены в специальном файле и потом применяться к другим графикам. Доступ ко всем основным командам настройки реализован при помощи контекстных меню, которые появляются при нажатии на правую кнопку мыши, общего меню и из панели инструментов графика. STATGRAPHICS PLUS. Довольно мощная статистическая программа. Содержит более 250 статистических функций, генерирует понятные, настраиваемые отчеты. Последняя доступная версия - 5.1. Ее можно получить на сайте http://www.statgraphics.com/ Есть возможность скачать демо-версию. Следует отметить, что ранние версии этой программы были весьма популярны у отечественных исследователей.

    MATLAB MATLAB (сокращение от англ. «Matrix Laboratory») - термин, относящийся к пакету прикладных программ для решения задач технических вычислений, а также к используемому в этом пакете языку программирования. MATLAB используют более 1 000 000 инженерных и научных работников, он работает на большинстве современных операционных систем, включая Linux, Mac OS, Solaris и Microsoft Windows

    MATLAB предоставляет пользователю большое количество (несколько сотен) функций для анализа данных, покрывающие практически все области математики, в частности:

      Матрицы и линейная алгебра - алгебра матриц, линейные уравнения, собственные значения и вектора, сингулярности, факторизация матриц и другие.

      Многочлены и интерполяция - корни многочленов, операции над многочленами и их дифференцирование, интерполяция и экстраполяция кривых и другие.

      Математическая статистика и анализ данных - статистические функции, статистическая регрессия, цифровая фильтрация, быстрое преобразование Фурье и другие.

      Обработка данных - набор специальных функций, включая построение графиков, оптимизацию, поиск нулей, численное интегрирование (в квадратурах) и другие.

      Дифференциальные уравнения - решение дифференциальных и дифференциально-алгебраических уравнений, дифференциальных уравнений с запаздыванием, уравнений с ограничениями, уравнений в частных производных и другие.

      Разреженные матрицы - специальный класс данных пакета MATLAB, использующийся в специализированных приложениях.

      Целочисленная арифметика - выполнение операций целочисленной арифметики в среде MATLAB.

    STADIA. Программа российской разработки с 16-и летней историей. Включает в себя все необходимые статистические функции. Она прекрасно справляется со своей задачей - статистическим анализом. Но программа внешне фактически не изменяется с 1996 года. Графики и диаграммы, построенные при помощи STADIA, выглядят в современных презентациях архаично.

    STATA. Профессиональный статистический программный пакет. Один из самых популярных в образовательных и научных учреждениях США наряду с SPSS.

    JMR. Один из мировых лидеров в анализе данных.

    SYSTAT Статистическая система для персональных компьютеров.

    NCSS. Программа развивается с 1981 года и рассчитана на непрофессионалов в области статистической обработки. Интерфейс системы многооконный и как следствие – немного непривычный в использовании.

    MINITAB 14. Это достаточно удобный в работе программный пакет, имеющий хороший интерфейс пользователя, хорошие возможности по визуализации результатов работы.

    STATGRAPHICS PLUS. Довольно мощная статистическая программа. Содержит более 250 статистических функций, генерирует понятные, настраиваемые отчеты.

    PRISM. Интуитивно понятный интерфейс позволяет в считанные минуты проанализировать данные и построить качественные графики. Программа содержит основные часто применяемые статистические функции, которых в большинстве исследований будет достаточно.

    Data Pilot – данная программа была специально разработана для расширенного анализа данных опций, имеющихся в Microsoft Excel с непараметрическими статистическими методами. ... Такая тесная интеграция с Microsoft Excel позволяет пользователю получить преимущества всего потенциала программы для ввода данных и создания отчетов. ... Статистические методы, используемые в приложении, предоставляют...

    Хотя и существуют похожие программы , но только "BabyPlan" использует совокупные статистические данные, чтобы выдать самые надежные результаты. ... Приложение "BabyPlan" – представляет собой обычную рабочую книгу Microsoft Excel и поэтому может использоваться на любом компьютере (даже в карманном компьютере) с инсталлированным Microsoft Excel (или любым другим программным обеспечением,...

    ... - Статистические и настраиваемые графики. ... - Простая в использовании, привлекательная графически программа , очень понятна в работе. ... Вы можете просто ввести ваш вес и калории и программа посчитает результат, и предоставит сбалансированную диету для вас. ... Программа потери веса разработана именно для этой проблемы. ... - Резервируйте данные по еде и упражнениям.

    Мы предоставляем данную программу для тех, кто уже имеет статистические системы. ... iMediaPOLL был запущен iMediaLearn для того, чтобы стимулировать мировой электронное обучение и демократизации онлайн доступа для ноу-хау владельцев. ... Основные характеристики: - настраиваемый цвет опроса; - настраиваемая ширина опроса; - неограниченное количество одновременных опросов;...

    В отличие от других календарей, которые отображают статистические значения или определяют несколько дней по стандарту, анализ способности к воспроизведению рождаемости от PERIMON основывается на ваших индивидуальных циклах. ... Данная программа проста в использовании и проверена с момента запуска сервиса в 1996 году. ... Для оптимизации своих прогнозов PERIMON вычисляет – в сравнение с...

    ... Статистические отчеты по работе сайте, графики и диаграммы, составленные приложением предоставляют детальную информацию по этим точкам. ... Biz Free Website Monitoring – это сервисная программа проверки доступности сайта и его производительности. ... Данная программа – это решение, которое поможет вам получить реальную картинку доступности и производительности ваших веб сайтов.

    К характеристикам относится: групповой символ и точный поиск по фразам; результат контекстного поиска в стиле Google; выделение найденных слов; предположения по правильности написания и синонимы; негативные/исключительные поиски; отображение изображений/миниатюр в поисковых результатах; установка приоритетов по рекомендованным ссылкам для ключевых слов/фраз; A9 и OpenSearch совместимость с...

    Информацию о сгенерированных частотах можно сохранить в специально предназначенной для этого таблице для дальнейшего использования и статистического анализа. ... Программа предназначена для генерации звуковых частот – независимо для правого и левого каналов. ... Генератор является отличным помощником для психофизических и психо-акустических экспериментов.

    Обзор статистических программ






    На этапе планирования эксперимента полезным для исследователя будут функции из меню Sampling, позволяющие определить необходимую численность групп для некоторых, наиболее общих, исследовательских задач. Среди функций, реализованных в MedCalc, следует особо отметить возможность проведения основных видов статистического анализа, не имея выборочных значений, т.е. на основе средних величин, показателей разброса и т. п. Это может быть полезно при изучении литературных данных, поскольку полной информации о первичных результатах эксперимента в публикациях не приводится. Например, для сравнения выборочных средних с помощью критерия Стьюдента достаточно знать сами средние арифметические, стандартное отклонение и размеры обеих выборок. Эти данные следует ввести в окне, вызываемом меню Tests > Comparison of >


    Название: Обзор статистических программ
    Детальное описание:

    Продуктивность выполняемой работы тесно связана с используемыми инструментами. Так, по легенде, Архимед заявил, что сможет перевернуть Землю, если получит необходимую точку опоры и рычаг. Но необходимого инструментария у великого философа не оказалось, и наша планета до сих пор летит по своей орбите. Похожая ситуация складывается и в области статистического анализа результатов исследований. Проводить статобработку данных вполне возможно, имея только лишь карандаш и бумагу, но намного быстрее и эффективней делать это при помощи специальных инструментов, а именно статистического программного обеспечения. Строго говоря, программные пакеты, применяемые для статистического анализа, следует относить к математическим программам, поэтому в данной статье термины «математический» и «статистический» будут использоваться как синонимы.

    Как правило, первые шаги в статистике молодые ученые делают в табличных процессорах, причем подавляющее большинство использует MS Excel. Второй по популярности табличный процессор на сегодняшний день - Calc из офисного пакета OpenOffice.org. К сожалению, некоторые исследователи воспринимают эти программы как наиболее удобный и подходящий инструмент для анализа. Однако они заблуждаются. Использование подобного софта допустимо в тех случаях, если необходимо выполнить простейшие операции вроде сортировки данных, вычисления описательных статистик, построения некоторых видов графиков, а также просто для того, чтобы сохранить первичные данные своего эксперимента и вести лабораторный журнал. Другими словами, полноценная статобработка результатов исследования в Excel невозможна. Это офисное приложение, а не научное.

    Все научные математические приложения можно разделить на две большие группы: программы с графическим интерфейсом и без него. Не следует думать, что графический интерфейс каким-то образом характеризует качество программного продукта. Эти свойства никоим образом не зависят друг от друга. Тем не менее, подобное разделение имеет огромное практическое значение. Дело в том, что далеко не каждый может комфортно работать в командной строке. Сегодня многие пользователи компьютера не допускают и мысли об отказе от «кликодромов», на которых держится внушительная часть современной IT-индустрии. Однако математические вычисления все-таки удобней выполнять путем набора команд с клавиатуры, а не щелканьем по многочисленным кнопкам на экране. Поэтому в серьезных приложениях есть режим командной строки со встроенным языком программирования и графический интерфейс.

    Для начала познакомимся со средой статистических вычислений и языком программирования R. Его истоки лежат в языке программирования S, с которым у них очень много общего. Стандартная комплектация R не предполагает графического интерфейса, привычного для многих пользователей. В результате у ряда исследователей возникает ошибочное мнение, что данный инструмент позволяет выполнять только численные вычисления, но не имеет возможностей для построения графиков. Это не так. В системе R имеются широкие возможности для статистической обработки данных, в том числе и для работы с графикой, а оконный интерфейс можно установить как дополнительное приложение. Но следует иметь в виду, что графические пользовательские интерфейсы для R заметно уступают таковым в остальных статистических пакетах.

    Установить среду R можно на компьютере под управлением Windows, MacOS или Linux. При запуске системы R у неискушенного пользователя возникнет вопрос: «Куда мне вводить данные?». Из-за отсутствия встроенного табличного редактора анализируемая информация либо вводится непосредственно в командную строку в виде аргумента соответствующих функций, либо загружается из внешних файлов. Первый вариант удобен при работе с единичными значениями, а второй - в тех случаях, когда необходимо работать с таблицами. Сами таблицы можно создавать в любом табличном процессоре, а файлы сохранять в формате *.csv, который легко загружается в R.

    Загрузив информацию в переменные, можно начинать ее обрабатывать, используя огромное количество функций, реализованных в R. Но следует помнить, что все промежуточные данные при работе с этим языком, хранятся не во временных файлах, а непосредственно в оперативной памяти. Эту особенность необходимо иметь в виду при обработке очень больших объемов информации: R будет использовать значительную часть оперативной памяти компьютера.
    Синтаксис языка достаточно прост и легок в изучении. На сегодняшний день написано более сотни книг по самым разным направлениям использования среды статистических вычислений R, но все они на английском языке. К сожалению, русскоязычной информации еще очень мало и она представлена лишь в виде разрозненных статей по некоторым вопросам использования данного языка программирования. Именно недостаток информации сдерживает распространение высококачественного программного пакета в нашей стране (при том, что он является бесплатным).

    Надежность R объясняется его происхождением. Язык был создан, как свободная реализация очень мощного языка программирования S, история которого началась еще в 1976 году, когда появилась первая рабочая версия. На сегодняшний день язык S является основой приложения S-PLUS, разрабатываемого TIBCO Software Inc., и, в отличие от R, представляет собой коммерческий продукт. S-PLUS имеет приятный графический интерфейс, ввод данных в котором может быть осуществлен путем загрузки из внешнего файла, базы данных или же копированием таблицы из текстового файла, либо табличного процессора. S-PLUS, так же как и R, может работать в разных операционных системах и использоваться для выполнения численных и графических методов анализа.

    Еще одно популярное статистическое приложение - это система SAS, которая зародилась в 60-х годах XX века в Университете Северной Каролины как приложение для анализа результатов сельскохозяйственных исследований. На сегодняшний день система продолжает развиваться в компании SAS Institute, которая выпустила уже девятую версию этой программы. Область применения SAS - самые разнообразные научные исследования, бизнес аналитика и т. д.

    Система состоит из модулей, каждый из которых выполняет определенный круг задач. Наиболее часто при статобработке используются модули BASE и STAT. В системе SAS реализован собственный язык программирования, который по своему синтаксису ближе к бэйсику и не похож на R или S. Система позволяет загружать данные из внешних файлов или же вводить их непосредственно в окно терминала. Работая с использованием SAS можно проводить статистическую обработку данных разного уровня сложности, в соответствии с поставленными задачами. Взаимодействие с программой возможно как в консольном режиме, так и через графический интерфейс, который представляет собой графическую оболочку для упрощенного ввода команд языка программирования SAS.

    К программам использующим преимущественно интерфейс командной строки относится также Stata, разрабатываемая американской корпорацией StataCorp. Приложение может работать на операционных системах семейства Windows, в MasOS и Linux. Ввод данных здесь возможен как путем загрузки из внешних файлов, так и с использованием встроенного табличного редактора, который довольно прост, но позволяет выполнять все необходимые манипуляции с таблицами. Принципы работы с приложением Stata не отличаются от таковых при использовании описанных выше программ. Те пользователи, которым терминальный режим покажется неудобным, могут использовать меню программы для автоматической генерации команд встроенного языка программирования.
    Все описанные статистические пакеты могут применяться при любых видах статистического анализа. Так, функциональность языка R может быть изменена добавлением библиотек функций, ориентированных на строго определенный тип задач. Кроме того, каждый, кто имеет достаточно знаний и опыта работы с этим языком может создавать собственные функции и библиотеки, соответствующие специфике работы конкретного пользователя.

    Но помимо статистического софта «широкого профиля» существуют программы ориентированные на ученых, работающих в области биомедицинских исследований. Так, программа MedCalc, разрабатываемая с 1993 года бельгийской компанией MedCalc Software, позиционируется как полноценное статистическое приложение, созданное в соответствии с потребностями исследователей биомедицинского направления. Разработчики акцентируют внимание исследователей на удобстве использования MedCalc для анализа ROC-кривых.

    Программа удобна тем, что не предлагает избыточной функциональности, которая зачастую приводит в замешательство неподготовленного человека, начинающего работать с универсальными приложениями. В дополнение к этому, возможность работы только в графическом интерфейсе без использования командной строки делает программу менее гибкой, но зато более привлекательной для использования в данной области науки, поскольку специалисты с медицинским образованием очень редко могут похвастаться большим опытом работы с математическими программами.

    На сегодняшний день создана уже двенадцатая версия программы. К сожалению, работать в MedCalc могут только пользователи Windows, но этот недостаток компенсируется относительно малыми системными требованиями и возможность запустить приложение как в Windows 2000, так и в Windows 7. Для тех, кто еще ни разу не пользовался программой, есть возможность скачать полнофункциональную демонстрационную версию продукта с сайта medcalc.org, которая будет работать без ограничений в течение пятнадцати дней. Кроме того, в комплект поставки входят демонстрационные файлы, содержащие наборы данных и примеры их анализа.

    Ввод данных в MedCalc осуществляется в интегрированном табличном редакторе или же путем импорта файлов различных форматов, таких как *.csv, excel и др. Для вызова встроенного редактора достаточно выбрать команду Spreadsheet в меню, после чего можно приступать к формированию таблицы. В статистических программах колонки таблиц называют «переменными», а строки «случаями». При создании таблицы полезным будет соблюдение нескольких правил:
    . Первая переменная должна содержать порядковые номера случаев. Это необходимо для того, чтобы после пересортировки значений иметь возможность восстановить их прежний порядок.
    . Числовые значения следует вводить без округления, чтобы не терять информацию.
    . При отсутствии некоторых значений их можно пропустить, оставив в таблице пустые ячейки.
    . В каждой переменной для каждого случая должно быть только одно значение.

    После сохранения таблицы или загрузки файла с данными начинается этап обработки информации. Для выполнения статистического анализа следует выбрать соответствующий пункт в меню Statistics. Для каждого типа анализа имеется собственный набор настроек, справку по которым можно получить, нажав кнопку Help.
    На этапе планирования эксперимента полезным для исследователя будут функции из меню Sampling, позволяющие определить необходимую численность групп для некоторых, наиболее общих, исследовательских задач. Среди функций, реализованных в MedCalc, следует особо отметить возможность проведения основных видов статистического анализа, не имея выборочных значений, т.е. на основе средних величин, показателей разброса и т. п. Это может быть полезно при изучении литературных данных, поскольку полной информации о первичных результатах эксперимента в публикациях не приводится. Например, для сравнения выборочных средних с помощью критерия Стьюдента достаточно знать сами средние арифметические, стандартное отклонение и размеры обеих выборок. Эти данные следует ввести в окне, вызываемом меню Tests > Comparison of > means (t-test), и в этом же окне будет выведен результат сравнения. Аналогично используются и остальные функции в меню Tests.

    Таким образом, программа MedCalc за относительно небольшую цену предоставляет пользователю удобный интерфейс без излишней «функциональности», снабженный хорошим табличным редактором. Все вычисления и диаграммы сохраняются в одном файле и легко сортируются в специальном списке в левой части главного окна программы. Статистический анализ выполняется с помощью удобно организованных меню, снабженных лаконичным и понятным справочным материалом. В этой связи программа будет очень полезна ученым, выполняющим биомедицинские исследования и неискушенным в математических приложениях.

    MedCalcl - простая и легкая в использовании программа, но не каждый пользователь может получить от нее все, что ему необходимо для работы. Среди тех, кто предъявляет к статистическому софту очень высокие требования и готов выложить за него несколько тысяч долларов, популярностью пользуются такие приложения, как Statistica или SPSS Statistics. Обе программы являются настоящими «монстрами» в сравнении с MedCalc - как по стоимости, так и по своим вычислительным возможностям. Подробно рассказать о них в рамках статьи невозможно, для этого придется написать книгу в несколько сотен страниц, поэтому ограничимся кратким знакомством.

    Statistica разрабатывается компанией StatSoft. На сегодняшний день последней версией является Statistica 9. Программа SPSS, название которой - это аббревиатура от Statistical Package for the Social Sciences, относительно недавно стала принадлежать компании IBM и сменила название на PASW (Predictive Analytics SoftWare) Statistics. Обе программы снабжены великолепным графическим интерфейсом, а также имеют встроенный язык программирования и возможность интеграции с языком статистических вычислений R.

    Следует отметить, что почти безграничные возможности в статобработке, предоставляемые данными инструментами, требуют от компьютера больших ресурсов. Так, для работы SPSS необходимо не менее 1 Гб оперативной памяти. Операционные системы, в которых можно запускать SPSS: Windows, MacOS и Linux. Statistica же разработана только под Windows, что несколько уменьшает число ее пользователей.

    Как и всегда, работа в программах начинается с ввода данных. Интегрированный табличный процессор позволяет оформлять таблицы с помощью привычных для каждого пользователя офисных приложений способов. Сохраненные таблицы, а также результаты расчетов, графики и отчеты в Statistica можно удобно расположить в одном файле, который называется «Рабочей книгой», тогда как организация рабочего пространства в SPSS менее удобна, но все же вполне приемлема для использования после короткого периода адаптации.

    В программах есть все наиболее востребованные статистические методы: частотный анализ, расчет статистических характеристик, таблиц сопряженности, корреляций, построения графиков, t-тесты и большое количество непараметрических критериев, многомерный линейный регрессионный анализ, дискриминантный анализ, факторный анализ, кластерный анализ, дисперсионный анализ, анализ надежности, многомерное шкалирование и ряд других. Вызов этих статистических процедур делается с помощью выбора из меню соответствующих окон и внесения в них необходимых настроек. Все типы анализа разбиты по группам, что помогает быстро ориентироваться в интерфейсе приложений.

    Системы STATISTICA и SPSS обладают широкими графическими возможностями. Они включают в себя большое количество разнообразных категорий и типов графиков, в том числе научные, деловые, трехмерные и двухмерные графики в различных системах координат, специализированные статистические графики — гистограммы, матричные, категоризованные графики и др.

    Статистические функции, которыми располагают оба приложения, поражают своим разнообразием. Складывается впечатление, что данные инструменты статистического анализа позволяют делать все, что угодно, при условии, что пользователь хорошо изучил принципы их работы. Главным препятствием на пути освоения этих программ является время, которое необходимо затратить на обучение. Именно из-за недостатка знаний у пользователя, в большинстве случаев, мощь статистических пакетов подобного уровня не используется даже в половину.

    Как видите, в мире существует множество приложений для статистического анализа. Лишь малая часть из них была вкратце описана в данной статье. За ее пределами остались такие программы как Minitab, MatLab, Octave, GenStat, JMP, Analyse-it, отечественная разработка STADIA и множество других, больших и маленьких, дорогих и бесплатных программ. Однако такое изобилие софта не должно пугать исследователя, достаточно будет один раз сделать продуманный выбор в пользу одной-двух программ, тщательно изучить тонкости их применения, и они будут не один год служить верными помощниками в статистическом анализе результатов экспериментов.


    MS Excel . Самой часто упоминаемой (и используемой) в русскоязычных статьях является приложение MS Excel из пакета офисных программ компании Microsoft – MS Office. Причины этого кроются в широком распространении этого программного обеспечения, наличии русскоязычной версии, тесной интеграцией с MS Word и PowerPoint. Однако, MS Excel – это электронная таблица с достаточно мощными математическими возможностями, где некоторые статистические функции являются просто дополнительными встроенными формулами. Расчеты сделанные при ее помощи не признаются авторитетными биомедицинскими журналами. Также в MS Excel невозможно построить качественные научные графики. Безусловно, MS Excel хорошо подходит для накопления данных, промежуточного преобразования, предварительных статистических прикидок, для построения некоторых видов диаграмм. Однако окончательный статистический анализ необходимо делать в программах, которые специально созданы для этих целей. Существует макрос-дополнение XLSTAT-Pro для MS Excel который, включает в себя более 50 статистических функций, включая анализ выживаемости, которых в основных случаях достаточно для обычного применения.

    STADIA . Программа российской разработки с 16-и летней историей. Включает в себя все необходимые статистические функции. Она прекрасно справляется со своей задачей – статистическим анализом. Но, программа внешне фактически не изменяется с 1996 года. Графики и диаграммы, построенные при помощи STADIA, выглядят в современных презентациях архаично. Цветовая гамма программы (красный шрифт на зеленом) очень утомляет в работе. К положительным качествам программы можно отнести русскоязычный интерфейс и наличие книг описывающих работу. Например: Кулаичев А.П. Методы и средства анализа данных в среде Windows. – М: ИнКо, 2002. – 341 с.

    SPSS (Statistical Package for Social Science ). Самый часто используемый пакет статистической обработки данных с более чем 30-и летней. Отличается гибкостью, мощностью применим для всех видов статистических расчетов применяемых в биомедицине. Существует русскоязычное представительство компании, которое предлагает полностью русифицированную версию SPSS 12.0.2 для Windows. Появился учебник на русском языке, позволяющий шаг за шагом освоить возможности SPSS, репетитор по статистике на русском языке, помогающий в выборе нужной статистической или графической процедуры для конкретных данных и задач, а также справка по SPSS Base и SPSS Tables. Российский офис SPSS регулярно проводит учебные курсы по анализу данных при помощи программного обеспечения SPSS. На русский язык переведена книга по SPSS, которая вышла в свет в 2002 году в Киевском издательстве «Диасофт» под названием «SPSS 10: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей».

    STATA . Профессиональный статистический программный пакет с data-management system, который может применятся для биомедицинских целей. Один из самых популярных в образовательных и научных учреждениях США наряду с SPSS. Программа хорошо документирована, издается специальный журнал для пользователей системы.

    STATISTICA . Производителем программы является фирма StatSoft Inc. (США), которая выпускает статистические приложения, начиная с 1985 года. STATISTICA включает большое количество методов статистического анализа (более 250 встроенных функций) объединенных следующими специализированными статистическими модулями: Основные статистики и таблицы, Непараметрическая статистика, Дисперсионный анализ, Множественная регрессия, Нелинейное оценивание, Анализ временных рядов и прогнозирование, Кластерный анализ, Факторный анализ, Дискриминантный функциональный анализ, Анализ длительностей жизни, Каноническая корреляция, Многомерное шкалирование, Моделирование структурными уравнениями и др. Несложный в освоении этот статистический пакет может быть рекомендован для биомедицинских исследований любой сложности.

    JMR . Один из мировых лидеров в анализе данных. Развивает этот статистический пакет SAS Institute, который выкупил в конце 2002 года известную статистическую программу StatView. Однако особых преимуществ для медико-биологической статистики этот программный продукт не имеет.

    SYSTAT . Статистическая система для персональных компьютеров. Последняя версия обладает неплохим интуитивно понятным интерфейсом. Компания Systat Software также разрабатывает популярные у отечественных исследователей SigmaStat и SigmaPlot, которые являются соответственно, программой статистической обработки и программой построения диаграмм. При совместной работе становятся единым пакетом для статистической обработки и визуализации данных.

    NCSS . Программа развивается с 1981 года и рассчитана на непрофессионалов в области статистической обработки. Интерфейс системы многооконный и как следствие этого явления - немного непривычный в использовании. Все действия пользователя сопровождаются подсказками.

    MINITAB 14 . Статистический пакет MINITAB в настоящее время выпускается в версии 14. Это достаточно удобный в работе программный пакет, имеющий хороший интерфейс пользователя, хорошие возможности по визуализации результатов работы. Имеет подробную справку.

    STATGRAPHICS PLUS . Довольно мощная статистическая программа. Содержит более 250 статистических функций, генерирует понятные, настраиваемые отчеты.

    PRISM . Эта программа создавалась специально для биомедицинских целей. Интуитивно понятный интерфейс позволяет в считанные минуты проанализировать данные и построить качественные графики. Программа содержит основные часто применяемые статистические функции, которых в большинстве исследований будет достаточно. Однако, как отмечают сами разработчики, программа не может полностью заменить серьезных статистических пакетов. На сайте разработчиков помимо возможности ознакомления с демо-версией Prism можно получить справочник в формате PDF по биомедицинской статистике.

    Среди множества программ статистической обработки исследователи, как правило, выбирают наиболее подходящую, для решения конкретных поставленных задач. В данном реферате будут рассмотрены примеры использования программ StatSoft STATISTICA 7, GraphPad Prism 6 и Advanced Grapher для обработки данных биологических исследований.