Текст
                    Синева И.С.
Анализ данных в среде
R.4.1
учебное пособие

ФЕДЕРАЛЬНОЕ АГЕНТСТВО СВЯЗИ Ордена Трудового Красного Знамени федеральное государственное И.С. Синева АНАЛИЗ ДАННЫХ В СРЕДЕ R Учебное пособие для направлений: 01.03.04,02.03.02, 10.03.01, 11.03.02, 27.03.04,09.04.01, 09.06.01, 11.06.01 Москва 2018
УДК 519.254 -М„ 2018. -34 с. графических пользовательских интерфейсов для работы с ней, базовых для более глубоко статистического анализа данных. Показано нахождение Учебное пособие предназначено для студентов бакалавриата, магистратуры и аспирантов, углубленно изучающих интеллектуальный анализ данных. Издание ут учебного пособия. Протокол № I от 16.10.2018г. Методическим советом университета в качестве Рецензенты: М.А. Поморина, д.э.н., профессор (ВШЭ) М.С. Лохвицкий, К.Т.Н., доцент (МТУСИ) © Московский технический университет связи и информатики (МТУСИ), 2018
Содержание Общие сведения....... I. RStudr Объекты и типы данных в R.. 3.2. Считывание данных......................... 3.3. Сохранение данных............................ 3.4. Базовые графические возможности........... 3.4.1. Основные высокоуровневые команды рисования... 3.4.2. Основные низкоуровневые графические команды. .20 .20 Показатели: 4.3. Показатели асимметрии......................... 4.4. Показатели, описывающие закон распределения Список литературы .
Введение для анализа данных, которое широко используется во всем мире, включая такие крупные компании и корпорации, как Google, Microsoft, IBM, Oracle, использования в интеллектуальном анализе данных. 1. Общие сведения представляет собой свободно распространяемый язык всеобъемлющую сеть R-архивов CRAN (The Comprehensive R Archive На момент написания этого пособия последняя доступная версия была 3.5.1. Характеристики компонент, упомянутые далее, будут относиться именно к этой версии. После установки системы пользователю будут доступны все основные руководства пользователя (они располагаются в ламе установленного пакета в разделе doc/manual). В частности, будут предоставлены: fullrefmann.pdf - список и описание доступных пакетов на R (3626 стр.); radmin.pdf- инструкции по инсталляции и администрированию системы; r-data.pdf- возможности импорта и экспорта данных; r-exts.pdf - руководство по самостоятельному созданию пакетов программ на R, включая компиляцию из С и FORTRAN и написание документации к создаваемому пакету; r-intro.pfr- введение в среду R (общее описание команд, действий с данными, объектов, фреймов, программирования, графических возможностей и основных функций); r-ints.pdf - описание внутренней структуры R; r-lang.pfd - определение языка R (более подробное изложение R как языка программирования).
Полезные ссылки: - Официальный сайт проекта: http://r-project.org. - Руководство R: https://cran.r-project.org/manuals.html; - Краткий справочник математических функций: http://cran.r-project.org/doc/contrib/Short-refcard.pdf; преобра которые необходимо было бы выполнить i или иной графический интерфейс (GUI). Существующие на данный момент вэ для решения всевозможных задач интеллектуального анализа данных. В процессе загрузки и установки R вы получаете стандартный графический интерфейс пользователя (GUI) под названием RGui. RGui предоставляет вам некоторые инструмента для управления средой R - самое главное, консольное окно (рис. 1). Рисунок I - Стандартный графический пользовательский интерфейс R
Стандартный процесс установки создает полезные ярлыки меню. Когда Нет, если вам нечего сохранять. Это действие закрывает ваш сеанс R (а также возможности программирования, сколько делает его более удобным. Есть поддерживает прямое выполнение кода, а также инструменты для построения графиков, истории, отладки и управления рабочим пространством. Rstudio имеет несколько окон, как показано на скриншоте (рис. 2). В меню есть не только все опции, найденные в стандартном графическом интерфейсе R, но и дополнительные, что делает RStudio гораздо более полезным для тех, кто хочет писать и отлаживать свои собственные функции и пакеты R. Не только для программистов очень удобна тесная интеграция функций {консольное окно) с программой просмотра, графиками и справочной информацией. Кроме того, новые пакеты, которые создают диаграммы для просмотра в браузере, показывают графики в окне просмотра (в стандартном графическом интерфейсе соответствующая функция запускает браузер для просмотра диаграмм}.
Графический пользовательский интерфейс (GUI) для R, реализованный в виде пакета Rcmdt, доступен для скачивания с сайта CRAN https://cran.r- весистым» меню окно, разделенное на Окно скриптов (Script Window), Окно вывода (Output Window!, а также информационное окно Сообщения (Messages). Многие действия в R Commander можно выполнять через меню, которое достаточно легко настраивается, например с помощью редактирования текстового файла Rcmdr-menus.txt. В Окне скриптов можно вводить команды, то есть консоль никуда не делась. Графики появляются в отдельных окнах, как и в случае «чистого» R. Для более полного ознакомления с R Commander можно порекомендовать руководство Getting Started with the R Commander: https://socialsciences.mcmaster.ca/jfox/Misc/Rcmdr/Gettmg-Started-with-the- Rcmdr.pdf 1.1.4. Rattle Аиалитический инструмент R (R Analytic Tool То Learn Easily. Rattle) представляет собой интерфейс R для функциональной работы с данными. Целью разработки было предоставить простой и интуитивно понятный интерфейс, который позволяс! пользователю быстро загружать данные из CSV-файла (или через ODBC), преобразовывать и анализировать данные, строить и оценивать модели и экспортировать модели в виде PMML
(Predictive Modelling Markup Language - язык разметки интеллектуального Инструкция инсталляции интерфейса доступна по адресу 2. Базовые возможности языка R туре, компьютерных языков. Как объектно-ориентированная среда, R сохраняет Над этими объектами можно выполнять действия (арифметические, логические, сравнения) или функции, которые сами являются операторами. Аргументами функции в R могут быть объекты (данные, формулы, выражения и т.п.), причем некоторые из них имеют значение по умолчанию и могут быть изменены пользователем с помощью соответствующих опций. Также функция в К может не содержать аргументов, поскольку либо все аргументы определяются по умолчанию (их значения могут быть изменены опционально), либо аргумент не определен в функции. Все действия R выполняются на объектах, хранящихся в активной памяти компьютера: временный файл не используется. Считывание и запись файлов используются для ввода и вывода данных и результатов, например, графиков. Пользователь выполняет функции с помощью некоторых команд Результаты отображаются непосредственно на экране, хранятся в объекте или записываются на диск (особенно для графики). Поскольку сами результаты являются объектами, их можно рассматривать как данные и анализировать как таковые. Файлы данных могут быть прочитаны на локальном диске или на удаленном сервере через Интернет. Функции, доступные пользователю, хранятся в библиотеке, локализованной на диске в каталоге rhome/library, где rtiome - это каталог, в котором установлен R. Этот каталог содержи! паком функций, которые
сами структурирован ь основным ядром R 1 обработки данных. .1 в каталогах. Основанная на пакетах база является некоторые графические функции и несколько ий (линейная регрессия и анализ дисперсии). Каждый пакет имеет каталог (например, для базы г находится в формате описания доступны в к 1акетов это файл ihome/library/base/R/base). Этот файл ASCII и содержит все функции пакета. Подробные 1 ногочисленных источниках, например, [1 - 8]. Объекты и типы да иных и К (число элем character - т logical - ло] numeric - целочислен complex - (например, объектов. бъекты в R имеют два внутренних атрибута - тип (mode) и длину еснтов в объекте). i R поддерживает работу с четырьмя типами данных: номинальные объекты (значения задаются в кавычках); гические объекты false и true (сокращенно F и Т); числовые объекты, в зависимости от типа могут быть ные (integer) или вещественные (double); комплексные числа, мнимая единица i указывается в конце 2.54-3.181). щя. по возможности «в использовать кириллицу для имен Наименование переменных имеет свои правила: имя переменной должно начинаться с буквы (среда различает регистр при написании символов} или точки; имя может включать в себя оуквы. цифры, знаки точки . и нижнего подчеркивания _. Специальные объекты: Inf - бесконечность без различения знака (infinity); на - отсутствующее значение (not available); НаН - не числовой объект (not a number). Анализ списка переменных и их преобразование осуществляются следующими командами: ?<пал®> - существует ли переменная с данным именем; Is. <mode> «named) - принадлежит ли объект имя к типу mode Iпринимает значения character, double, finite, integer, logical, NA, NaN, numeric).
Типы объектов, описывающих данные, приведены в табл. 1. Объект Описание Дополнительные типы для одного и того же объекта Вектор Переменная в общепринятом значении numeric, character, complex or logical Нет Матрица (matrix) Частный случай массива при к = 2 numeric, character, complex or logical Нет Массив (array) Таблица с к измерениями. Все элементы массива должны быть одного типа numeric, character, complex or logical Нет Фактор (factor) Категориальная переменная, имеющая несколько значений (уровней) numeric or character Нет Список (list) Общий (generic) вектор, т.е. его элементы могут иметь различный тип numeric, character, complex, logical function, expression,.. Да Фрейм (data.ftamc) Специальная версия списка, где все элементы имеют одинаковую длину. Позволяет объединять данные разных типов вместе numeric, character, complex or logical Да Временной рад (ts) Данные временных рядов, содержат дополнительные атрибуты, такие как частота или дата numeric, character, complex or logical Да Для описания вектора достаточно задать его тип и длину. Для всех соответствующими атрибутами. 2.2. Операторы Операторы присваивания: =, -> (присваивание значения объекту справа), <- (присваивание значения объекту слева предпочтительно использовать именно этот оператор). Арифметические операторы для 'Шиловых объектов: +, *, /, Л, %/% (целочисленное деление), %% (остаток от деления). Приоритет операций: ю
возведение в степень, умножение и деление, сложение и вычитание; он == (равно), < (меньше), > (больше), <= (меньше Функции в языке R определяются с помощью ключевого слова формальных apiyMOHTOB функции. Аргументам других формальных аргументов. Описание Округляет х до заданного числа значащих цифр Целое число, полученное при округлении х в сторону нуля Округляет х до заданного числа знаков после запятой Квадратный корень_________________________________ Наименьшее целочисленное значение, не меньшее, чем х I иперсолически с я Логарифм х но основанию п: log <х) - натуральный логарифм; 1ogi0(х1- десятичный логарифм Оке пене 1 ш шпьная функция
- либо по предметной пакет (package) и библиотека {library). Библиотека тестовые примеры данных для обучения. установлены пользователем самостоятельно. На данный категории - базовые (base), рекомендуемые (recommended) и прочие, устанавливаемые пользователем (в том числе создаваемые им самим). Пакеты, установленные у Вас на данный момент, можно просмотреть по команде (без указания параметров): Подгрузить| : устанс Аналог этой команды reqlre (library) при отсутствии пакета вернет предупреждение (library вернет ошибку) и продолжит дальнейшее выполнение скрипта до момента вызова функций из пакета. Инсталляция и обновление пакетов осуществляется по сети с использованием функций install .packages () и update, packages О соответственно. При установке параметра dependencies = true будут также установлены пакеты, функционал которых используется в Табл. 3 содержит основные пакеты, которые можно порекомендовать для использования в анализе данных. Полная информация о пакете, включая список функции и их назначение, доступна по команде: Для установки выбранного пакета скачайте его с сайта проекта https://cran.r-pioject.org/web/packages/index.html в выбранную папку своего компьютера. Далее в меню выбрать "Пакеты > Установить пакеты из
локальных zip-файлов". Про) в данной сессии. Пакеты R Назначение Базовые пакеты £3clS6 Базовые конструкции R compiler Компилятор пакетов R datasets Набор таблиц с данными для тестирования и graphics Базовые графические функции grDevices Драйверы графических устройств, палитры цветов, шрифты grid Функции создания графических слоев methods Компоненты объектно-ориентированного программиро- вания (классы, методы) parallel Поддержка параллельных вычислений splines Функции работы с регрессионными сплайнами разного IkuOBidL функции ।:ч-d ли. иш tcltk Методы ciaiHcjH'iccbMX функций класса S4 Компоненты интерфейса с пользователем (меню, боксы 1 выбора и проч.) tools Информационная поддержка, администрирование и документирование translations Пакет переводов Utils Различные утилиты отладки, ввода-вывода, архивирования и проч. Рекомендуемые пакеты boot Функции различных процедур бутстрапа и "складного ножа" class Различные алгоритмы неиерархической классификации и распознавания cluster Алгоритмы разделения и иерархической кластеризации codetools Анализ и проверка кодов R foreign Чтение и запись файлов в разных форматах (Minitab, S, SAS, DBF, SPSS. DTA, Stata, Systat, Weka и др.) Kernsmooth Функции, обслуживающие оптимизацию ядерного сглаживания lattice (Sarkar, 2008) MASS Набор данных и статистических функций (Venables,' Ripley, 2002)
Пакеты R Назначение Matrix Операции с матрицами и векторами «gcv Обобщенные аддитивные модели и модели со смешанными эффектами nlme Линейные и нелинейные модели со смешанными эффектами nnet rpart Построение деревьев классификации и регрессии spatial Функции кригинга и анализа пространственного распределения точек Анализ выживаемости Дополнительные пакеты для анализа data.table Удобное расширение для data.frame doSNOW Пакет для распараллеливания вычислений evaluate более подробную информацию, чем стандартные процедуры factarextra Методы анализа кластеризации и их визуализации fitdistrplus Подбор параметров статистических распределений Formula Расширенные формулы для моделирования ggplot2 Усовершенствованный графический пакет высокой функциональности ISwR Первичный статистический анализ в R knitx Пакет общего назначения для создания динамических отчетов в R multcomp Синхронный вывод в общих параметрических моделях outliers Анализ выбросов в данных pls Частный МНК и регрессия на главных компонентах ppcor Пакет корреляционного анализа sem Модели структурных уравнений am Методы сглаживания для непараметрической регрессии и оценки плотности распределения spatstat Методы пространственной статистики, подбор моделей vcd Визуализация категориальных данных XLConnect Коннектор Excel для К xts 14
3.1. Экспорт и импорт файлов свойства и измените каталог в поле "Start in:" под вкладкой "Short-cut": этот каталог будет рабочим каталогом, если R запускается из этого ярлыка. R может считывать данные, хранящиеся в текстовых (ASCII) файлах со <£. R также может читать файлы других форматов: Excel, SAS, полезны для более глубокого ASCII. Функция read.table создает фрейм данных, а также является основным способом читать данные в табличной форме. Например, если у вас есть файл с именем data.dat, команда: > mydata <- read.table("data.dat") создаст фрейм данных с именем mydata, и каждая переменная будет названа по умолчанию vi, V2„ , , и к ним можно будет получить доступ индивидуально различными способами: 1) mydata$Vl, mydata$V2.. 2) mydata [ "vl ' ], mydata [ "V2 Существует разница: mydata$vi и mydata["vi") являются векторами, тогда как mydata [, 1 ] является фреймом данных. Есть несколько опций значений по умолчанию (табл. 4). Они используются R, если были опущены пользователем. > read, table (file, header - FALSE, sep - quote - TRUE, fill - ! FALSE, blank.J
Та блица 4 - Параметры функции read, table!) Параметр Описание возможно, с указанием пути, в том числе URL в сети header Заголовок, логическое значение (false or true), первой строке say Разделитель полей, используемый и файле, например, вер-’t",если это табуляция Символы, используемые для ссылок на номинальные переменные dec Десятичный разделитель to», names именем) переменной в файле (по умолчанию: к 2, 3,...) col.names Вектор с именами переменных (по умолчанию: VI, V2, V3, ...) as. is Управляет преобразованием символьных переменных в факторы (false) или сохраняет их как символы (true) M. strings Значение, присвоенное отсутствующим данным (преобразованное как НА) colClasses Номинальный вектор, приписывающий классы столбцам nrows Максимальное число строк skip Число строк, которые нужно пропустить до считывания данных check.names Если имеет значение true, проверяет допустимость имен fill Если имеет значение TRUE и не все строки имеют одинаковое число переменных, добавляет недостающие пробелы strip.white Если имеет значение true, удаляет лишние пробелы до и после символьных переменных и символа, указанного в поле зер blank. lines.skip Если имеет значение true, игнорирует пустые строки comment.char Символ, определяющий комментарии в файле данных, строки, начинающиеся с этого символа, игнорируются (чтобы отключить этот аргумент, используйте comment.char =
разные значения по умолчанию: + sfecV, fill = ТВОЕ, Функция scan более гибкая, чем read,table, поскольку позволяет > mydata <- scan ("data.dat", what = list ("% 0, ©)} считывает в файле datadat три переменные, первую - как номинальную, а scant) может использоваться для создания разных объектов, векторов, матриц, фреймов данных, списков. В приведенном выше примере mydata числовой вектор. Если считываемые данные не соответствует ожидаемому Таблица 5 Параметры функции scant) Параметр Описание file Имя файла в кавычках или номинальная переменная, возможно, с указанием пути, в том числе URL в сети what Указывает тип данных (по умолчанию - числовые) nmax Число данных для считывания или, если what принимает значение list, число строк для считывания (но умолчанию scan считывает все данные в файле) n Число данных для считывания (по умолчанию не ограничено) sep Разделитель полей, используемый в файле, например, seP="t", если что табуляция quote Символы, используемые для ссылок на номинальные переменные dec Десятичный разделитель 17
Параметр Описание skip Число строк, которые нужно пропустить до считывания данных Число строк для считывания па.string Значение, присвоенное отсутствующим данным (преобразованное как NA) flesh Логическая опция, если принимает значение true, scan переходит к следующей строке после достижения количества столбцов «Ц Если имеет значение true и не все строки имеют пробелы attlp.whlte после символьных переменных и символа, указанного в quiet Логическое поле, если имеет значение false, поля были прочитаны li^e’ekip Если принимает значение true, пустые строки игнорируются multi.line Если в опции what указан список, показывает, относятся ли переменные в одной строке файла к одному объекту наблюдения (false) comment.char Символ, определяющий комментарии в файле данных, строки, начинающиеся с этого символа, игнорируются (чтобы отключить этот аргумент, используйте comment.char = "") Функция read.iwf может использоваться для чтения в файле некоторых данных фиксированной ширины: Параметры такие же, как и для read, table (), кроме widths, который
Функция write.table записывает в файл объект, обычно файл data. frame, но это может быть другой тип объекта (вектор, матрица и т.п.). Аргументы и опции следующие (табл. 6): TRUE r col 6 - Параметр Описание Имя объекта дая сохранения append Если значение true, то добавляет данные без уничтожения уже существующих в файле Логический или численный вектор, если значение true -1 номинальная переменная и фактор записываются в в кавычках (в обоих случаях имена переменных указываются в кавычках, но не в случае значения всей ( 01ШИИ quote - FALSE) sep Разделитель полей, используемый в файле eol Символ, который будет использоваться в конце строки ("п" перевод строки) па Символ, который будет использоваться для обозначения пропущенных данных dec Десятичный разделитель row.names Логическая переменная, показывающая, будут ли имена строк записаны в файл col.names Логическая переменная, показывающая, будут ли имена столбцов записаны в файл qmethod Если quote-TRUE, показывает, как обрабатываются двойные кавычки: "escape" (или "е", значение по умолчанию) означает, что каждые " заменяются на \", "d" означает, что каждые ” заменяются на "" Самый простой способ записать объект в файл использовать команду Чтобы проще записать объект в файл, выполните команду write(х, fiie="data.txt"), где х - имя объекта (которое может быть вектором, матрицей или массивом). Есть два варианта: пс (или ncol, номер колонки), который определяет количество столбцов в файле (по умолчанию пс=1, если 19
создается окно для отображения интерактивной графики. они создают новый рисунок с функциями; 3.4.1. Основные высокоуровневые команды рисования В табл. 7 приведены наиболее распространенные функции высокоуровневых команд рисования. ____________Таблица 7 - Основные комдивы рисования__________ Функции Описание plot О Наиболее часто используемая функция рисования, позволяет строить разнообразные графики за счет настраиваемых параметров plot(х) Если х=(х1,ха,...,хи) - числовой вектор, то выводится трафик значений (i.x,). Если х является временным рядом, то выводится график временного ряда. Если х - комплексный вектор, то выводится график (Re(x,),Im(x,)) plot (X, у) Строит двумерный график (xf,yr ) P10t.tS(x) Если х является объектом класса ts, то рисует график временного ряда. При этом в случае многомерной переменной х его компоненты должны иметь общую временную ось и одинаковую длину
Функция Описание plot(f) Если f является фактором, то данная функция строит столбчатую диаграмму по уровням фактора plot (f, у) Для уровней фактора f выводится диаграмма Box-and- plat (df) Если df - фрейм данных, то функция выводит распределение данных во фрейме plot(~ expr) Если ехрг - список всех имен объектов, разделенных именам объектов plot(у* expr) Если у - любой объект, ехрг - список всех имен объектов, то эта функция рисует у для каждого объекта, указанного в pairs(x) Если х является матрицей или фреймом данных, рисует матрицу кореллограмм для всех переменных (столбцов) х coplot () Функция используется для вывода двумерных графиков в случае трех или большего числа переменных coplot(адуlz> Строит двумерный график хну для каждого значения или image (xryf 2) Функция отображает различным цветом значения переменной 2 как функции значений х и у contour (x(y( z) perspU,y,z) Зб-график, поверхность зависимости z от х и у в прямой линейной перспективе dotchart(x) Если х является фреймом данных, то рисуется точечный трафик, в котором по оси абсцисс откладываются значения переменной, а по оси ординат - метки matplot(xr y) Функция работает с многомерными переменными х и у. Выводится двумерный график первой колонки х против первой колонки у, второй колонки х против второй у. и т.д. Перечисленные высокоуровневые функции имеют рад параметров, которые позволяют настроить вид функции (табл. 8). Параметр Описание add Логическое значение, если TRUE - накладывает графики на один рисунок (переводит высокоуровневую графическую функцию на низкий уровень). По умолчанию add=FALS£ axes Логическое значение, если FALSE - не рисуются оси (их потом можно добавить функцией axes 0). По умолчанию axes-TRUE, т.е. оси добавляются к рисунку
Параметр Описание log Позволяет использовать логарифмический масштаб по одной (1од-"х" или log-'y") или обеим осям tlog-"xy"). Срабатывает не для всех видов графиков type Управляет видом 1рафика в зависимости от своего значения Рисует отдельные точки (значение по умолчанию) type-"l" Рисует линии type="b" type="o" Рисует точки, перекрытые линиями type="h" Рисует столбчатую диаграмму type-"s", type-"5" Ступенчатая функция рисования. В первом случае верх type="n” Вообще не рисует. Однако оси все еще рисуются (по умолчанию), и система координат установлена согласно данным. Идеально для рисования последующими 1 низкоуровневыми функциями графики .Й и Метки для осей х н у. Используйте эти параметры для изменения меток по умолчанию, обычно' имен объектов, используемых в вызове высокоуровневой функции рисования main=string Заглавие рисунка крупным шрифтом в верхней части рисунка 1 sub=stringr Подзаголовок меньшим шрифтом чуть ниже осн х 5.4.2. Основные низкоуровневые графические команды Используются для редактирования графиков, построенных фун высокого уровня (табл. 9) - добавления точек, линий, текста и ' Тя&шдя 9 - Низкоуровневые графические функции Функция Описание points(х,у} Добавляет точки к текущему графику lines(х, у) Добавляет связующие линии к текущему графику text(х,у,labels,...) Добавление текста labels [i] к рисунку в точках с координатами (x(ij,y[ij). Обычно используется в последовательности: plot(х,у,type-"n”); text (х,у,names) Графический параметр type = "п” подавляет точки, но устанавливает оси, а функция text. (> предоставляет специальные символы, которые заданы именами в символьным векторе для каждой из точек
Функция Описание segments(хО,уО , xl,у1) Рисует линию от точки (хО,уО) к точке (xl,yl) arrows (хОгу<Ъ angle=30#code=2) (хО, уО), если code=2, в точке (xl, у1) если cade*l или в обоих, если code-3; angle — угол, под которым будет рисоваться abline(a, b) Рисует линию с наклоном ь и смещением а ablins (h=y) Рисует горизонтальную линию с ординатой у abline(Im.obj) Рисует линию регрессии, определенную 1m. ob j abline(v=x) Рисует вертикальную линию с абсциссой х axle!side,v«ct) Добавляет ось внизу (side=i), слева (side=2), сверху (side-З) или справа (side-4); vest (опционально) дает абсциссу (или ординату), где рисуются метки box ( ) Рисует рамку вокруг текущего рисунка identify () Получить сведения о точке, отмеченной мышью legend(x,yfLegend) Добавляет легенду в точке (х, у) с символами title() Добавляет сверху основной заголовок текущего title(main,sub) подзаголовок sub в нижней части меньшим шрифтом polygon(x,yr...) Рисует многоугольник, определенный упорядоченными вершинами (х,у), и (дополнительно) затеняет его штриховкой или закрашивает его, если графическое устройство позволяет закраску рисунков Низкоуровневые функции рисования обычно запрашивают некоторую информацию расположения (например, координаты х и у) для определения положения новых элементов рисунка. Координаты даны с точки зрения пользовательских координат, которые определены предыдущей высокоуровневой командой графики и выбираются на основе предоставленной информации. Если параметры г и у обязательны, то достаточно предоставить один аргумент из списка с элементами по имени х и у. Матрица с такими же двумя столбцами - также допустимый ввод. Основные параметры графических команд низкого уровня приведены в табл. 10. part) - возвращает иодный список всех графических параметров и их усг.
Параметр Описание adj 0.5 центрировано. 1 выровнено вправо) bg Указывает цвет фона (например: bg=’red\ bg=*blue', список 657 доступных цветов показывает colors ()) Управляет типом рамки вокруг рисунка, разрешенными значениями являются: 'о', ’1’, Т7Т, 'с', 'и', ']' (рамка состоит из соответствующего символа); если bty=' п', то рамка нс рисуется сех Значения, управляющие размером текста и символов в отношении к значениям по умолчанию cex.main, заголовков и подзаголовков «Э? Задает цвет символов и линий; используются наименования цветов: ’red', ‘blue’, полный список которых доступен через colors () col.main. подзаголовков italics, bold, bold italics) Целое число, которое управляет стилем текста font.main, font.sub Аналогичное задание стиля осей заголовков и подзаголовков Целое значение, которое управляет ориентацией меток осей (0: параллельно оси, 1: горизонтально, 2: перпендикулярно к оси, 3: вертикально) Ity Задает тип линий, может быть целым (1: сплошная, 2: штриховая, 3 : пунктирная, 4: штрих-пунктирная, 5: длинная штриховая, 6: двойная), или строкой до 8 длину паттерна линии в точках или пикселях, отображая элементы и пробелы (например, lty='44’ и lty=2 дают одинаковый результат) Iwd Число, которое задает ширину линии, по умолчанию 1 pch Управляет типом символов, целое между 1 и 25 или отдельный символ в кавычках ' ’ ps Целое, которое управляет размером в точках текстов и символов 24
Передача параметра графической функции действует временно. Иногда ет необходимо установить пользовательские значения параметров для подгрузить. 4. Описательная статистика в R Рассчитаем основные описательные статистики на примере длины лепестка (Petal .Length). Начнем с объема выборки > length(irls?Petal.Length) [11 150 4.1. Показатели положения Показатели положения описывают положение данных (или середины совокупности) на числовой оси.
- Выборочные квантили ь quantile(iris$Petal,Length) 0% 25% 50% 75% 100% ..0 1.60 4.35 5.10 6.90 1.60, внимание, что этот оператор также дает нам наименьшее 1.00 и наибольшее Перечисленные результаты можно получить с команды 1.000 1.600 3.758 5.100 Более того, оператор summary позволяет проанализировать весь фрейм, а не только отдельную переменную: Sepal.Length Min. :4.30Q 1st Qu.s5.100 Median :5.800 Mean :5.843 3rd Qu.:6.400 Max. :7.900 В последнем случае для категориальной переменной оператор выводит количество объектов с определенным значением (в данном случае видом ириса). - Выборочная мода встроенными базовыми функциями может быть найдена за несколько шагов - надо произвести группировку данных и потом найти аргумент, для которого частота оказывается максимальной:
группируется около < 4.3. Показатели асимметрии Показатели асимметрии описывают симметричность распределения данных около своего центра. Рассчитываем с помощью ранее упомянутого пакета moments: > skewness(lrls$Petal.Length) [13 -0.2721277 и относительно выборочных квартилей.
Все необходимые величины уже вычислены. Выборочная медиана 4.35 существенно превышает выборочное среднее 3.758* что говорит о преобладании в выборке больших значений. setosa <- iris[c(l;50), > par (mfrow с (2,2)) > hist(setosa$Petal.Length,prob-TRUE,col-'grey90’, > hist(versicolorsPetal-Length,prob=TRUE,col=’grey90’ + xlab=’Petal.Length versicolor’) hist(iris$Petal.Length,prob-TRUE,col-'grey90’ Результат представлен на рис. 3. Рисунок 3 - Гистограмма для массива irisSPetal
Первые три гистограммы покатывают распределение длины лепестка Оба графика подтверждают вывод Вывод графиков «ящик с усами» по отдельным уровням фактора показывает существенную неоднородность данных. В данных ирисов вида versicolor и setosa имеются выделяющиеся малые наблюдения, которые могут трактоваться как выбросы, В то же время они незначительно отличаются от меньших границ «левых усов», поэтому правильнее будет рассматривать их как редкие, но типичные значения н не исключать из выборки.
график (рис. 5), дополнив в точках разрыва вертикальными линиями (без дополнительных параметров будет выведен классический график Проведенный анализ даст нам все основные выборочные числовые характеристики и графически представляет исходные данные в виде гистограммы, эмпирической функции распределения и диаграмм «ящик с усами».
различных сферах, В данном учебном пособии описаны основные понятия и Список литературы jollier, Universit'e Montpellier П, 2002, 2. Основные понятия языка R: учебно-методическое пособие / Гост.: , трафика. М„ РУДН, структуры данных, чтение и : 2010. - 207 с. 4. Основные алгоритмы численного анализа. Использование пакета R (S-PLUS) дня анализа статистических данных: Методические указания к практическим занятиям по диисциплине «Вычислительная математика» / Сост.: А.И. Коробейников, С.В. Малов, И.В. Матвеева. - СПб: Изд-во СПбГЭТУ ЛЭТИ, 2011. - 40 с. 5. Мастицкий С.Э., Шитиков В.К. (2014) Статистический анализ и визуализация данных с помощью R. - Электронная книга, адрес доступа: http ://r-analytics.blogspot.com 6. Venables W.N., Smith D. M. An Introduction to R. Noles on R: A Programming Environment for Data Analysis and Graphics, Version 3.1.1 (2014-07-10) R Core Team, 2014, 105 p. 7. Шипунов Алексей и др. Наглядная статистика. Используем R! - М.: ДИК Пресс, 2014. - 298 с. 8. Кабаков Р. R в действии. Анализ и визуализация данных в программе R / пер. с англ. Палины А. Волковой. - М.: ДМК Пресс, 2014. - 588 с. 9. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере: учебное пособие. Новое изд. Серия: М. МЦНМО, 2016, 368 с.
План УМД на 2018/19 уч.г. С. 2, п. 5 АНАЛИЗ ДАННЫХ В СРЕДЕ R Часть 1 Учебное пособие Подписано в печать 17.10.2018г. Формат 60x90 1/16. Объем 2,1 уел.II.л. Тираж 50 экз. Изд. № 80.