Автор: Дёрффель К.  

Теги: аналитическая химия   статистика  

ISBN: 5—03—002799—8

Год: 1994

Текст
                    К. Дёрффель
Статистика в аналитической
химии
Отсканировал Вячеслав Ёршик
SlawaV GMU @mail. ш
Перевод с немецкого
Л. Н. Петровой
под редакцией
и с предисловием
канд. техн, наук Ю. П. Адлера
Москва «Мир» 1994

Statistik in der analytischen Chemie Von Prof. Dr. sc. nat. Klaus Doerffel 5., erweiterte und iiberarbeitete Auflage bEUTSCHER VERLAG Fur grundstoffindustrie GmbH Leipzig
ББК 24.4 Д36 УДК 5434 519 22/25 Дёрффель К. Д36 Статистика в аналитической химии. Пер. с нем. — М.: Мир, 1994. — 268 с., ил. ISBN 5-0.3 002799 8 Перевод пятого издания книги немецкого автора. Более ранее издание этой книги было выпущено в русском переводе (Доерфель К. Статистика в аналитической химии. — М.: Мир, 1969), быстро раскуплено и сейчас является раритетом. Предлагаемое издание значительно переработано. Обсуждаются традиционные методы математической стати- стики и их применение в аналитической химии, а также некоторые разделы теории эксперимента. Приведены примеры применения полного факторного эксперимента. Для химиков-аналитиков, химиков-экспериментаторов, студентов, аспирантов и пре- подавателей химических и химико-технологических вузов, а также всех специалистов (в том числе инженеров), применяющих в работе статистические методы. ББК 24.4 Издание выпущено в счет дотации, выделенной Комитетом РФ по печати Редакция литературы по химии ISBN 5—03—002799—8(русск.) ' ISBN 3-342-00557-2(нем.) © Deutscher Verlag fiir Grundstoffindustrie GmbH, Leipzig, 1990 © перевод на русский язык, Петрова Л. Н., 1994
Предисловие редактора перевода Знак качества Был язык мой правдив, как спектральный анализ. А. Тарковский Может ли вообще спектральный анализ быть правдивым? Физические процессы, сопровождающие возбуждение спектра и его регистрацию происходят в мире, где нет этого понятия. Оно возникает лишь при попытке использовать результаты для каких-то решений и действий. Вот тут-то и появляется статистика. Появля- ется, чтобы стать гарантом правдивости, знаком качества результата анализа. Ясно, что верно это не только для спектрального анализа, но и вообще для всех возможных методов анализа, любых измерений. Книга, которую вы открыли, как раз и рассказывает о многих важных практических аспектах приложения статистических методов в аналитической химии. А цель этих вводных заметок — попытаться вписать материал книги в общий, более широкий контекст, найти ее место в рамках всей проблемы “статистика — аналитика”. Давайте посмотрим, как складываются отношения между анализом и статистикой на различных эта- пах анализа. 1. Роль статистических методов на разных этапах анализа Обратимся к созданию новой методики анализа. Прежде всего надо придумать новый метод анализа, как это было, скажем, при создании хроматографического или полярографического метода. Хотя статистика вездесуща и могла играть определенную роль в таких знаменательных событиях, мы все же не станем вдаваться в обсуждение подобных возможностей. Пока идея не сформировалась, трудно говорить о каких бы то ни было регулярных методах исследования. Но вот новая мысль сформулирована и начался процесс ее всестороннего опробывания. Это как раз тот самый случай, когда статистика может проявить себя во всем блеске. Выбор подходящего растворителя, катализатора, буфе- ра, вообще реакционной среды и используемых веществ, ведет к перебору, как правило, огромного числа мыслимых вариантов. Такие комбинаторные задачи весьма трудоемки и дороги. Поэтому даже самые незначительные возможности сокращения перебора вариантов желательны, ибо ведут к экономии времени и средств. Неудивительно, что проблема перебора вариантов встречается не только при разработке новой методики анализа, но и во многих иных случаях, например при выборе лекарств [1]. Проблема перебора вариантов обычно усложняется стремлением к возможно более полному учету априорной информации. А это ведет к задачам распознавания образов и многомерной классификации [2-4]. А
6 Предисловие редактора, перевода когда речь идет о реальных объектах, то все упомянутые подходы опираются на статистические процедуры. В рамках теории планирования эксперимента существует целое направление, связанное с построением таких комбинаторных схем, как латинские и греко- латинские квадраты, полноблочные и неполноблочные схемы и другие подобные структуры, а также с обработкой результатов экспериментов, получаемых в ходе реализации таких планов [5-7]. Существует и еще одна возможность, связанная с так называемыми отсе- ивающими экспериментами. Обычно отсеивающий эксперимент реализуется в несколько более определенной ситуации, чем комбинаторный перебор. При от- сеивании из каких-то априорных соображений уже известен некоторый класс объектов, среди которых и надо выбрать наилучший (или наилучшие) в некото- ром заданном смысле, причем так, чтобы минимизировались затраты времени и средств на проведение самого отсеивания. Стоит еще иметь в виду, что объектами отсеивания могут быть как некоторые вещества или изделия, так и переменные (факторы), с помощью которых описываются некоторые объекты. Когда речь идет об отсеивании переменных, то прежде всего приходит в голо- ву предложенный Ф. Саттерзвайтом метод “случайного баланса” (см., например, [8]). В связи с широким распространением ЭВМ появилось множество планов и процедур отсеивания, подробно описанных, например, в работе [9]. Они находят применение не только в обычных физических экспериментах, но и в машинных имитационных исследованиях, что значительно расширяет возможности, в том числе и для аналитики. Задача отсеивания объектов получила наиболее широкое распространение в фармакологии, где она известна под названием “скрининг-процедуры” [10]. Вы- зывает удивление практическое отсутствие работ по выбору нового метода ана- лиза, в которых бы систематически использовались разнообразные отсеивающие подходы. Создание новых методов анализа — всегда актуальная задача. Однако на практике аналитик чаще сталкивается в некотором смысле с “обратной” ситу- ацией, когда известно довольно много различных методов анализа данного ве- щества на требуемый компонент и надо выбрать среди этих методов наиболее подходящий. Тогда возникает типичная задача статистической теории приня- тия решений в многокритериальной ситуации [11]. Из-за значительной неопре- деленности исходной ситуации и противоречивости критериев (надо, чтобы од- новременно было очень точно, очень быстро и очень дешево) обычно решение приходится искать экспертными методами. А это снова статистическая зада- ча [12]. Более того, она даже была гостирована [13]; теперь этот ГОСТ стал методическими рекомендациями. Формализованные процедуры принятия ответ- ственных решений о выборе подходящего метода анализа существенно повышают эффективность работы аналитика. Конечно, перебор и отсеивание могут возникать и в других ситуациях, к рас- смотрению которых мы теперь и переходим. Создание нового метода — очень важно, но, до тех пока он не представлен в виде рабочей прописи, им трудно вос- пользоваться. Пропись предполагает, что полно и точно описана вся последова- тельность операций, необходимых для получения результата анализа. Причем этот результат должен обладать при строгом соблюдении прописи некоторыми оптимальными свойствами. Для достижения оптимальных результатов мало
Знак качества 7 А задача ее оптимизации естественно сводится к задаче планирования экстре- мального эксперимента. До настоящего времени это одна из наиболее важных и наиболее распространенных аналитических ситуаций, где на помощь аналитику приходит статистика [14]. В рамках планирования эксперимента есть по крайней мере два широко рас- пространенных метода поиска экстремума, т. е. оптимизации. Этот метод Бок- са — Уилсона или метод крутого восхождения [15] и метод последовательной симплексной оптимизации (ПСМ) [16]. Между ними наблюдается некоторая конкуренция, но каждый из них использовался сотни раз в различных задачах аналитической химии. Попытка дать систематический обзор этих приложений потребовала бы целого тома. Впрочем, мы еще скажем ниже о библиографиче- ских источниках. С проблемой оптимизации тесно связана и проблема выбора критерия опти- мизации или показателя качества. Не вдаваясь сейчас в подробности, заметим только, что наиболее часто рассматриваются такие критерии, как точность, пра- вильность и воспроизводимость анализа. Самому термину “точность”, правда, не очень везет: некоторые предлагают вместо него пользоваться термином “преци- зионность” , что, на наш взгляд, вполне допустимо, хотя и напоминает известную дискуссию между “остроконечниками” и “тупоконечниками”. Хорошо иметь оптимальную пропись. Но и этого мало. Важно еще приладить ее к конкретной обстановке данной аналитической лаборатории, да и обеспечить сохраняемость во времени. Так, в прописи может, например, стоять требовав ние “сушить пробу один час при температуре 90°С”. А вот в работе [17], где, между прочим, использовался метод случайного баланса, было показано, что в разных областях пода сушильной печи температура настолько разная, что тре- бования прописи выполняются только в определенных зонах, да еще далеко не все форвакуумные насосы обеспечивают требуемое разряжение. Всякая методика анализа нуждается в наладке, настройке, юстировке и пе- риодической проверке. Здесь мы попадаем в область метрологии — близкой родственницы статистики. Роль метрологии в аналитической химии трудно пере- оценить [18, 19]. Она призвана ответить на ключевой вопрос: обеспечиваются ли на практике те характеристики результатов анализа, которые декларированы? Систематическая погрешность или потеря точности может сделать затраты на проведение анализа бессмысленными. Отсюда понятна та роль, которую играет статистическая процедура аттестации аналитических методик и их периодиче- ской поверки. Поскольку речь идет об обеспечении единства измерений, про- блема приобретает государственный и даже международный характер. Для ее решения разработаны системы государственных и международных стандартов. Для удобства читателя сошлемся здесь на некоторые из них [20-26]. Конечно, есть и другие документы, касающиеся, например, измерительного оборудования. В большинстве методов анализа используются стандартные образцы и гра- дуировочные графики. Значит, и мы не можем обойти молчанием эти важные объекты, тесно связанные с применением статистических методов. Итак, стан- дартные образцы — это столь дорогое ответственное дело, что его приходится брать на себя государству или каким-то очень богатым структурам [27-29]. Упо- мянем в этой связи еще несколько важных работ [30-33]. Кроме стандартных образцов широко используются и лабораторные (или це- ховые) эталоны. Именно по ним обычно градуируются (калибруются) аналити-
8 Предисловие редактора, перевода как правило, лежат методы линейной регрессии [34], чаще всего однофакторной, хотя бывают и многофакторные, и нелинейные градуировочные зависимости [35]. Трудность построения и использования градуировок связана с проблемой так называемой обратной регрессии. Дело в том, что зависимая и независимая пере- менные меняются местами при использовании готового графика. То, что при по- строении было независимой переменной, при измерении становится результатом, что порождает существенные проблемы. Они привели, например, к заметному уменьшению эйфории вокруг знаменитого метода радиоуглеродной датировки, поскольку корректные доверительные границы, построенные методом обратной регрессии, оказались во многих случаях удручающе широкими. Среди метрологических проблем отметим еще клубок трудностей, связанных с межлабораторной воспроизводимостью [36]. Они проявляются особенно ярко, когда на основе результатов анализа принимаются решения, имеющие далеко идущие последствия, как это бывает, например, в геологии при решении о пер- спективности капиталовложений в разработку некоторого месторождения [37]. К пока еще мало реализованным метрологическим резервам можно отнести планы взвешивания [38], позволяющие снижать предел обнаружения в некото- рых важных случаях [39]. Теперь все готово Для проведения анализа. Осталось только взять пробу, да вот беда, оказывается, что это весьма сложная статистическая задача [40]. К пробам одновременно предъявляется так много противоречивых требований, что в пору впасть в уныние. Судите сами. Чем проба меньше, тем она деше- вле. Но чем она меньше, тем труднее вести анализ, тем меньше шансов, что она окажется репрезентативной, т. е. будет хорошо соответствовать по составу и структуре тому исходному образцу или изделию, или партии продукции, ко- торые она призвана представлять. Ведь именно по результатам ее анализа мы собираемся судить о положении дел с исходным продуктом. А если исходный продукт неоднороден? Хорошо, если это газ, а что если это куски руды в пере- метку с кусками пустой породы? Таким образом, пробоотбор — еще один ключевой вопрос на долгом пути обеспечения эффективности анализа. Его успех определяется в значительной степени однородностью исходного продукта в пространстве и, что часто не вы- полняется, во времени. Для резко неоднородных продуктов приходится при- бегать к стратификации, т. е. к разделению на более однородные части. Этот важный прием широко используется в статистических процедурах от классиче- ского дисперсионного анализа [41] до современных японских изобретений [42]. Представительность и оценка однородности в пространстве обеспечиваются спо- собом расположения проб (планом пробоотбора) и механизмом рандомизации, т. е. при прочих равных случайным способом попадания доли вещества в пробу. А для прослеживания за однородностью и воспроизводимостью аналитиче- ских проб во времени обычно используются контрольные карты [43]. Мы к ним еще вернемся, поскольку они работают и при слежении за результатами анализа. Конечно, техника и тактика пробоотбора определяются агрегатным состояни- ем продукта, экономическими соображениями и естественными ограничениями. Наиболее характерные проявления ограничений возникают в криминалистике, где объем и характер пробы нельзя изменить. Теперь нас уже ничто не остановит от проведения анализа. Значит, мы всту- паем в область обеспечения текущих анализов. Прежде всего здесь область наи-
Знак качества 9 ботки отдельных результатов анализов [43-47 и др.]. На этом этапе статисти- ка решает три задачи: переход от косвенных показателей, которые обычно из- меряются, к интересующим нас характеристикам, например к концентрациям; свертка, обобщение данных, обеспечивающая их обозримость, и, наконец, пред- ставление данных в форме, удобной для принятия решений. В последние годы в связи с широким распространением компьютеров все отчетливее проявляется такой аспект обработки данных, как визуализация. Кроме текущих задач, относящихся к отдельным результатам, есть еще зада- чи прослеживания за результатами во времени. В этой связи отметим принцип дуальности при использовании информации, получаемой в ходе анализов. Он не нашел пока еще широкого распространения. Идея заключается в том, что- бы одновременно с использованием результатов по назначению, воспользоваться ими и для текущей характеристики самого анализа. Тогда стало бы возможным корректирование всей процедуры в реальном времени с изменением, например, числа параллельных определений, объема пробы, периодичности анализа при изменении характеристик однородности. Для этого естественно пользоваться разными типами контрольных карт, за- мечательного изобретения У. Шухарта, которое мы уже упоминали. Вообще у такого подхода богатые возможности. Бывший руководитель службы качества фирмы “Кодак Истмен” в США д-р Г. Вернимонт рассказывал, что сразу после второй мировой войны он ввел очень простой и эффективный метод оплаты труда лаборантов-аналитиков на промышленном предприятии, где шли непрерывные анализы однородной продукции. Каждый лаборант получал шесть раз в ме- сяц под серийными номерами эталонные образцы. По прошествии месяца по их результатам вычислялась квадратичная ошибка и переменная часть зарплаты оказывалась тем меньше, чем больше получалась характеристика разброса, то есть чем хуже была в данном месяце воспроизводимость результатов анализов. Конечно, воспроизводимость — одна из наиболее важных характеристик лю- бой аналитической процедуры. Поэтому имеет смысл распространить на нашу область последние достижения в оценивании воспроизводимости, какие только появляются в недрах статистики. А там появился новый и весьма перспектив- ный подход, связанный с вычислением так называемых индексов воспроизводи- мости. Недавно появившийся новый отечественный журнал “Курс на качество” посвятил этим индексам большую подборку работ [48] (еще см. [49]). Перефразируя американского математика Хеминга хочется сказать: “цель анализа не числа, а знания”. Превращение чисел в знания осуществляется че- рез механизм принятия решений, частью которого служит интерпретация. А решения в свою очередь определяются той ситуацией, в которой они принима- ются. Одну из типичных ситуаций порождает “чистая” наука, когда цель анализа состоит в строгой констатации некоторых фактов, например, что в молекуле воды на два атома водорода приходится один атом кислорода. Проблемы в таких исследованиях обычно называют методологическими. Задачи статистики здесь весьма сложны и трудно поддаются описанию вне конкретной ситуации (см., например, [50]). Другой случай, очень широко распространенный, — это контроль качества продукции. Здесь анализ служит средством для получения (или не получения) сертификата качества, для проверки статистических гипотез о том, попадает ли
10 Предисловие редактора, перевода качества (многие из которых обычно результаты анализа) или нет. Конечно, в такой ситуации уже нет места произволу и регламентируются все ответствен- ные операции и правила принятия решений. Эта регламентация идет либо в рамках договорного права, т. е. определяется договором между производителем и потребителем, либо в рамках закона (ГОСТа) государственного, а то и между- народного. Примером международного закона в этой области служит система стандартов ИСО 9000 или аналогичные документы МЭК, а также правила акре- дитации лабораторий и их сотрудников. Понятно, что такая жесткая регламен- тация объясняется экономическими и юридическими последствиями ошибочных решений, а также конкуренцией на мировом рынке [51]. Наконец, остановимся еще на одной типичной ситуации — ситуации управле- ния с обратной связью. Представьте себе производство, в котором осуществля- ется окраска ткани. У барабана, на который непрерывно наматывается готовая продукция, стоит контролер и время от времени кричит своему напарнику в дру- гом конце цеха: “Подсыпь-ка краски в бак! А то что-то продукт пошел бледный”. Вот это и есть управление с обратной связью. Только хорошо бы, чтоб показа- тель качества измерялся прибором, например автоматическим анализатором с сенсором (чувствительным элементом), а управление осуществлялось автомати- чески через микропроцессор, встроенный в систему управления объектом [52]. Вроде бы мы таким образом охватили все этапк длинной дороги анализа и пора переходить непосредственно к нашей книге. Но дело обстоит, однако, го- раздо сложнее. Достигнув определенного уровня внедрения в аналитическую химию, статистические методы столкнулись со многими препятствиями, преодо- ление которых оказалось во многих отношениях гораздо более трудным делом, чем казалось сначала. Без их рассмотрения нам не обойтись. 2. Проблемы, трудности, новые горизонты Особенность многих статистических процедур состоит в том, что они работают эффективно только при выполнении определенных предпосылок. На практи- ке же аналитик либо не настолько владеет статистикой, чтобы отдавать себе в этом отчет, либо он все понимает, но сознает и то, что у него нет ни времени, ни средств для скрупулезной проверки всех этих предпосылок. Поэтому он просто “верит им на слово”. Ясно, что время от времени это приводит к разочаровани- ям. Трудность носит принципиальный характер и к ее преодолению шли с двух сторон [53]. Статистики искали и иногда находили новые подходы, смягчающие или даже отменяющие все или некоторые предпосылки, а химики искали “стати- стику с химическим лицом”, что в конце концов привело к созданию хемометрии (или хемометрики). Рассмотрим оба пути. Чтобы быть беспристрастным, я ки- нул монетку и получилось, что начинаем со статистических исканий, а потом уже хемометрия. Рандомизация! Центральное место среди предпосылок занимает требование нормальности распределения измеряемых случайных величин. Как быть с этим жестким усло- вием? Есть несколько вариантов, о которых нам уже приходилось неоднократно писать [54]. Упомянем их здесь вкратце. Итак, самое спокойное — верить предпосылкам и действовать так, как будто они всегда выполняются Применение статистики при этом становится догма-
Знак качества 11 наглядно проявляется почему-то в медицинских приложениях статистики. Со- здается впечатление, что от такого “применения” все-таки больше вреда, чем пользы. Экспериментальные проверки предпосылок, как правило, лежат в области прекраснодушных мечтаний (хотя бывают редкие приятные исключения) и рас- смотрения не заслуживают. Самым радикальным средством представляются полный или почти полный отказ от предпосылок и попытка получения результатов и их интерпретации в такой новой обстановке. Как ни странно, этот подход оказался вполне кон- структивным и привел к созданию непараметрической статистики [55]. Между прочим, в книге [55] читатель найдет более десятка примеров обработки анали- тических данных. Непараметрические методы оказались проще классических, и только трудности внедрения все еще сохраняют преимущества за классикой. Есть основания думать, что ситуация уже начала меняться. Сторонники непара- метрического подхода платят за потерю информации о предпосылках некоторой потерей эффективности экспериментов. Поскольку каждый эксперимент дается потом и кровью, всякой даже незначительной потери жалко. Ну что ж, тогда надо искать компромисс. Один из возможных компромиссов — ослабленные предпосылки — ведет к робастным методам [56], т. е. к таким процедурам, кото- рые способны “сопротивляться” некоторым нарушениям предпосылок. Если вы располагаете компьютером, то можно переложить часть ваших про- блем на машинное моделирование в духе бутстреп-процедуры [57]. Отрадно, что на эту процедуру обращено внимание в интересной работе [58], открывающей очень важный для нашей темы сборник. Если же вы никуда не спешите и согласны терпеливо накапливать данные, то можно обратиться к байесовскому подходу [59], где предпосылки рассматри- ваются как априорная информация, подлежащая уточнению в ходе накопления данных. Есть, наконец, и еще один радикальный путь — это поиск таких преобразова- ний исходных данных, при которых выполнялись бы все предпосылки [34, гл. 5]. Технически это не так уж и сложно, но камнем преткновения служит интерпре- тация полученных преобразованных данных. Если она удается, результат может претендовать на Нобелевскую премию, как это было, например, с Аррениусом в 1903 году. В последовательности анализов часто нарушается “незаметная” предпосыл- ка о статистической независимости результатов. Есть масса причин, мешаю- щих ее выполнению. Для многих химических процессов характерны регулярные дрейфы. А коррелированность результатов во времени или в пространстве су- щественно усложняет обработку данных, что важно иметь в виду. К сказанному можно еще добавить, что и при представлении или визуализа- ции данных мы сталкиваемся с аналогичными трудностями: плохой интерпре- тируемостью и сложностью процедур, граничащей с их практической недоступ- ностью для аналитика. Это относится почти ко всем методам многомерного ста- тистического анализа, таким, как кластерный анализ, факторный анализ и т.п. И далеко не всегда статистик может посоветовать что-либо более существенное, чем бросить все дела и заняться самообразованием в области статистических методов. Поэтому так соблазнительно выглядит идея собрать вместе все статистиче-
12 Предисловие редактора, перевода вообще и аналитику в частности, и изложить их без математического садизма хи- миками для химиков. Эта идея и привела в начале 70-х к созданию хемометрии [60-61]. Надо признать, что появление хемометрии было встречено с энтузиазмом, и работа сразу закипела. Об этом свидетельствуют многие факты. Так, в наиболее престижном американском журнале по аналитической химии с периодичностью раз в два года опубликовано уже 8 больших обзоров, причем последние семь из них назывались “Хемометрия”. Вот ссылки на два последних [62, 63]. В 1993 году выходит уже 7-й том специального журнала [64], редколлегия которого в США группируется вокруг авторов книги [60]. Вполне сложившиеся школы су- ществуют теперь и в Японии, и в ряде стран Европы. Отметим, например, инте- ресную школу, сложившуюся в университете Умео в Швеции вокруг С. Волда и Р. Карлсона [65, 66]. Приведем несколько ссылок на диссертации, выполненные в этом коллективе [67-69]. На первых порах становление хемометрии поддер- жала такая мощная организация, как НАТО [70]. Можно было бы указать еще на французский коллектив, возглавляемый Фан-Тан-Лу, и на его тесные связи со шведскими коллегами. Да и в Германии тоже ведется интенсивная работа. Отметим лишь работы О. Гроссман [71] и Дёрффеля [72]. Представляемую в рус- ском переводе книгу Дёрффеля можно рассматривать как логическое основание книги [72]. Развитие хемометрии в значительной степени способствовало приоб- щению химиков к статистическим методам и особенно к методам планирования эксперимента. И одно из ее главных достижений — это, несомненно, изменение стиля мышления химиков. Парадигмы в наше время сменяются очень быстро. И вот уже появилась как бы из хемометрии и как бы независимо новое образование — компьютерная химия. Здесь все как прежде и все чуть-чуть не так. Нам же не уклониться от обсуждения этого нового монстра. Ясно, что многие достижения последних лет непосредственно связаны с ис- пользованием вычислительной техники. Верно это и для аналитической химии. Достаточно вспомнить впечатляющие успехи в данном направлении известной фирмы “Хьюлетт-Паккард” [73]. Если обратиться к рекламе Американского хи- мического общества [74], то хорошо видно, что распространяемое этим обществом программное обеспечение охватывает как все методы анализа, так и основные статистические процедуры. В химии потребляются самые разнообразные программные продукты, от классических средств обработки данных и управления производством [75], до современных сложных систем [76]. Остановимся на них несколько подробнее. Во многих случаях аналитик может ограничиться самыми простыми стати- стическими пакетами [77, 78], часто даже никак не связанными с химической спецификой. В более сложных случаях приходится покупать или заказывать специальные разработки [79-81]. Есть осторожные сообщения о полностью автоматизирован- ных аналитических системах [82]. Одна из ключевых проблем химии — поиск информации в больших масси- вах — приводит к широкому использованию баз данных как для традиционного библиографического или фактографического поиска, так и специально для ана- литических целей, когда речь идет, например, о библиотеках спектров и т. п. [83, 84].
Зинк качества 13 ний день главного детища теории искусственного интеллекта. Исторически пер- вой такой системой была знаменитая система ДЕНДРАЛ [85]. А дальше они посыпались как из рога изобилия [86]. Все это сулит аналитике новые горизон- ты. 3. Проблемы внедрения Все это огромное многообразие идей, методов, процедур, приемов, конечно, не войдет в повседневную жизнь аналитиков само по себе. Нужны специальные целенаправленные усилия. Давай'ге обсудим их в общих чертах. Области приложения аналитической химии столь разнообразны, что нет надежды на унифицированные подходы ic внедрению наших статистико- хемометрических идей. Возьмем, например, острейшую современную пробле- му мониторинга окружающей среды, где аналитика играет решающую роль при прослеживании за изменением ко нцентрацийс десятков веществ в трех средах и сравнении получаемых данных с ПДК. Ясно, что тут не обойтись без глубо- кой компьютеризации и максимально возможной автоматизации всех операций. При этом важно еще следить и за соответствующими стандартами, например, [87]. На это и надо будет делать уиор. Кстати, недавно возникла еще одна новая наука “инвайронметрия”, т. е. наука о применении статистических методов при изучении окружающей среды и узправлении ею. Уже четвертый год выходит и соответствующий журнал [88]. Совсем иная ситуация в научных исследованиях многокомпонентных систем, где ключевую роль играют экспериментальные планы [89, 90] и методы разделе- ния смесей. Понятно, что приходится менять стратегию внедрения. Можно, видимо, уже и не гово рить, какие требования предъявляет нам кли- ническая аналитика, анализ луншого грунта, оценка содержания нитратов в пи- щевых продуктах и многие другие практические ситуации. Всякий раз меняются обстоятельства и критерии, что н>е облегчает нашу задачу. Но есть и еще одна трудность, о которой надо упомянуть. Речь идет об ана- лизе информационных потоков в аналитической химии, да и в химии вообще. А это, как известно, весьма трудоемко. Недаром реферативный журнал “Хи- мия” выходит чаще, чем любые другие реферативные журналы. Облегчить дело призваны некоторые справочники, например, [91, 92], и широко ведущиеся в по- следние годы наукометрические и сследованил — еще одна область интенсивного приложения статистических методов, кстати, есть и соответствующий журнал [93], а также публикации [94-96]. Большую пользу может принести “Индекс научных цитат”. Так, например, с его помощью мы можем узнать, что замечательная книга В. В. Налимова [36] к 1990 году цитировалась более 955 {раз. Такое огромное число цитирований делает эту книгу классической [97]. Есть две вещи, которые друг другу противоречат, но друг без друга суще- ствовать не могут. Это рутина и творчество. Рутина фиксируется в стандартах, например, [98-99], а творчеству посвящаются руководства, например, [100]. Обратимся, наконец, к проблемам обучения. Что нужно для хорошего обу- чения (кроме желания учиться, конечно)? Нужны программы и учебники. В программах недостатка нет. Так., в существовавшем до недавнего времени Мо- сковском институте повышения жвалификагхии руководящих работников и спе- циалистов химической промышле нности много лет велось обучение по 240- и 360-
14 Предисловие редактора, перевода тистические методы контроля в аналитической химии” [101]. Есть, конечно, и другие программы в вузах и институтах повышения квалификации, направлен- ные на аналогичные цели. А вот с учебниками и учебными пособиями мы испытываем известные слож- ности. Было бы неверно считать, что их нет. Но это такой продукт, которого всегда не хватает. Так вот, представляемая русскому читателю книга Дёрффеля, к рассмотрению которой уже давно пора перейти, может (и будет) служить пре- красным учебником для химиков-аналитиков. Наша уверенность в этом опира- ется на опыт использования первого издания этой книги, вышедшего в свет в 1969 году по редакцией В. В. Налимова. Теперь мы издаем перевод с 5-го немец- кого издания, которое существенно переработано и значительно модернизировав но. Что же касается первого издания, то оно и по сей день пользуется высокой репутацией у аналитиков и как учебник, и как справочное руководство непо- средственно в лаборатории. Высокий авторитет достигнут благодаря простоте и точности изложения многих важных вопросов. Заметим, что мы несколько изменили русскую транскрипцию фамилии автора, приблизив ее к оригиналу. Мы не станем пересказывать здесь содержание самой книги, оно говорит само за себя. Вместо этого приведем цитату из предисловия В. В. Налимова к перво- му изданию: “... Не слишком ли много сейчас проводят ненужных определений из-за перестраховки, из-за того, что вся организация аналитической службы базируется на каких-то устаревших, очень давно выработанных правилах, не приведенных в соответствие с современными статистическими представления- ми? При разработке новых методов анализа уже давно следовало бы применять современные методы планирования эксперимента с представлением результатов поверхностями отклика. ... Вся система организации работ в аналитической хи- мии должна быть перестроена под влиянием идей математической статистики и тех новых возможностей, которые открываются при применении электронной вычислительной техники”. Все ли мы сделали, чтобы эти слова уже перестали быть актуальными? В заключение выражаю благодарность своему учителю В. В. Налимову за многолетнюю поддержку и своему коллеге Ю. В. Грановскому за помощь в ре- дактировании перевода и написании этого предисловия. Когда-то мы с ним на- писали заметку в журнал “Химия и жизнь” [102], которая называлась “Опыт, опыт, повторись!”. Хочется, чтобы эти слова можно было отнести и ко второму изданию на русском языке интересной и полезной книги Дёрффеля. Ю. Адлер Литература 1. Розенблит А. Б., Голендер В. Е. Логико-комбинаторные методы в конструирова- нии лекарств. — Рига: Зинатне, 1983. 2. Дмсурс П., Айзенаузр Т. Распознавание образов в химии. Пер. с англ./Под ред. А. М. Евсеева, Г. Г. Вайнштейна. — М.: Мир, 1977. 3. Иоффе И. И., Решетов В. А., Добротворский А. М. Расчетные методы в прогнози- ровании активности гетерогенных катализаторов. — Л.: Химия, 1977. 4. Савицкий Е. М., Грибуля В. Б. Прогнозирование неорганических соединений с пс мощью ЭВМ. — М.: Наука, 1977. 5. Маркова Е. В., Лисенков А. Н. Планирование эксперимента в условиях неоднород ностей. — М.: Наука, 1973.
Литература 15 6. Маркова Е. В., Лисенков А. Н. Комбинаторные планы в задачах многофакторного эксперимента. — М.: Наука, 1979. 7. Бродский В. 3. Введение в факторное планирование эксперимента. — М.: Наука, 1976. 8. Адлер Ю.П. Введение в планирование эксперимента. — М.: Металлургия, 1969, с. 53-68. 9. Клейнен Дж.. Статистические методы в имитационном моделировании. Пер. с англ./Под ред. Ю.П. Адлера, В. Н.Варыгина. — М.: Финансы и статистика, 1978. — Вып. 1, 2. 10. Federer W. Т. Procedures and designs useful for screening materials in selection and allocation, with bibliography. — Biometrics. — 1963, v. 19, No 4, p. 553-587. 11. Науман Э. Принять решение — но как? Пер. с нем./Под ред. Ю.П. Адлера. — М.: Мир, 1987. 12. Статистические методы анализа экспертных оценок. (Ученые записки по стати- стике, т. 29.) — М.: Наука, 1977. 13. ГОСТ 23554.2-81. Экспертные методы оценки качества промышленной продукции. Обработка значений... — М.: Стандарты, 1982. 14. Грановский Ю. В., Каменев А. И., Беликов В. Г. Применение многофактор- ного планирования эксперимента при анализе вещества. — Журнал ВХО им. Д. И. Менделеева. — 1980, т. 25, No 1, с. 46-54. 15. Адлер Ю. П., Маркова Е. В., Грановский Ю. В. Планирование эксперимента при поиске оптимальных условий. — 2-е изд. — М.: Наука, 1976. 16. Горский В. Г., Адлер Ю. П. Планирование промышленных экспериментов (Модели статики). — М.: Металлургия, 1974, с. 176-257. 17. Bunde Т.А. Application of random balance design. — Technometrics. — 1959, v. 1, No 2, p. 139-144. 18. Шаевич А. Б. Измерение и нормирование химического состава вещества. — М.: Стандарты, 1971. 19. Адамович Л. П. Химическая метрология и ее место в системе естественных на- ук. — Харьков: ХГУ, 1978. 20. ГОСТ 1.25-76.ГСС. Метрологическое обеспечение. Основные положения. 21. ГОСТ 8.001-80.ГСИ. Организация и порядок проведения государственных испы- таний средств измерений. 22. ГОСТ 8.002-86.ГСИ. Государственный надзор и ведомственный контроль за сред- ствами измерений. Основные положения. 23. ГОСТ 8.009-84.ГСИ. Нормируемые метрологические характеристики средств из- мерений. 24. ГОСТ 8.010-90.ГСИ. Методики выполнения измерений. 25. ГОСТ 8.326-89.ГСИ. Метрологическая аттестация средств измерений. 26. ISO 5725-86. Accuracy (trueness and precision) of measurement niethods and results. Part 1. General principles and definitions; Part 2. A basic method for the determi- nation of repeatability and reproducibility of a standard measurement method; Part 3. Intermediate measures on the precision of a test method (Draft); Part 4. Basic methods for estimating the trueness of a test method; Part 6. Practical applications. 27. Catalog of standart reference materials, NBS Special Publication, No 260, July 1970, U.S.Dept, of commerce NBS. 28. British chemical standards and spectroscopic standards, prepared and issued by Bureau of analysed samples, Ltd. — 1971, No 437. 29. Стандартные образцы, выпускаемые в СССР. Справочник/Под ред. А. Б. Шаеви- ча. — М.: Стандарты, 1973. 30. Коробков В. И., Лукьянов В. Б. Методы приготовления препаратов и обработка результатов измерений радиоактивности. j— М.: Атомиздат, 1973.
16 Предисловие редактора. перевода. 31. Плинер Ю. Л., Степин В. В., Устинова В. И. Стандартные образцы металлурги- ческих материалов. — М.: Металлургия, 1976. 32. Шаевич А. Б. Стандартные образцы для аналитических целей. — М.: Химия, 1987. 33. Макулов Н.А. Оптимальные системы стандартных образцов. — В кн.: Регресси- онные эксперименты (Планирование и анализ)/Под ред. В. В. Налимова. — М.: МГУ, 1977, с. 159-171. 34. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — Изд. 2-е. Пер. с англ. — М.: Финансы и статистика, 1986. — Вып. 1, 2; 1, с. 69-72; 162-163. 35. Martens Н., Naes Т. Multivariate calibration. — New York: J. Wiley, 1991. 36. Налимов В. В. Применение математической статистики при анализе вещества. — М.: Физматгиз, 1960. 37. Бернштейн Л. Е., Налимов В. В., Фалькова О. Б. Планирование эксперимента и представление его результатов при оценке точности и правильности анализа гео- логических проб. — Зав. лаб., 1961, т. 22, No 10. 38. Горский В. Г., Адлер Ю. П., Бродский В. 3., Кузнецов В. С. Линейные планы с целочисленными уровнями. — Зав. лаб., 1973. — т. 34, No 5, с. 539-583. 39. Мартыненко О. Н, Каплин А. А., Пичугина В. М. О возможности применения планов взвешивания для снижения пределов обнаружения при определении эле- ментов методом полярографии с накоплением. — Деп. ВИНИТИ, 16. XI. 1976, No 3970-76, РЖХим., 1977, 5Г95 Деп. 40. Катеман Т., Пийперс Ф. В. Контроль качества химического анализа. Пер. с англ./Под ред. Ю. А. Карпова. — Челябинск: Металлургия, 1989. 41. Браунли Н.А. Статистические исследования в производстве. Пер. с англ./Под ред. А. Н. Колмогорова. — М.: ИЛ, 1949. 42. Статистические методы повышения качества. Пер. с англ./Под ред. X. Кумэ. — М.: Финансы и статистика, 1990. 43. Мердок Дж. Контрольные карты. Пер. с англ. — М.: Финансы и статистика, 1986. 44. Чарыков А. К. Математическая обработка результатов химического анализа. — Л.: ЛГУ, 1977. 45. Барский В.Д., Коган Л. А. Практический математико-статистический анализ в коксохимии. — М.: Металлургия, 1975. 46. Математическое моделирование и планирование эксперимента (УНИХИМ). — Л.: Химия, 1971. 47. Беликов В. Г., Пономарев В.Д., Коковкин-Шербак Н. И. Применение математиче- ского планирования и обработка результатов эксперимента в фармации. — М.: Медицина, 1973. 48. Курс на качество, 1992, No 2. 49. Adler Yu., Shper V. Some remarks on capability indices. — In: Proceedings 9-th International Conference of the ISQA. — 1992, p. 921-926. 50. Турусов В. С., Парфенов Ю.Д. Методы выявления и регламентирования химиче- ских канцерогенов. — М.: Медицина, 1986. 51. Кардашевский В. В., Грузберг Д. М. Управление качеством продукции в хими- ческой промышленности. — М.: Химия, 1989. См. также Европейские стандар- ты, регламентирующие деятельность испытательных лабораторий, органов по сер- тификации и изготовителя при заявлении о соответствии продукции: EN 45001, EN 45002, EN 45003, EN 45011, EN 45012, EN 45013, EN 45014. — М.: Инсар Лтд., 1993. 52. Микропроцессоры в химической промышленности/Под ред. Р. И. Батырева. — М.: Химия, 1988. 53. Адлер Ю. П. Предпланирование эксперимента. — М.: Знание, 1978.
Литература 17 54. Адлер Ю. П. Планирование эксперимента. (Новые горизонты.) — М.: Знание, 1987, с. 79-83. 55. Холлендер М., Вулф Д. Непараметрические методы статистики. Пер. с англ./Под ред. Ю.П. Адлера, Ю.Н. Тюрина. — М.: Финансы и статистика, 1983. 56. Мостеллер Ф., Тьюки Дэю. Анализ данных и регрессия. Пер. с англ./Под ред. Ю.П. Адлера. — М.: Финансы и статистика, 1982. —Вып. 1, с. 204-217. 57. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. Пер. с англ./Под ред. Ю.П.Адлера. — М.: Финансы и статистика, 1988. 58. Грибов Л. А. Математика и аналитическая химия. — В сб.: Математические ме- тоды и ЭВМ в аналитической химии. Проблемы аналитической химии, т. IX — М.: Наука, 1989, с. 5-25. 59. Райфа Г. Анализ решений. Введение в проблему выбора в условиях неопределен- ности. Пер. с англ. — М.: Наука, 1977. 60. Шараф М. А., Иллмэн Д. Л., Ковальски Б. Р. Хемометрика. Пер. с англ./Под ред. И. А. Ибрагимова, А. К. Чарыкова. — Л.: Химия, 1989. 61. Morgan Е. Chemometrics. Experimental design. — Chichester, U.K.: J. Wiley, 1991. 62. Brown S. D. Chemometrics. — Analytical Chemistry. — 1990, v. 62, No 12, p. 84R- 101R. 63. Brown S.D., Bear R.S., Jr., Blank T.B. Chemometrics. — Analytical Chemistry. — 1992, v. 64, No 12, p.22R-49R. 64. Journal of Chemometrics. — Editor-in-Chief: B.R. Kowalski (from 1987). 65. Wold S. Cross-validatory estimation of the number of components in factor and principal components models. — Technometrics. — 1978, v. 20, No 2, p. 397-405. 66. Carlson R. Design and optimization in organic synthesis. — Amsterdam: Elsevier, 1991. 67. Lundstedt T. The Willgerodt — Kindler reaction. A multivariate approach. — o Dissertation. Umea Universitet, 1986. 68. Prochazka M. Multivariate modelling in synthesis. Determination of reaction space through PC and PLS modelling. Applications to the Fisher indole synthesis. — Dissertation. Universitet of Umea, 1990. 69. Nordahl A. Methods for information optimization in organic synthesis. — Dissertation, o Umea Universitet, 1990. 70. Kowalski B. R. (ed.) Proceeding of the NATO Advanced Study Institution Chemometrics, Mathematics and Statistics in Chemistry, Cosenza, Italy, September 1983, Dordrecht, Holland- Riedel Publishing Co.,1984. 71. Groflmann O. Beitrage zur Anwendung der/statistischen Versuchsplanung bei der Ausarbeitung chemischer Analysenverfahren. — Dresden, September, 1989. 72. Doerffel K., Eckschlager K., Hennon G. Chemometrische Strategien in der Analytik. — Leipzig: VEB Deutscher Verlag fiir Grundstoffindustrie, 1990. 73. Hewlett-Packard PEAK. — 1991, No 1. 74. ACS Software. Scientific Software for the PC and Macintosh, 1993. 75. Бэйнз А., Бредбери Ф., Саклинг С. Организация исследований в химической про- мышленности. Условия, цели и стратегия. Пер. с англ. — М.: Химия, 1974. 76. Саутин С.Н., Пунин А. Е. Мир компьютеров и химическая технология. — Л.: Химия, 1991. 77. Meier Р. С., Zund R. Е. Statistical methods in analytical chemistry. — New York: J. Wiley, 1993. 78. Контроль качества с помощью персональных компьютеров. Пер. с япон./Под ред. Ю. П. Адлера. — М.: Машиностроение, 1991. 79. Автоматизация научных исследований в химии (Материалы 5-й Всесоюзной шко- лы). — Рига: Зинатне, 1975. 80. Применение ЭВМ в химических и биохимических исследованиях/Под ред.
18 Предисловие редактора перевода Ч. Е. Клопфенштейна, Ч. Л. Уилкинсона/Пер. с англ.; Под ред. А. Ф. Васильева, т. 1. — М.: Химия, 1976. 81. Hartley Т. F. Computarized quality control. Program for analytical laboratory. — New York: Ellis Horwood, 1990. 82. Закускин С. В. Математическое обеспечение автоматизированных систем анал№ тического контроля/рентгеноспектральный анализ/. — Автореферат ктн. — М.: ГИРЕДМЕТ, 1986, 15 с. 83. Гейвандое Э.А., Рыдник В. И. Автоматизированные банки данных по свойства»* веществ и материалов за рубежом. — М.: ВНИИКИ, 1977, 80 с. 84. Автоматизированная информационно-диагностическая система для минералов. —► М.: Недра, 1986. 85. Элти Дж,., Кумбс М. Экспертные системы: концепции и примеры. Пер. с англ. —И М.: Финансы и статистика, 1987. 86. Искусственный интеллект: применение в химии/Под ред. Т. Пирса, Б. Хони/Пер. с англ.; Под реД. В. Л. Стефанюка. — М.: Мир, 1988. 87. ГОСТ 17.0.02-79. Охрана природы. Метрологическое обеспечение контроля за- грязнения атмосферы, поверхности вод и почвы. Основные положения. 88. Environmetrics. — Editors: А. Н. El-Shaarawi, LB. MacNeil (from 1990). 89. Чемлева T.A., Адлер Ю.П. Планирование эксперимента при построении диа- грамм состав-свойство. (Обзор.) — В кн.: Применение математических методов для исследования многокомпонентных систем. — М.: Металлургия, 1974; с. 11- 42. 90. Адлер Ю.П., Грязев Н. Н., Рахлевская М.Н., Румянцева Г. А. О применении ме- тода симплексных решеток при изучении адсорбции из многокомпонентных си- стем. — Доклады АН СССР, 1971, No 5, с. 1123-1125. 91. Романенко В. Н., Орлов А. Г., Никитина Г. В. Книга для начинающего исследова- теля — химика. — Л.: Химия, 1987. 92. Потапов В. М., Кочеткова Э. К. Химическая информация. Где и как искать химику нужные сведения. — Изд. 2-е. — М.: Химия, 1988. 93. Scientometrics. — Editor-in-Chief: Т. Braun (from 1978). 94. Наукометрические исследования в химии. — Сб. — М.: МГУ, 1974. 95. Логика развития и наукометрический анализ отдельных направлений в химии. — Сб. — М.: МГУ, 1976. 96. Грановский Ю. В. Наукометрический анализ информационных потоков в хи- мии. — М.: Наука, 1980. 97. Nalimov V. V. Return from exile. — Current Contents, 1990, v. 22, No 23, p. 15-16. 98. ГОСТ 24555-81. СГИП. Порядок аттестации испытательного оборудования. Основные положения. 99. РД 50-502-84. Показатели точности, достоверности и воспроизводимости резуль- татов испытаний. Методические указания. 100. Орлов А. Г. Методы расчета в количественном спектральном анализе. — Л.: Не- дра, 1977. 101. Статистические методы контроля качества в аналитической химии. Учебный план, программа и методические указания/Под ред. Ю. П. Адлера. — М.: МИПК, 1981, 105 с. 102. Адлер Ю., Грановский Ю. Опыт, опыт, повторись! — Химия и жизнь, 1978, No 10, с. 93-98.
Моему высокочтимому учителю и руко- водителю, доктору Г. Грюссу (1902 — 1950), профессору математики и тех- нической механики Горной академии во Фрайберге, с благодарностью посвящаю Предисловие После выхода в свет первого издания этой книги прошло более 20 лет. За эти годы у книги появилось много друзей и внутри страны и за рубежом; она пе- реведена на многие языки. Методы, описанные в том издании, стали теперь неотъемлемым инструментом химиков-аналитиков, когда речь идет о характе- ристике методов анализа или об оценке результатов. Разумеется, за эти два десятилетия развитие методологии шагнуло далеко вперед. Теоретические ис- следования расширили область применения многих моделей, появились также и новые модели. Развитие вычислительной техники упростило методы обработ- ки результатов и автоматизировало их. Однако по-прежнему задача химиков- аналитиков состоит в том, чтобы правильно подобрать математическую модель к данной аналитической задаче, критически оценить полученный результат и выразить его в подходящей форме. Отразить эти основные требования и тенденции развития и было целью и при- чиной переработки книги. Без изменений осталась основная концепция: обосно- вать правильное применение математико-статистических методов. Кроме того, большое значение уделяется сравнению вариантов и методов. Удалось подобрать дополнительные примеры, обоснованные с точки зрения материала и задачи ин- терпретации результатов вычислений, эти примеры возникли главным образом из обсуждений данной проблемы с коллегами. Актуальной проблеме временных рядов посвящен специальный раздел. Кроме того, обобщен опыт обработки ло- гарифмически нормально распределенйых измерений для работы с дробными факторными планами, а также для проведения и сравнения межлабораторных опытов. Раздел о статистической оптимизации написан под руководством доцен- та д-ра г-жи Арпадян (г. София). Идея переработки книги появилась у меня после бесед с коллегами внутри страны и за рубежом, а также во время обсуждений с сотрудниками и студен- тами. Всем им я искренне благодарен. Я хочу поблагодарить также профес- соров Аккермана и Данцера за их критические замечания. Я благодарю мою сотрудницу фрау Биела за неутомимый и добросовестный труд по перепечат- ке рукописи и подготовке иллюстраций. Немецкому издательству Добывающей Промышленности (Dt. Verlag fur Grundstoffindustrie) я выражаю благодарность за сотрудничество и издание моей книги. Надеюсь, что и это издание книги будет принято хорошо. С удовольствием приму к сведению все предложения по дальнейшему совершенствованию книги или возможности ее улучшения. Клаус Дёрффель
Использованные обозначения Н< Н| н а, b — константы линий регрессий к — число классов в эмпирическом распределении частот т — число проб различного содержания ц — среднее генеральной совокупности п — число измерений — число параллельных определений Р — вероятность г — коэффициент корреляции R — размах s — оценка стандартного отклонения (средней квадратичной ошибки) s2 — оценка дисперсии сг — стандарное отклонение генеральной совокупности — измерение — оценка среднего — срединное значение (медиана) ±Дзс — доверительный интервал среднего Другие редко встречающиеся обозначения объясняются по тексту.
Стандартные задачи В аналитике встречается целый ряд часто повторяющихся задач. Ниже при- водится перечень подобных стандартных задач с указанием основных разделов книги, где они рассматриваются. Характеристика методов анализа Наряду с исчерпывающей инструкцией по проведению анализа и выбором метода аналитические процедуры можно охарактеризовать следующими величинами: - случайная ошибка [величина (4; 5.1); зависимость от содержания (5.2); вли- яние рабочих условий (2.1; 5.2; 8.1);]; - систематическая ошибка [отсутствие (9.2.4), текущий контроль (12.1)]; - селективность (4.6; 0; особенно 10.3); - градуировочный график [вид функции (9.2.2); границы применимости (4.2; 9.2.3)]; _ - возможность обнаружения [предел обнаружения с уровнем значимости Р, предел чувствительности с уровнем значимости Р+ Р~ (6.3), обработка результатов холостого опыта (6.2; 9.2.3)]; - расход времени и средств. Представление аналитических данных Результаты анализа должны быть представлены в общепринятой понятной и неаналитикам форме. Для этого служат следующие величины: - доверительный интервал (6.1; 8.4; ДИ.ЗД' - доказательство правильности (7.4; 8.4; [8.7]1)); - предел чувствительности (6.3) при анализе следов. Анализ следов При проведении анализов следов аналитические методы часто работают на пре- деле возможностей. Это обусловливает особенности описания методов анализа и представления результатов. Особенно следует обратить внимание на: - логарифмическое распределение результатов анализа (2.1; 5.1; 5.4; 6.1); - логарифмический градуировочный график (9.2.2); - пределы обнаружения (обработка значений холостого опыта, значимость Р) для методов (6.2; 9.2.3); - предел чувствительности (с уровнем значимости Р+ Р~) (6.3); Номера в квадратных скобках относятся к примерам в тексте.
22 Стандартные задачи — представление данных в соответствии с логарифмическим распределением результатов анализа (6 1) Обеспечение качества Для соблюдения, например, границ, предписанных допусками, надо учитывать случайную ошибку (аналитического значения, предполагаемого “правильным”) В связи с этим целесообразно рассмотреть следующие моменты — доверительный интервал (6 1), — требования к качеству с учетом рисков потребителя и производителя (6 3), - правовые основы договоров (б 3), — применение коррелированных показателей (12 4), — проверка на тренды (дрейфы) и периодичности временных рядов (12 2), — методы контрольных карт (12 1), - частота отбора проб (12 3), - использование контрольных проб (8 4, [8 7]) Отбор проб (пробоотбор) Отбор достаточной для анализа пробы требует глубоких знаний о химическом и фазовом составе вещества (см примеры [4 10] и [8 2]) Кроме того, нельзя забывать общих закономерностей, например - число проб [4 8], - объем проб [8 2], — частота отбора проб [12 3], — возможности обнаружения ошибки пробоотбора (8 2), - возможности работы с выборками (12 5) Межлабораторные работы При межлабораторных опытах пробы анализируются в разных лабораториях Для информативной оценки данных и для эффективного проведения таких опы- тов важно обратить внимание на следующие моменты - наглядное изображение данных (2 1), - дисперсионный анализ как модель оценки (8 4), - сравнимость лабораторий (84), - использование сертифицированных материалов (8 4), - специальная подготовка к проведению анализов следов (5 1, 6 1, 8 4), — проведение межлабораторных опытов с участием нескольких лабораторий (2 1, 8 4)
Экономия времени 23 Экономия времени При планировании измерительных процессов всех типов естественно стремиться к минимизации дорогостоящих проверок, причем без ухудшения их качества При этом важны следующие моменты - объединение малых чисел опытов (5 1, 6 1, 8, 12 5), - использование планов выборок (12 5), - применение коррелированных величин (2 1, [2 19], 9 1, 12 4), - контроль качества с более доступными косвенными измерениями (12 5), - правильное установление частоты отбора проб (12 3), — точная формулировка соглашений о качестве в интересах производителя и потребителя (б 3) Статистические критерии Статистические критерии дают объективные выводы Для каждой задачи надо подобрать подходящий метод контроля - сравнение двух стандартных отклонений (7 2) - сравнение среднего с номиналом (7 4), - сравнение двух средних (7 4), - сравнение более чем двух средних (8 3), - сравнение рядов измерений (7 5,9 2 4, 12 4), - выявление грубых ошибок (7 7), - сравнение частот (7 б), - испытание распределений (3 1, 7 8), - выявление периодичностей (7 7, 12 2), - выявление тренда (12 2), - выявление линейной регрессии (9 2 2), - выявление корреляции (9 1, 12 4), - выявление влияний факторов (10 1, 10 2) Функции распределения Методы оценок, обсуждаемые в данной работе, предполагают определенные Функции распределения Подробно об этих распределениях см в главах - интерпретация эмпирических распределений (2 1), ~ проверка эмпирических распределений (2 1, 3 1, 7 8), - выбор адекватных распределений (2 1, 5 1, [5 3], б 1) При нарушении принятых распределений стоит обратить внимание на — выводы (утверждения) о доверительных интервалах (3 1) и на все параме- трические методы контроля, ~ применение зависимых от распределения методов оценки и расчета (2 2, 2 5, а также 2 9, 9 2 1) и непараметрических методов проверок гипотез (7, 12 2)
1 Виды ошибок в аналитической химии Для анализа пробы аналитик в большинстве случаев проводит несколько парал- лельных определений. При этом отдельные результаты должны располагаться как можно ближе друг к другу и соответствовать фактическому содержанию пробы. Значит, есть два показателя, по которым аналитик судит о своих резуль- татах: 1) воспроизводимость полученных результатов; 2) соответствие их истинному содержанию пробы. Воспроизводимость зависит от случайной ошибки метода анализа. Чем боль- ше случайная ошибка, тем сильнее рассеиваются значения при повторении ана- лиза и тем меньше точность (прецизионность) метода. Отклонения от истинного содержания пробы обусловливаются системати- ческой ошибкой. Метод анализа дает правильные значения только в том случае, когда он свободен от систематических ошибок. Случайные ошибки делают ре- зультаты анализа неточными, а систематические — делают неверным сам ана- лиз. Следовательно, воспроизводимость результатов, полученных каким-либо аналитическим методом, и их правильность надо рассматривать по отдельно- сти. Воспроизводимость можно квалифицировать с шагом, пропорциональным величине возникшей случайной ошибки, тогда как правильность результатов анализа можно представить только как качественное решение типа ДА — НЕТ (правильно или неправильно из-за наличия систематической ошибки) [1]. В номенклатурных рекомендациях ЮПАК [2] для характеристики случайной ошибки даны оба понятия — “точность” и “прецизионность”. Так как понятие “точность” в литературе не всегда используется однозначно, далее оно не будет применяться1^. [1.1] На практических занятиях по объемному анализу два студента титровали одну и ту же пробу. Были получены следующие результатов (в мг Са): Студент 1 Студент 2 121,5 122,0 121,0 125,0 124,5 125,5 В обоих случаях имеет место одинаковый случайный разброс. Относительно за- ') Затронутая здесь терминологическая проблема очень сложна. У нас она тоже неодно- кратно обсуждалась. См., например, дискуссию в журнале “Заводская лаборатория” No 10 за 1962 г. или “Методические указания. Система государственных испытаний продукции. Показатели точности, достоверности и воспроизводимости результатов испытаний. Основные положения. РД 50-502-84”. Однако решительного искоренения слова “точность” из русской терминологии не произо- шло. Поэтому мы не будем следовать в переводе рекомендациям автора и сохраним наряду с термином “прецизионность” или даже “правильность” также и термин “точность”, различая их лишь контекстуально. — Прим. ред.
Глава 1. Виды ошибок в аналитической химии 25 ранее заданного значения 125,0 мг результаты, полученные первым студентом, имеют систематическую ошибку, поэтому их нельзя считать “правильными”. Случайные и систематические ошибки в аналитической химии вызываются множеством различных причин. Вот основные источники ошибок: 1. Большинство исследуемых веществ надо рассматривать как неоднородные (негомогенные). Поэтому несколько небольшых взятых из них частей — ана- литических проб — могут не иметь одинакового состава. А значит, уже только по этой причине результаты анализа будут подвержены случайным колебани- ям. Из-за неквалифицированного одностороннего отбора проб может отдаваться предпочтение отдельным компонентам, а в итоге — систематическое искажение состава пробы. 2. Все необходимые для анализа измеряемые величины, такие, например, как масса осадка или светопоглощение окрашенного раствора, можно опреде- лить лишь с ограниченной точностью. Эта точность задается применяемым ме- тодом измерения, характером измеряемой величины, а часто и субъективными причинами. Если исключить показания неправильно отрегулированных измери- тельных приборов и иные подобные отказы, то ошибки чаще всего проявляются в форме случайных отклонений. Их надо минимизировать выбором подходящих условий измерений [3]. 3. В классических методах анализа часто исследуемые пробы подвергаются химическим реакциям, продукты которых характеризуются по виду, составу и массе. Обычно эти реакции рассматривают как равновесные, причем равнове- сие стремятся сдвинуть как можно дальше в сторону продуктов реакции. Не- смотря на это, в ходе реакций возникают как случайные (например, колебания растворимости из-за различных концентраций растворяемых солей), так и систе- матические (например, из-за соосаждения) ошибки. Задача аналитика состоит в том, чтобы подобрать для каждого конкретного случая наиболее подходящие реакции. Если отбросить ошибку пробоотбора, как непосредственно не относящуюся к методу анализа, то общая ошибка складывается из ошибок измерений и ошибок, связанных с химическими реакциями. Как правилр, ошибки измерений должны быть меньше, чем ошибки метода. В то время как ошибками измерений можно пренебречь, как это постоянно делается в физических исследованиях, для мето- дических ошибок это не удается или удается лишь в исключительных случаях. Их описание, равно как и описание общей ошибки, возможно только с помощью методов математической статистики. Эти методы исходят из идеализированного предположения о существовании бесконечно большого числа измерений. Множество всех этих результатов рас- сматривают как генеральную совокупность. Их нее выводят закономерности для явлений, воспринимаемых наблюдателем как чисто случайные. На практике, однако, число измерений обычно очень мало.Набор данных конечного объема, извлекаемых из генеральной совокупности, составляет выборку. Выборку следу- ет подбирать так, чтобы она как можно лучше характеризовала (представляла) генеральную совокупность. Этой цели можно добиться тем скорее, чем больше объем выборки и чем лучше удался случайный отбор конкретных измерений. [1.2] Условия построения выборок очень похожи на принципы отбора проб в анали- тике. Проба представляет анализируемое вещество только в том случае, когда выбор
26 Глава. 1. Виды ошибок в аналитической химии происходит случайно (т. е. без какого-либо предпочтения некоторым партиям) и когда проба достаточно велика. Как правило, корректно взятая выборка лишь случайно отличается от ге- неральной совокупности. Эти случайности и вероятность их появления можно описать с помощью математической статистики. Она позволяет на основании вы- борочных измерений делать заключения о поведении генеральной совокупности. Поэтому из конечного числа измерений можно сделать общий вывод о случай- ной ошибке изучаемого метода измерения и дать прогноз характера аналогичных измерений в будущем. . Если в серии анализов проявляется только случайная ошибка, то результаты рассеиваются беспорядочно, несколько отличаясь друг от друга, хотя условия опыта остаются абсолютно постоянными. В большинстве случаев известное ис- тинное содержание пробы лежит внутри этого диапазона колебаний. Случайная ошибка может иметь ту же размерность, что и измеряемая величина (например, мг, мг/л или проценты). В таком случае она называется абсолютной ошибкой. Случайную ошибку можно выразить еще и в относительных единицах. В этом случае получают относительную (или процентную) ошибку. При описании оши- бок надо указывать, о какой из этих двух возможностей идет речь. [1.3] При анализе эталонных образцов в паспорте наряду с процентным содержанием отдельных компонентов указываются и относящиеся к ним случайные ошибки в их аб- солютном виде. Например, для содержания хрома в феррохроме имеем (63, 5±0,1)%Сг. Если отсюда хотят найти относительную или процентную ошибку, то получают: J™- = 0,0016 = 0,16% (относительных). 63, 5 Для непосредственного применения к результатам измерений особенно удоб- но пользоваться абсолютной ошибкой, она дает ясное представление о реальных достоинствах полученных значений. Напротив, относительная ошибка часто бо- лее наглядно характеризует аналитический метод благодаря ее соотнесению с измеряемой величиной. Систематические ошибки влияют на все измерения всегда одинаково. При этом истинное значение оказывается за пределами диапазона колебаний. Если все измерения сдвинуты на одно и то же значение, то говорят о наличии постоян- ной ошибки (например, о неизвестном значении холостого опыта) Отклонения, величины которых зависят от результатов измерений, называются переменной ошибкой. При пропорциональной зависимости между результатом и величиной ошибки говорят о линейно меняющейся ошибке (например, при неправильном ти- тре анализируемого раствора). Оба вида ошибок могут проявиться одновремен- но. Систематические отклонения в большинстве случаев выражаются в форме абсолютной ошибки [4] Вследствие случайной ошибки параллельные определения в анализе беспо- рядочно рассеиваются относительно истинного содержания пробы. Напротив, систематическая ошибка дополнительно сдвигает результаты в том или ином направлении, и тогда метод дает “неверный результат”. Таким образом, слу- чайная и систематическая ошибки оказывают принципиально различное влия- ние на результаты анализа. И все-таки между этими двумя видами ошибок есть определенная связь.
Глава. 1. Виды ошибок в аналитической химии 27 Целый ряд аналитических методов известен своей склонностью к более или менее положительным или отрицательным систематическим ошибкам. Приме- ром этому может служить гравиметрическое определение кремниевой кислоты, при котором постоянно занижаются истинные значения. Однако это занижение можно выявить, только если, например, потери, возникшие из-за растворимости осадка, выше, чем колебания из-за случайной ошибки анализа. Вообще систе- матические ошибки можно обнаружить только в том случае, когда смещение измеряемых величин больше, чем случайная ошибка применяемого метода ана- лиза. Если анализируемая проба исследуется в различных лабораториях, то в од- них лабораториях возникают систематические ошибки разной величины со зна- ком плюс, а в других — со знаком минус. Эти систематические отклонения гораздо больше случайной ошибки метода. Так как они обладают различны- ми величинами и разными знаками, они проявляются в форме беспорядочного рассеивания результатов, т. е. в форме увеличенной случайной ошибки. Одно- временное проявление систематических ошибок различной величины и разных знаков ведет таким образом к росту случайной ошибки. Цель всех аналитических исследований состоит в том, чтобы подойти как можно ближе к истинному содержанию пробы на основании полученных резуль- татов анализа. Для достижения этой цели при выборе аналитического метода в каждом конкретном случае обычно готовы примириться с небольшой система- тической ошибкой, если, конечно, этот метод имеет малую случайную ошибку. Несмотря на небольшое систематическое смещение результатов, при этом можно ближе подобраться к истинному содержанию пробы, чем при использовании ме- тода, который хотя и работает “правильно”, но имеет очень большую случайную ошибку ([5], см. разд. 2.2.2). Все Ошибки, возникающие при анализе, и случайные, и систематические, можно отнести за счет особенностей применяемого метода анализа. Кроме того, на них еще будут влиять, скажем, условия работы в лаборатории или квали- фикация лаборантов; они подвержены также временным колебаниям. В любых исследованиях аналитик должен стремиться получить возможно меньшую слу- чайную ошибку, поддерживая постоянный контроль и все время стремясь ис- ключить систематическую ошибку. Это надо делать, устраняя причины ошибок, а не корректируя результаты задним числом. Рекомендуемые иногда эмпириче- ские корректирующие множители можно рассматривать как средние с более или менее широкими диапазонами колебаний, поэтому они мало говорят о каждом конкретном случае. Кроме того, из-за “исправления” всегда увеличивается слу- чайная ошибка, поскольку соединяются два результата, каждый из которых отягчен ошибкой. Если нужно сравнить результаты внутри одной большой серии измерений (иногда это называют относительным измерением), то достаточно знать по- являющуюся случайную ошибку. Содержит ли метод анализа систематическую ошибку в таком случае менее важно. Нужно только быть уверенным, что эта возможная систематическая ошибка не менялась в ходе исследования. Напро- тив, при абсолютных определениях (например, содержания вредных примесей в некотором продаваемом продукте) надо знать не только случайную ошибку, но и то, что к ней не примешалась систематическая ошибка. Правильность ре- зультатов анализа, как правило, считается доказанной только тогда, когда два
28 Глава 1. Виды ошибок в аналитической химии по возможности разных аналитических метода приводят к результатам, между которыми не удается обнаружить различия ([5], гл. 7). Во многих аналитических методах используются эмпирические коэффициен- ты. Только после калибровки они приводят к правильным результатам (напри- мер, определение марганца по методу Фольгарда-Вольфа). Для калибровки при- меняют стандартные образцы, близкие по составу к исследуемой пробе. Частота калибровки устанавливается в каждом конкретном случае. “Традиционные” аналитические методы (такие, как определение золы в углях или определение точки воспламенения масел) можно рассматривать как тщательно нормализо- ванные методы исследования. Они служат лишь для облегчения взаимопонима- ния, например, между торговыми партнерами, но часто не дают “правильных”, в том смысле, как это понимается здесь, аналитических результатов. Обсуждение ошибок играет решающую роль для планирования, оценки и интерпретации химико-аналитических исследований. Поэтому аналитику нуж- на подробная информация обо всех возможных в данной области исследований ошибках. Принимая во внимание их характерные свойства, он получит затем с помощью математико-статистических методов желаемую информацию о собран- ных числовых результатах. Методы математической статистики превратились в “подсобный инструмент” для решения ряда задач, таких, например, как срав- нение средних, оценивание межлабораторных опытов или обнаружение систе- матической ошибки. Задача аналитика — отобрать из множества различных математико-статистических методов наиболее подходящие для решения поста- вленной перед ним конкретной задачи. Литература 1. Kaiser Н., Specker Н., Bewertung und Vergleich von Analysenverfahren. — Z. anal. Chem., 149 (1956) 46/56. 2. IUPAC, Nomenklaturregeln fur die Analytik. Recomendations for the Presentation of the Results of Chemical Analysis. — Pure Appl. Chem., 18 (1969) 437/442. Mitteilungsblatt Chem.Ges.DDR, 1981, Beiheft 42. 3. Gysel H.y Unbewusste individuelle Schatzungsanomalien und ihre Auswirkung auf die Genauigkeit von Mikroanalysen. — Mikrochim. Acta, 3 (1953) 266; 1956, 577 4. Youden W.J., Testing Accuracy of Analytical Results. — Anal.Chem., 19 (1946) 946/948. 5. Doerffel K., Eckschlager K, Henrton G., Chemometrische Strategien in der Analytik. Leipzing: Deutscher Verlag fur Grundstoffindustrie, 1990. Дополнительная литература Блюм А. Задачи метрологии. — Завод, лаб. (1976) т. 42, с. 1289-1299. Gittschalk G. Einfuhrung in die Grundlagen der chemischen Materialpriifung. Stuttgart: Verlag S. Hirzel, 1966. Hams W. E. Sampling, manipulative, observational and evaluative errors. — Int. Lab., 1978, 53/62. Kliment V., Sandrick R. The precision and accuracy in X-ray fluorescence analysis of powdered samples. — Radiochem. Radioanal.Lett., 46 (1981) 49/56. Макулое А. Расчет систематической ошибки в многокомпонентных веществах. — Завод, лаб., (1976) т. 42, с. 1457-1464
Дополнительная литература 29 Nosel Н. Uber die Zuverlassigkeit von Oz-Sattigungstabellen. — Wasser, Luft, Betrieb, 22 (1978) 176/180. Rogers L. B. Validation of analytical measurements at trace levels of concentration. — Asta pharm. suec., 18 (1982) 75. DIN 55 350, Teil 12 und 13: Begriffe der Qualitatssicherung und Statistik.
2 Эмпирические распределения частот Многие исследования начинаются со сбора обширного числового материала. В аналитической химии такое множество значений накапливается, например, ко- гда проба подвергается межлабораторному анализу в нескольких лабораториях или когда показатели качества какого-либо продукта собираются в течение про- должительного времени. Этот числовой материал нужно как-то систематизиро- вать для дальнейших исследований, а для этого оказываются особенно полез- ными и наглядными графические методы. Следующий шаг состоит в том, чтобы “свернуть” числовой материал, заменив его меньшим числом конкретных пока- зателей. Такие показатели (параметры) упрощают сравнение этого числового материала с другими, уже имеющимися результатами. 2.1. Обсуждение эмпирических распределений Осмысление обширного числового материала облегчается благодаря его систе- матизации Весьма полезным обычно оказывается представление результатов измерений в зависимости от частоты их появления. Для этого можно, например, нанести результаты в виде точек на равномерную (с линейной шкалой, одномер- ную) числовую ось, а затем судить об их плотности. Благодаря возможности представить распределение в такой форме оно называется одномерным распре- делением. Более наглядное изображение дает столбчатая диаграмма, когда на график наносят частоты h в зависимости от результатов х (разбитых на классы). Са- мый высокий столбец указывает на наиболее часто встречающиеся результаты и соответствует на числовой оси месту с наибольшей плотностью точек. Для построения столбчатой диаграммы отдельные результаты объединяют в к клас- сов с шириной класса d. Число классов к должно приблизительно равняться корню квадратному из числа результатов, но не меньше 5 и не больше 20. Стоит взять слишком мало классов — и легко потерять какую-нибудь характерную особенность распределения, а когда их слишком много — небольшие случайные колебания могут затушевать общую картину. При выборе границ классов важно помнить, что верхняя граница некоторого класса должна быть ниже, чем ниж- няя граница следующего за ним класса (см. пример [2.1]). Если результаты анализа, полученные от одной пробы, представить, как описано выше, то при безупречных условиях опыта получают обычно симметричные распределения с одним максимумом. Асимметричные распределения частот со смещением мак- симума влево или вправо свидетельствуют о недостатках в условиях проведения опытов или о неправильной градуировке оси абсцисс [1]. [2.1] В межлабораторном эксперименте по определению содержания алюминия в стали участвовали 12 лабораторий. Каждая из них выдала по 5 полученных в разные дни результатов анализа, которые сведены в следующую таблицу'(в % алюминия):
2.1. Обсуждение эмпирических распределений 31 Лаборатория А 0,016 0,015 0,017 0,016 0,019 В 0,017 0,016 0,016 0,016 0,018 С 0,015 0,014 0,014 0,014 0,015 D 0,011 0,007 0,008 0,010 0,009 Е 0,011 0,011 0,013 0,012 0,012 F 0,012 0,014 0,013 0,013 0,015 G 0,011 0,009 0,012 0,010 0,012 Н 0,011 0,011 0,012 0,014 0,013 I 0,012 0,014 0,015 0,013 0,014 К 0,015 0,018 0,016 0,017 0,016 L 0,015 0,014 0,013 0,014 0,014 М 0,012 0,014 0,012 0,013 0,012 Всего было получено п = 60 значений. Самое низкое значение из лаборатории D : хр2 = 0, 007% алюминия, самое высокое — из лаборатории А, равное хд5 = 0, 019%. При делении на к = 7 классов с шириной класса d = 0, 002% алюминия удовлетворя- ем приближенным требованиям: к и у/n. Первый класс охватывает значения 0,007 и 0,008% алюминия, второй класс — значения 0,009 и 0,010% алюминия и т. д. При таком делении на классы получается распределение частот, показанное на рис. 2.1. Несмо- тря на различное происхождение данных, часто получается распределение с четко выраженным максимумом. Поразительно, что повторяющиеся значения в отдельных лабораториях лежат достаточно близко друг к другу, тогда как при сравнении разных лабораторий иногда можно наблюдать значительные различия. На практике часто бывает удобно поворачивать эмпирическое распределение на 90°. Тогда ось х идет сверху вниз, а ось частот h — слева направо. Уже из формы распределения частот можно сделать общие выводы о характе- ре возникшей случайной ошибки [1]. Если случайная ошибка велика, появляют- ся широкие распределения, если же случайная ошибка мала, то при таком же делении на классы кривая распределения становится узкой и остроконечной. Однако никакой информации о возможной систематической ошибке получить нельзя, так как она не влияет на форму распределения. Иногда непостоянную систематическую ошибку можно определить по весьма характерным признакам. Если, например, во время межлабораторного иссле- дования с участием многих лабораторий в некоторой из них возникает одна и та же по величине и знаку систематическая ошибка, то появляются распре- деления частот с двумя (или более) максимумами. Причем второй максимум может выглядеть как “плечо” основного максимума и придавать форму якобы асимметричного распределения, если систематическое смещение не очень вели- ко (рис. 2.2). Разделение таких наложенных распределений во многих случаях облегчается благодаря вероятностной бумаге [2] (см. рис. 3.8). В большинстве случаев параметры многовершинных распределений не годят- ся для дальнейшей оценки. Нужно пытаться найти причину возникших систе- матических ошибок и устранить их. После этого можно повторить опыт в иде- альных условиях. При межлабораторных опытах, проводимых в несравнимых лабораториях, могут наблюдаться асимметричные распределения со смещением максимума ча- стоты влево Или вправо, если результаты отдельных лабораторий имеют систе- матические ошибки с одинаковыми знаками, но разной величины.
32 Глава 2. Эмпирические распределения частот М М М L М L М L L I L К Н I К Н I К Н I I G Н F G Н С G F С F F В Е F В К G Е Е В К G Е С А В D D Е С А В D D D С А А А_______ Верхняя граница 8 10 12 14 16 18 20 10 ’% А1 класса Рис. 2.1. Распределение частот при совместном определении содержания алюминия в стали двенадцатью лабораториями. М I М I М I I М I G м L F G G L F G К К L В F G Н К L в В F К D L С F В Н D Н D А С Е Е Н Н D С А С В Е Е Е Н D С А А А 40 41 42 43 44 45 46 47 48 49-10-3% А1 Рис. 2.2. Асимметричное распределение частот при совместном определении содержа- ния алюминия двумя разными методами. [2.2] Известно, что при определении кремния есть опасность получения занижен- ного результата. На рис. 2.3 показаны два распределения результатов межлаборатор- ного опыта по определению кремния. Исследовались две пробы стали с различным содержанием кремния. Получились два разных распределения с четко выраженным смещением влево. Асимметрия распределения особенно хорошо заметна на пробе 1 с бо- лее низким содержанием кремния. Отсюда можно предположить, что систематические отклонения проявляются в форме постоянной ошибки (см. гл. 1, с. 26). [2.3] В методических исследованиях были проведены 60 спектрохимических опре- делений усредненной пробы оловянной руды. Распределение результатов проявляет
2.1. Обсуждение эмпирических распределений 33 Н Н G G Н F G G G Н F G G G F Н Е F G F F F F D Е G Е F С D F D Е Е Е EBDD DCEB Е EBDC CCDBE А CADBC ССАВВ А С А А В В ААААВ 0,52 0,54 0,56% Si 5,44 5,50 5,56% Si Рис. 2.3. Асимметричное распределение частот результатов анализа при совместном (межлабораторном) определении кремния. 0,72 0.П 0.1S 0,18 0.20 c,%Sn—— Рис. 2.4. Распределение частот в линейном и логарифмическом масштабах при спек- трохимических определениях олова. левостороннюю асимметрию (рис. 2.4). Однако асимметрия исчезает, если прологариф- мировать полученные результаты и построить распредедение для этих логарифмов [5]. Асимметричные распределения могут возникнуть также в тех случаях, когда линейная шкала по оси концентраций (абсцисса) не подходит по методическим соображениям; тогда такие мнимо асимметричные распределения зачастую уда- ется перевести в симметричные с помощью логарифмирования оси абсцисс [3, 4]. Подобные логарифмические распределения встречаются чаще, чем можно по- думать. Однако их обычно не замечают, так как при малой случайной ошибке метода их отличие от линейных шкал совсем незначительно. С возможным по- явлением логарифмических распределений надо считаться:
34 Глава 2. Эмпирические распределения частот — при анализе очень малых концентраций (анализ следов); — при исследованиях очень широкой области концентраций (несколько десят- ков процентов); — при очень большой случайной ошибке (например, в полуколичественном спек- тральном анализе); — при измерении времени. Для логарифмических распределений все последующие аналитические оцен- ки приходится вести в логарифмах результатов измерений. Рассмотрение эмпирических распределений, как описано выше, может дать только первые ориентировочные представления. Даже при наличии достаточно- го числа измерений (п > 40) можно диагностировать с достаточной надежностью только ярко выраженные простые явления (см. пример [7.16]). 2.2. Статистические показатели Чтобы в дальнейшем эмпирические распределения имели ценность, надо пред- ставить числовой материал, полученный в результате опыта, числовыми пока- зателями. Для этих целей служат средние значения и показатели рассеяния (разброса). Только зная обе эти величины, можно восстанавливать распреде- ления частот. Поэтому указание, как это часто бывает, одного только среднего недостаточно. Его нужно обязательно дополнять указанием соответствующей случайной ошибки. 2.2.1. Средние (значения) При оценке результатов анализа применяются почти исключительно среднее арифметическое и среднее геометрическое, а также медиана. То или иное из них выбирают в соответствии со свойствами имеющихся измерений и в зависи- мости от поставленной задачи. Важно лишь, чтобы для сравниваемых между собой результатов всегда применялись одинаковые средние. Среднее арифметическое и среднее геометрическое. Пусть для одной выбор- ки получены п различных значений zi, Х2 • • -хп (обозначаемых через г,). Для них среднее арифметическое х вычисляется по формуле: тх + тг + .-. + яп /о т а х =-----------------= - У Xi (2.1) п п 1=1 Пока измерений достаточно много, среднее арифметическое х представляет собой, как правило, достаточно хорошее приближение для среднего значения р из генеральной совокупности. Некоторые аналитические методы дают логарифмы искомых содержаний (например, спектральный анализ; см., например, [2.3]). Пересчет на искомые содержания происходит в большинстве случаев особенно просто при выборе ло- гарифмического масштаба на оси концентраций во время градуирования. Для определения среднего в подобных случаях нужно пользоваться логарифмами (а не числами). Для х — lgX получаем _ lgX1+lgX2 + lgX3 + ... + lgXn_ т *1» — ------------------------------— = 1£Л (2.2)
2.2. Статистические показатели „ 35 х = • Х2 ..... Х„ (2.3) Также можно представить результаты вместо арифметического геометриче- ским средним хЦ. Его числовое значение всегда меньше среднего арифмети- ческого. Однако для практических целей это несущественно, пока случайная ошибка метода анализа достаточно мала (см. рис. 2.5). [2.4] При количественном спектрометрическом определении содержания олова в бедных оловянных рудах [5] из одной пробы были получены следующие результаты ($п, %): I X, = 0,192; 0, 243; 0,15т; 0, 255;О, 319. Значения пересчитывают по формуле х = IglOX и получают х, = 0, 283; 0,386; 0,196; 0,407; 0, 504. Подстановка этих логарифмов в уравнение (2.2) приведет к соотношению xig = 0, 355 = IgA. Потенцированием находят среднее геометрическое X = 0, 226%Sn. Арифметиче- ское среднее оказывается равным 0, 23з%3п. Среднее арифметическое (и геометрическое) не стоит вычислять для распре- деления с несколькими максимумами. При получении среднего можно комби- нировать только значения сравнимых измерений. Как правило, для вычисления среднего надо иметь не менее трех результатов измерений. Причем ни в коем случае нельзя отбрасывать самое низкое или самое высокое выпадающее изме- рение, иначе среднее может оказаться грубой ошибкой (см. разд. 7.7). Это строгое правило можно несколько смягчить для анализов, проводимых внутри одной лаборатории, если отброшенное значение замещается по меньшей мере тре- мя последующими измерениями. Вычисление среднего не имеет смысла, если ось абсцисс на графике распределения не линейная или если результаты измерений имеют возрастающую или понижающуюся тенденцию во времени (“тренд”) (см. разд. 12.2). При более или менее сильно разбросанных результатах среднее арифметическое плохо представляет ряд измерений [8]. Срединное значение. Для определения срединного значения х, называемого также медианой, результаты измерений упорядочиваются по возрастанию. Для выборки из п измерений это дает хг < хг < ... < хп- Затем вычисляют срединное значение (медиану). Если п — нечетное число, то х равен срединному члену ряда. При четном числе наблюдений медиана равна среднему арифметическому обоих срединных членов упорядоченного по возрастанию ряда наблюдений. Например, для п = 3 х = Х2 (2 4) для п — 4 х = (хг + хз)/2 Срединное значение (медиана) — в противоположность среднему арифметиче- скому — нечувствительно к крайним (резко выделяющимся) результатам из- мерений. Поэтому оно хорошо подходит для характеристики небольших серий измерений (п < 10), когда проявление таких резко выделяющихся значений ти- пично. В аналитической химии это явление обусловлено особенностями методов, например, в количественном эмиссионном спектральном анализе порошков или в количественной инфракрасной спектрофотометрии, проводимой с использовани- ем KBr-таблеток. Несмотря на присутствие резко выделяющихся крайних зна- чений, медиану х даже в этих случаях считают надежной оценкой генерального
36 Глава 2. Эмпирические распределения частот среднего р, т. е. среднего арифметического генеральной совокупности. Прав- да, медиану надо считать по всем пробам, исследованным данным методом, и не сравнивать ее со средним. А в длинных сериях измерений (п > 10) медиа- на х служит довольно плохой оценкой генерального среднего р, поскольку она учитывает лишь одно или два измерения из всей серии. Для логарифмического распределения вычисляют медиану логарифмов. [2.5] В продуктах распада полиакрилонитрила (ПАН) определяли остаточное содер- жание ПАН методом инфракрасной спектрофотометрии. Пробы готовили прессовани- ем с бромидом калия, для каждой пробы были выполнены по четыре параллельных определения. Для одной пробы получены следующие (упорядоченные по возрастанию) значения светопоглощения (экстинкции): Е = 0,625; 0,665; 0, 673; 0, 680. Из уравнения (2.4) для медианы получаем: Ё = (0,665 + 0,673)/2 = 0,669 А для среднего арифметического в этом случае получается: Е = У) Е,/п = 0, 661, что, видимо, несколько занижено. При использовании медианы не влияет на результат резко выделяющееся значение Е\ = 0, 625. Между средним значением и медианой для большого числа определений обычно наблюдается лишь малая разница, если только результаты измерений, по которым они вычислены, подчиняются симметричному распределению. Боль- шая разность — х | указывает на кажущуюся или действительную асимметрию распределения или на наличие резко выделяющихся крайних значений — “вы- бросов” 2.2.2. Мера рассеяния (разброса) Отдельные результаты измерений или наблюдений из распределения более или менее тесно группируются вокруг среднего значения. Характеристика их раз- броса относительно среднего служит вторым показателем структуры цифровых данных В качестве меры рассеяния в аналитической химии почти всегда ис- пользуют стандартное отклонение или размах, а иногда и интерквартильный размах. Та или иная из этих мер разброса выбирается в зависимости от цели. Стандартное отклонение. Выборочное стандартное отклонение определя- ют по формуле: , = (2.5) V п — 1 ' где х, — отдельное значение, х — среднее всех xt, п — общее число измерений. Оно служит наиболее распространенной в аналитической химии мерой разброса и характеризует случайную ошибку метода анализа (но не отдельного результа- та, см. гл. 6). Стандартное отклонение s — это самое лучшее приближение для соответствующей величины <т в генеральной совокупности. Его принято приво- дить по модулю (т. е. без указания знака). А его квадрат s2 называют выборочной дисперсией1'1. Автор не всегда последовательно различает выборочные оценки и параметры генераль- ной совокупности. Мы будем проводить такое разграничение здесь и далее без специальных оговорок. — Прим. ред.
2.2. Статистические показатели 37 Сумма квадратов в числителе выражения (2.5) подсчитывается обычно не по этой формуле из определения. После преобразования получаем У^(ж, — х)2 = У^(ж,2 ~ 2х,х + ж2) = х2 — 2х х + пх2 Из (2.1) следует, что х — xi/n, отсюда подстановкой получаем выражения - *)2 = £ х2 - (2.6а) = ^х2-пх2 (2.66) Выражение (2.6а) дает лишь малую ошибку округления. Поэтому оно осо- бенно подходит для вычислений. При работе с малыми вычислительными маши- нами определенные преимущества имеет выражение (2.66). Для подсчета сумм квадратов имеет смысл всегда применять одни и те же формулы. В дальнейшем мы будем работать постоянно с выражением (2.6а). При вычислениях резуль- таты измерений обычно преобразуют таким образом, чтобы отбросить лишние цифры и избавиться от запятых. Благодаря этому расчет облегчается, умень- шается возможность ошибки ввода данных в ЭВМ и сокращается время ввода. Затем, конечно, надо вернуться к исходным значениям. При счете по формулам (2.6) важно помнить о разрядности, которую может обеспечить компьютер. Величина п — 1, стоящая в знаменателе равенства (2.5), называется числом степеней свободы (ст. св.). Эту величину можно интерпретировать как число но- вых проверочных измерений, которые должны были бы подтвердить именно тот результат, что уже получен из данных. Число степеней свободы в дальнейшем обозначается буквой /. [2.6] Для десяти определений марганца в усредненной пробе надо найти стандартное отклонение. Получены следующие значения (в %, Мп): 0,69 0,70 0,67 0,66 0,67 0,68 0,67 0,69 0,68 0,68 Преобразуем результаты по формуле X = 100т — 68, что позволяет избавиться от запятой. Вычитанием значения 68, которое близко к среднему арифметическому, дела- ют результаты малыми числами; кроме того, последнее слагаемое в (2.6а) становится весьма малым. Получаются следующие преобразованные значения: + 1 4-2 -1 —2 -1 =-1 0-14-1 0 0 п=10 Из уравнения (2.6а) находим сумму квадратов: ^(Xi-X)2 = 12 4- 22 4- 12 + ...- Ц£ = 13 S = д/13/9 = 1,2 Затем делаем обратное преобразование, причем не учитываем вычитаемое, поскольку оно не влияет, и получаем стандартное отклонение з = 0, 01% Мп при f = 9 степенях свободы.
38 Глава 2. Эмпирические распределения частот Рис. 2.5. Различие между средним арифметическим (г) и средним геометрическим в зависимости от относительного стандартного отклонения. При наличии логарифмического распределения (см. пример [2.3]) подсчиты- вается стандартное отклонение sig для логарифмов. Получаем lg n-1 (n-l)2^Vgx,J 1 ' где xig — среднее геометрическое. Отношение г,/хц отклоняется от значения 1 вверх и вниз тем больше, чем больше относительная случайная ошибка. Отсюда +«ig = !g (1 + -f) > ~«ig = lg ГТ7-77 (2-8) \ X / 1 + Sx/X Относительные стандартные отклонения вверх и вниз принимают различные значения. Асимметрия, обусловленная обратным отношением [выражения (2.8)], увеличивается с ростом случайной ошибки. С помощью логарифмического рас- пределения можно описать случайные ошибки любой величины. Выражение (1 + зх/х) практики иногда называют “коэффициентом ошибки”. [2.7] По результатам одного полуколичествеиного метода анализа нашли 3ig = ±0,301. В соответствии с уравнением (2.8) получается -Hig — 1g 2 и —3ig = IgO, 5. Относительное стандартное отклонение, следовательно, равно ±100... — 50%. Это со- ответствует коэффициенту ошибки, равному 2. Величина случайной ошибки определяет различие между геометрическим и арифметическим средними (см. с. 35). При малой случайной ошибке (sx/x < 0,10) этим различием можно пренебречь. Однако применение среднего арифме- тического вместо геометрического при большой случайной ошибке может приве- сти к значительным отклонениям (рис. 2.5). Выборочный размах. Разность между наибольшим и наименьшим значе- ниями в упорядоченном ряду измерений называется размахом R. Он равен = гтах ~ ®тт (2-9) Выборочный размах особенно хорош для характеристики рассеяния в выбор- ках малого объема (п < 10). Когда же наблюдений много (п > 10), он стано- вится плохой оценкой рассеяния в генеральной совокупности, поскольку в от- личие от стандартного отклонения он учитывает только два значения из всего ряда измерений. Величина размаха зависит от объема выборки: при постоянной
2,2. Статистические показатели 39 случайной ошибке R растет с ростом числа измерений. При определенных пред- положениях можно перейти от размаха выборки к стандартному отклонению [соотношение (5.4)]. Интерквартильный размах. Размах для больших массивов данных (п > 10) можно характеризовать с помощью интерквартильного размаха. Для этого п результатов измерений упорядочиваются по возрастанию (zi < хг < ... < хп). Затем вычисляют интервал, охватывающий 50% измерений. Интерквартильный размах получается как разность между точкой, отсекающей четверть данных (выше которой лежит еще четверть результатов), и точкой, отсекающей четверть данных (ниже которой лежит еще четверть результатов). При любом симме- тричном распределении квартиль дает возможность с одного взгляда получить представление о диапазоне рассеяния набора данных. Резко выделяющиеся зна- чения влияют на квартиль только в малых выборках. Для характеристики диа- пазона рассеяния применяются и другие аналогичные величины р% измерений, которые называют процентилями. (2.Ю) 2.2.3. Асимметрия и эксцесс В разд. 2.1 указаны некоторые причины, по которым могут появиться выгля- дящие асимметрично распределения. Все такие распределения можно сделать симметричными с помощью подходящих преобразований (например, логарифми- рования). Значит, это не “истинная” асимметрия. Истинная асимметрия имеет место, если при достаточно большом числе измерений и после ликвидации всех технических или, быть может, математических причин асимметрия все-таки со- храняется. Такое распределение, кроме среднего значения и меры разброса, характеризуют еще и асимметрией р. Она определяется формулой En/gj - д)3 Г Q nsJ где П] — число значений в j-м классе, п — число всех значений. Асимметрия — безразмерная величина, причем для симметричного распре- деления р = 0. Левосторонняя асимметрия проявляется при р > 0, правосторон- няя — при р < 0. [2.8] В качестве примера эмпирического распределения частот с истинной асимме- трией часто приводят данные по определений кремния. Для первого распределения, представленного на рис. 2.3, имеем pi = +0,^8, для второго —рг = +0,09. Системати- ческие ошибки оказывают особенно сильное влияние при малом содержании в пробе. Об асимметрии распределения можно судить с помощью интерквартильных размахов. Для этого находят отрезки от самого низкого значения до нижне- го квартиля Rqu (от первого измерения до нижней границы интерквартильного размаха) и от самого высокого значения Rqo (от верхней границы интер квар- тильного размаха до последнего измерения) и находят разность Rq0 — Rqu- Для любого симметричного распределения эта разность равна нулю, при левосторон- ней асимметрии она положительна, при правосторонней — отрицательна. Недостатки в условиях проведения опыта могут привести к тому, что кри- вая распределения будет иметь слишком заостренный или, наоборот, слишком пологий максимум. Островершинное распределение получают, например если
40 Глава 2. Эмпирические распределения частот Н Н н G G G F F F Е Е Е Е D С С В С F С Е С D G В В Н D В А G В A A D Н D В А А В 0,66 0,68 0,70% As Рис. 2.6. Распределения с эксцессом. J J J J G Н J G Н Н G G Н Н D G F Е D F F Е D F G Е D D G Е С В В В С А С А В С А А А В В 0,006 0,012 0,018% А1 выборка была неслучайной или если результаты измерений отбирались предна- меренно. Плосковершинное (пологое) распределение возникает, если при прове- дении межлабораторного опыта в разных лабораториях были совершенно раз- личные условия работы. Подобные искажения распределений характеризуют еще одним показателем — эксцессом г, который определяют по формуле г = _ з (2.11) ns4 Островершинное распределение дает значение е > 0, для пологого — е < 0. [2.9] Два примера распределений с эксцессом приведены на рис. 2.6. Островершин- ное распределение результатов анализов мышьяка дает возможность предположить, что здесь была нарушена случайность. Определение малых количеств алюминия в ста- ли особенно сильно подвержено влиянию небольших систематических ошибок, связан- ных со спецификой работы различных лабораторий. Поэтому при межлабораторных анализах часто получают пологие распределения. Расчет эксцесса дает для первого примера £i = 4-1, 30, а для второго Е2 = —0, 88. 2.3. Двумерные распределения Во всех приведенных выше рассуждениях рассматривали зависимость значений единственной случайной величины от частоты их появления. Однако иногда
2.3. Двумерные распределения 41 возникают такие ситуации, где результат измерения или продукт характеризу- ется двумя взаимосвязанными случайными величинами. Причем эти случайные величины х и у могут быть заданы в разных единицах измерения. [2.10] Примером первого случая может служить измерение почернения линий, да- ваемых основным металлом и металлом-примесью при количественном эмиссионно- спектральном анализе. Примером второго случая — данные о прочности на разрыв и о содержании (%) основных легирующих элементов для характеристики сорта стали. Значения г, как и значения у, подвержены случайным колебаниям. В рамках этих случайных ошибок для исследуемой пробы возможны любые комбинации значений х и у. Если надо представить результаты одного опыта при помо- щи ступенчатой диаграммы, то придется прибегнуть к трудному для построения трехмерному изображению. Оси переменных х и у лежат в этом случае в основа- нии фигуры. А частоты откладываются на вертикальной оси. Из-за сложности такого представления отдельные точки наносят на (двумерную) плоскость х — у и судят о распределении по плотности точек. Максимум поверхности в простран- стве находится там, где в двумерном изображении обнаруживается наибольшая плотность точек. Вообще, все значения лежат внутри некоторого эллипса или круга. Такие распределения, в которых рассматриваются частоты двух взаимо- связанных случайных величин, называют двумерными распределениями. Дву- мерные распределения также характеризуются средним и рассеянием. Эти по- казатели вычисляются отдельно для каждой из случайных величин х и j/.Точка М(х, у) лежит в месте теоретически ожидаемого максимума частоты. Общий разброс s получается как сумма квадратов (по теореме Пифагора) двух единич- ных разбросов (значит, суммируются дисперсии). Подробности можно найти у Смирнова и Дунина-Барковского [9]. [2.11] Для контроля качества в пробах стали GS50 определялось содержание угле- рода х(%С) и прочность на разрыв у(Н/мм2). В течение одного квартала (трех месяцев) были получены следующие результаты: X У X У X У X У 0,30 589 0,35 535 0,37 602 0,29 572 0,33 614 0,32 593 9,33 544 0,30 555 0,37 612 0,39 582 0,34 545 0,33 555 0,36 572 0,30 538 0,33 562 0,32 518 0,31 548 0,32 566 0,30 576 0,32 539 0,29 537 0,32 562 0,34 596 0,38 557 0,34 574 0,38 601 0,36 605 0,37 558 0,39 570 0,37 587 0,33 575 0,34 587 0,37 540 0,38 587 0,34 570 0,35 580 0,38 575 0,33 614 0,36 550 0,36 560 По этим 40 парам строится двумерное распределение, изображенное на рис. 2.7. Средние значения и стандартные отклонения подсчитываются отдельно для каждой из величин. Получаем х=0,34%С, з/ = 570 Н/мм2
42 Глава. 2. Эмпирические распределения частот Рис. 2.7. Двумерное распределение показателей качества стали марки GS50. Значит, средняя точка распределения имеет координаты М(х = 0, 34, у = 570). Для стандартного отклонения находят ~ г)2 п — 1 = 0,03% , _ 4 ~ ?/)2 п/ 2 у — \/ — 24 Н / мм V п — 1 Из вида двумерного распределения мбжно делать ретроспективные выводы о силе связи обеих случайных величин х и у. Если эти обе величины взаимно независимы, т. е. случайные колебания одной из них не вызывают одновремен- но таких же или подобных колебаний другой, то в плоскости основания дву- мерного распределения точки заполняют площадь, ограниченную окружностью. Чем сильнее взаимосвязаны (коррелированы) обе эти случайные величины, тем больше окружность вытягивается в эллипс. Его большая главная ось — пря- мая с угловым коэффициентом +1, если обе величины одинаково направлены, т. е. случайные колебания имеют эллипс с главной осью, совпадающей с прямой У = —х. [2.12] В количественном эмиссионно-спектральном анализе почернение S2, измеря- емое для анализируемой линии, соотносят с почернением линии основного металла Sg. При этом уменьшаются случайные колебания, вызываемые, например, такими фак- торами, как неправильное положение источника излучения. Случайные колебания исключаются тем лучше, чем сильнее коррелируют почернения двух спектральных [линий (Холдт [6]). На рис. 2.8 нанесены почернения S2 и Sg, полученные в методи- ческих исследованиях. Связь между этими величинами ясно выражена вытянутой эллиптической формой распределения. Для двумерных распределений тоже может потребоваться изменение мае-
2.3. Двумерные распределения 43 Рис. 2.8. Двумерное распределение частот для почернений линий основного металла и анализируемой примеси в количественном эмиссионном спектральном анализе. штабов на осях признаков. Особенно часто помогает логарифмическое преобра- зование. [2.13] Для характеристики месторождений полевого шпата особенно важно опреде- ление следов церия и лантана (Леедер [7]). Двумерное логарифмическое распределе- ние частот этих двух элементов для одного обследованного месторождения показано на рис. 2.9. В дальнейших исследованиях других месторождений было установлено, что абсолютное содержание церия и лантана меняется от месторождения к месторо- ждению. Однако во всех месторождениях наблюдаются одинаковое рассеяние и оди- наковая корреляция содержания этих элементов. Отсюда можно сделать вывод о том, что эти месторождения формировались в сходных условиях. Графическое двумерное представление распределения частот позволяет лег- ко оценить систематические ошибки при проведении межлабораторных иссле- дований [10]. В этом случае берутся две пробы (X и У) из одного усреднения, которые мало отличаются по содержанию исследуемых элементов. Каждая из лабораторий-участниц анализирует обе пробы в короткое время. (Также мож- но проводить и многократные определения, см. с. 31.) Эти т пар значений х1, У1'> х2, У2',---Хт, Ут изображают Точками в системе координат с одинако- выми масштабами по абсциссе и ординате. Через среднюю точку М с коорди- натами х = Y^xi/m КУ— Ylyi/m проводят новые оси, параллельно исходным осям. Если проявляются только случайные ошибки, то положительные и отри- цательные отклонения от средней точки М имеют равные вероятности. Тогда в каждый из четырех квадрантов попадает примерно одинаковое число точек. Однако если в данных одной или нескольких лабораторий выявляется положи- тельная или отрицательная систематическая ошибка, то она одинаково влияет и на хг, и на у,. А это приводит к избытку точек в первом и третьем квадрантах. В качестве грубой оценки соотношения случайных и систематических ошибок
44 Глава 2. Эмпирические распределения частот Рис. 2.9. Двумерное логарифмическое распределение, полученное при определении содержания церия и лантана в полевом шпате. Юден [И] предложил коэффициент а: Число пар значений в 1-м и 3-м квадрантах а —---------yrz---------------------------- Общее число пар значений Причем, когда а = 0,5 : наблюдаются только случайные ошибки; а > 0,67 : возникают явные систематические ошибки; а > 0,8 : систематические отклонения вдвое больше, чем случайные ошибки. [2.14] В межлабораторном исследовании с участием 14 лабораторий калийной про- мышленности были исследованы две пробы. На рис. 2.10 приведены результаты опре- деления калия, на рис. 2.11 — результаты определения влажности пробы. При опре- делении калия благодаря “обкатанности” метода анализа точки распределяются уди- вительно равномерно по четырем квадрантам (а = 0,5). Напротив, при определении влажности столь правильное распределение точек не наблюдается. Множество то- чек рассеивается вдоль прямой, проходящей примерно под углом 45° к оси абсцисс (а = 0,86!). Это указывает на наличие систематической ошибки, которая в различных лабораториях имеет одинаковый знак, но разную величину. Опыт показывает, что в большинстве лабораторий наблюдается отрицательная ошибка. Для большинства межлабораторных исследований получают распределения, точки которых лежат внутри эллипса (а яз 0,5). Большая из его главных осей совпадает с биссектрисой углов первого и третьего квадрантов. Чем сильнее выражены систематические ошибки относительно случайных, тем длиннее и уже эллипс. Плотное распределение результатов вокруг биссектрисы угла (а > 0,85) служит явным доказательством того, что метод анализа неудовлетворителен. С Другой стороны, если большая часть точек рассеивается внутри относительно широкого эллипса и лишь немногие из них в первом и третьем квадрантах резко выпадают из эллипса, возникает подозрение, что эти лаборатории применяли собственные, отличающиеся от общепринятых методы анализа.
Литература. 45 Рис. 2.11. Двумерное распределения частот при определении воды в двух пробах. Литература 1. Doerffel К. Auswerten und Planen von Gemeinschaftsversuchen. — Z.anal. Chemie, 184 (1961) 81. 2. Daeves K., Beckel L. Grosszahlmethodik und Haufigkeitsanalyse. Weinheim: Verlag Chemie, 1958. 3. Ahrens L. H. Die logarithmische Normalverteilung der Elemente. — Geochim.cosmochim. Acta, London, 5 (1954) 49. 4. Gaddum J. H. Logarithmische Normalverteilungen. — Nature, Paris, 156 (1945) 463. 5. Doerffel K., Deyer R. Methodische Untersuchung zur spektrochemischen Analyse pulverformiger Stoffe am Beispiel armer Zinnerze. — Wiss.Z.Techn.Hochsch.Chem. Leuna-Merseburg, 6 (1964) 251. 6. Holdt G. The Use of Scatter Diagrams in Emission Spectroscopy. — Appl. Spectrosc., 14 (1960) 64. 7. Leeder O. Geochemie der Seltenen Erden in natiirlichen Fluoriten und Calciten. Diss. Freiberg, 1965. 8. Stevens S. S. Uber das Mitteln von Werten. — Science, 121 (1956) 113.
46 Глава 2. Эмпирические распределения частот 9. Smirnow A., Duntn-Barkowskt I. Mathematische Statistik in der Technik. Berlin: Verlag Technik, 1961. Пер. срусск.: Смирнов H. В., Дунин-Барковский И. В. Краткий курс математической статистики для технических приложений. — М.: Физматгиз, 1959. 10. Youden W. J.Die Probe, das Verfahren, das Laboratorium. — Anal. Chem., 32 (1960) 12, 23A. 11. Youden W. J. — Ind.Eng. Chem., 51, Nr.2 (1959) 81 A/82 A. Дополнительная литература Бабко А, К. О правильности и воспроизводимости химического анализа. — Завод, лаб., 21 (1958) 269. Блум И. А. Случай и закономерность в химическом анализе. — Завод, лаб., 44 (1978) 1041/1047. Dean R. В., Dixon W. J. Vereinfachte Statistik fur eine kleine Zahl von Beobachtungen. — Anal. Chem., 23 (1951) 636/639. Dondi F., Betti A., Bio G., Bight C. Statistical Analysis of GC-Peaks. — Anal.Chem., 53 (1981) 496/504. Sansom B, Lyer R. K., Kurth R. Concentration of Analytical Data as Part of Data processing in Trace Element Analysis. — Z. anal. Chem, 306 (1981) 212/232. Thomson M., Howarth R. J. The frequency distribution of analytical error. — Analyst, 105 (1980) 1188/1195. Egger E., Dummler W., Neymeyer H.-G., Schwarze H., Scholz R. Referenzbereiche (Standardentwurf). — Zbl.Pharm., 126 (1987) 740. DIN 55 350, Teil 12: Begriffe der Qualitatssicherung und Statistik — Merkmalsbezogene Begriffe.
3 Теоретические распределения Рассмотренные в гл. 2 распределения частот получились в результате упорядо- чения результатов и их графического представления. Оказывается, что, когда случайные ошибки действительно малы, всегда получается похожая картина. Это позволяет предположить, что в основе таких распределений лежат опреде- ленные математические закономерности. Некоторые из этих закономерностей для генеральной совокупности и выборки изложены ниже. 3.1. Гауссово (или нормальное) распределение Допустим, что сделано очень много наблюдений (п —► оо). На их результаты влияют несколько случайных причин. Влияние случайных причин аддитивно, а сами они очень малы по сравнению с измеряемой величиной. При весьма узких классах (с/ —+ 0) одномерное распределение частот можно описать следующей функцией: ,, . 1 1 (х - /Л У = h\x) = ех₽ “о ------------------- <ту2тг 2 \ а / (3-1) Такое распределение частот называется нормальным или гауссовым распреде- лением. Уравнение (3.1) описывает плотность вероятности этого распределения, р и а — некоторые действительные числа, параметры распределения. Причем р — '^^хг/п, а2 = ^^(ж, —/г)2/п (3.2а,3.26) Если р и <т заданы, то у оказывается функцией только х. Положение и форма кривой полностью определяются значениями обоих параметров р и <т. Максимум кривой лежит в точке х = р, точки перегиба соответствуют a?i = р—сг и а?2 — р+<т (рис. 3.1). Кривая достигает значения у = 0 при х = ±оо. Однако уже при х = р ± За ординатами практически можно пренебречь. Рис. 3.2 показывает три равные по площади гауссовы кривые с одним и тем же средним р, но с разными стандартными отклонениями а. Можно заметить, что с уменьшением стандартного отклонения а кривые становятся все более узкими и острыми. Большинство результатов в обычных методах анализа подчиняются гауссову распределению [1]. Исключения составляют только методы анализа, в которых используется счет дискретных единиц (см. разд. 3.2), а также при известных условиях методы, в которых оцениваются какие-нибудь биологические процессы (например, подсчет числа микробов в питьевой воде). Для ряда аналитических методов (анализ следов, полуколичественные методы) заранее нельзя сказать, что при использовании линейной шкалы получится именно нормальное распре- деление (Эрлих, Гербач, Еч и Шольце [2] (см. рис. 2.4 и с. 33); Шлехт [4]).
48 Глава. 3. Теоретические распределения Рис. 3.1. Геометрическая интерпрета ция стандартного отклонения. Рис. 3.2. Нормальные распределения, имеющие одинаковые площади, но раз- ные стандартные отклонения. Для построения гауссовой кривой при данном стандартном отклонении сна- чала находят пик ординаты утах = 1/ал/2Й- при х = ц. Остальные значения ординат получают из табл. 3.1. Для удобства уравнение (3.1) нормируют подстановкой — и, получая ц = 0, <т = 1. Тогда (3-3) Таблица 3.1. Значения ординат для построения гауссовой кривой х М д ± 0, 5<7 Д ± <7 Д± 1,5(7 Д ± 2(7 Д ± 3(7 7 У Ута.х ~Ута.х о 5 2,5 1 1 “3/тах -~ з/тах уУтах ~?/тах
3.1. Гауссово (или нормальное) распределение 49 Рис. 3.3. Поверхность двумерного нормального распределения и ее основание при независимости (слева) и зависимости (справа) между Xi и Х2- Ординаты нормированной гауссовой функции распределения в зависимости от и можно найти в табл. А.1 (см. приложение в конце книги). В одномерном случае плотность вероятности можно представить в виде кри- вой на плоскости. По оси абсцисс откладывают значения независимой перемен- ной х, по оси ординат — соответствующие ей значения у. Точно так же можно интерпретировать и двумерное гауссово распределение (ср. разд. 2.3), используя трехмерное пространство. Значения двух случайных величин х\ и хз отклады- вают по координатным осям в плоскости основания, а соответствующие им зна- чения у — по вертикальной оси. При этом оказывается, что объемная фигура с эллиптическим основанием имеет максимум, лежащий в точке с координатами X! = pi и х-2 = р-2. Ситуация на плоскости основания определяется тем, зависят ли друг от друга Xi и х? (см. рис. 3.3 и с. 44). Функции распределения можно строить и для средних значений Х\ .. .хт, по- лученных в п3 параллельных определениях, а не только для исходных данных. Тогда каждую серию измерений объемом н; можно рассматривать как выборку из одной и той же генеральной совокупности. Математически можно показать, что общее среднее этих выборок х равно среднему значению р генеральной со-
50 Глава 3. Теоретические распределения Индивидуальные Средние значения значения Рис. 3.4. Функция распределения для индивидуального значения (слева) и для средних (справа) при анализе крем- ния (п3 =5 параллельных определе- ний). вокупности. Следовательно, при одномерном распределении справедливо х = (si + х2 + . •. + xm)/m = ц Но стандартное отклонение <тм Меньше, чем стандартное отклонение а гене- ральной совокупности (3-4) Распределение, построенное для средних значений, более островершинно, чем соответствующая кривая, построенная для индивидуальных значений (рис. 3.4), так как при получении средних сглажены высокие и низкие результаты отдель- ных измерений. Равенство (3.4) справедливо только в том случае, если отдель- ные значения, по которым вычисляются соответствующие средние х3... хт, рас- пределяются не преднамеренно. Равенство (3.4) не выполняется, если индиви- дуальные значения специально подбираются в группы (см. рис. 2.1). Для практического применения особенно важно, что средние, полученные из не менее чем п,'— 5 данных, в общем достаточно хорошо подчиняются нормаль- ному распределению, даже если индивидуальные значения и не распределены нормально. Это тем более верно, чем больше сделано параллельных опреде- лений п3. По уравнению (3.4) в случае большого числа средних можно еще оценить стандартное отклонение для распределения индивидуальных значений, чтобы воспользоваться им с другими целями (например, чтобы оценить индиви- дуальные значения). Интегрированием функции распределения для одномерных нормированных (единичных) гауссовых распределений [уравнение (3.3)] в пределах — ос ... + ос получают площадь F, заключенную между гауссовой кривой и осью абсцисс: +оо F = —= [ ехр(—и2/1)du (3.5а)
3.1. Гауссово (или нормальное) распределение 51 Рис. 3.5. Кривая Гаусса и соот- ветствующая интегральная кривая. Это выражение называют гауссовым интегралом ошибок. Получающаяся при интегрировании площадь равна единице (или 100%). При переменном верх- нем пределе интегрирования х получаем X Y = F(x) = —^= f exp(—u2/2)du (3.56) у2тг J — оо Графическое представление этой функции в сопоставлении с колоколообраз- ной кривой показано на рис. 3.5. Максимум колоколообразной кривой соот- ветствует точке перегиба при У = 0,5 (или 50%) на интегральной кривой, обе точки перегиба гауссовой кривой соответствуют на интегральной кривой значе- ниям У1 = 0,159 (= 15,9%) и Уг — 0,841 (= 84,1%). Интегральную кривую можно спрямить, если взять на ординате масштаб, соответствующий гауссову интегралу (вероятностная бумага). Эта прямая тем круче, чем меньше случай- ная ошибка. Вероятностная бумага позволяет быстро проверить гипотезу о том, что ча- стоты эмпирического распределения принадлежат генеральной совокупности с нормальным распределением. Для этого результаты упорядочивают и разбива- ют на классы, а затем подсчитывают [по уравнению (3.56)] долю (в %) У всех
52 Глава 3. Теоретические распределения данных, которые меньше х,. При нормальном распределении все пары значений (х,; У,) в области 10% < Y, < 90% рассеяны вдоль некоторой прямой. Пользуясь вероятностной бумагой, можно легко и быстро оценить параметры нормального распределения р и а. Среднее значение р находят по абсциссе, со- ответствующей у — 50%, стандартное отклонение получается как полуразность абсцисс, соответствующих ординатам Уг = 84,1% и У1 = 15,9% (см. с. 55). [3.1] Требуется выяснить, соответствуют ли нормальному распределению резуль- таты, найденные в примере [2.1]. По уравнению (3.56) получают следующую таблицу накопленных частот. Предел х, (в % А1) Частота абсолютная Накопленная частота абсолютная в процентах Y, 0,008 2 2 3,3 0,010 4 6 10,0 0,012 16 22 36,7 0,014 18 40 66,7 0,016 14 54 90,0 0,018 5 59 98,3 0,020 1 60 100,0 Соответствующие пары значений (г,, У,) наносят на вероятностную бумагу (рис. 3.6). Так как отдельные точки очень мало отклоняются от прямой, нет никаких оснований отбросить предположение о нормальном распределении. Содержание пробы дает при У = 50% абсциссу д = 0, 013о%Л/. Стандартное отклонение получается из полуразности абсцисс для Уг = 84,1% и У = 15, 9%: а = i(0, 0155 - 0, 0107) = 0, 002«%. Описанные методы годятся лишь в тех случаях, когда есть по меньшей мере 30 измерений. И лишь немногие точки могут слегка отклоняться от сглаживаю- щей прямой. В сомнительных или трудных случаях приходится возвращаться к математической проверке (см. разд. 7.8). Если при проверке на вероятностной бумаге прямой не получается, то, возможно, это следствие неудачного выбора Делений шкалы абсцисс (возможно, например, логарифмически нормальное рас- пределение). [3.2] Требуется выяснить, соответствуют ли результаты определения олова из при- мера [2.3] нормальному распределению. Из графика на рис. 2.4 можно ожидать лога- рифмически нормального распределения. Поэтому для логарифмов результатов нахо- дим накопленные частоты (в %), как в примере [3.1]. На вероятностной бумаге берут ось абсцисс в логарифмическом масштабе и наносят границы классов. Отдельные точ- ки слабо отклоняются от прямой (см. рис. 3.7); следовательно, нет никакого основания отбросить гипотезу о логарифмически нормальном распределении. Если результаты варьируют в широком диапазоне (несколько десятков про- центов), то вероятностная бумага с логарифмическим масштабом на оси абсцисс
3.1. Гауссово (или нормальное) распределение 53 Рис. 3.6. Проверка распределения на нормальность на вероятностной бумаге. Рис. 3.7. Проверка логарифмически нормального распределения на вероят- ностной бумаге. очень облегчает работу. Однако такая функциональная миллиметровка не под- ходит, если результаты охватывают относительно узкий диапазон, как в примере [3.2]. Тогда отрезок используемой абсциссы оказывается слишком сильно сжа- тым. На вероятностной бумаге часто обнаруживаются двухвершинные распределе- ния, что проявляется в таком расположении точек, которое позволяет провести две прямые с разными значениями, соответствующими У — 50%. Эти прямые пересекаются, если различны стандартные отклонения составляющих распреде- лений (tri / сг2); они параллельны при tri — ст-у f [3.3]. Первый случай иллюстрируется данными из рис. 2.2, приведенными на рис. 3.8 на вероятностной бумаге. А на рис. 3.9 приведены результаты межлабораторных ана- лизов алюминия в магниевом сплаве для двух лабораторий на одном графике. При проверке с помощью вероятностной бумаги надо считаться только с яв- ными признаками. Незначительные отклонения от прямой почти никогда не бывают достаточно убедительными. Если гауссов интеграл [уравнение (3.5а)] подсчитывать в пределах F(x) = ~у= / ехр(—u2/2)du (3-6) v2tt J — ua то получится доля Р от общей площади F = 1,000 (рис. 3.10). Эта часть пло- щади соответствует вероятности появления результата, попадающего в интервал
54 Глава 3. Теоретические распределения Рис. 3.8. Распределение с двумя мак- симумами Д1 / Д2 и <Т1 / <т2. -зе-ге-о" +1Г +2<г+з^ Рис. 3.9. Распределение с двумя мак- симумами Р2 и <71 = СГ-2- Р Р (1 Заштрихованная площадь = «V % 95,0 % 99,7 % от общей площади под нормальной кривой Рис. 3.10. Интегрирование гауссовой кривой в пределах p ± u(P)a. —ua...-|-ucr. Вероятность того, что результат оказывается вне указанных преде- лов, равна а = 1 — Р. Часть площади Р также выражают в процентах от общей площади и называют статистической надежностью. Чем дальше раздвинуты пределы интегрирования ±шт, тем больше будет пло- щадь Р и тем больше результатов будет попадать внутрь и меньше вне пределов (см. рис. 3.10). Из табл. 3.2 следует, что при достаточно большом числе измерений:
3.1. Гауссово (или нормальное) распределение 55 Таблица 3.2. Некоторые значения интеграла Гаусса при интегрировании в пределах — u<r... + tier U Р а = 1 - Р U Р а = 1 — Р 0,500 0,383 0,617 1,96 0,95 0,05 0,675 0,500 0,500 2,58 0,99 0,01 1,000 0,683 0,317 3,00 0,0073 0,0027 1,640 0,900 0,100 4,00 0,9999 0,0001 - в области —а .. ,+ег лежит 68,3% (более двух третей) всех результатов. Около 15% значений меньше а и около 15% больше +ег; - в границах —1, 96а.. + 1, 96а находится 95% всех значений; 2,5% лежит ниже — 1,96а и 2,5% — выше +1, 96а; - интервал —За .. .+3а охватывает 99,73%, практически все значения. Остается всего только 0,27% значений — так мало, что ими можно пренебречь, — лежащих за заданными пределами. Часть площади Р, полученная по уравнению (3.6), зависит от задаваемых пределов интегрирования. Выбор одной величины определяет другие. Чтобы пояснить зту связь, в дальнейшем пределы интегрирования будем обозначать через и(Р)а. При помощи табл. 3.2 легко объяснить графическое определение стандартно- го отклонения, приведенное на с. 52. Площадь под гауссовой кривой в области —а ... + а составляет 68,3% общей площади. В графе накопленных частот нахо- дим абсциссы —а и +а, им соответствуют ординаты yi = 50 — (68,3/2) = 15,9% и у2 = 50+(68,3/2) = 84,1%. Вероятности, приведенные в табл. 3.2, пригодны естественно только в пред- положении, что выполняется гауссово распределение. Связи, подобные тем, что существуют между пределами интегрирования и частью площади Р, можно ука- зать для любых распределений. Тогда по Чебышеву справедливо равенство Р(ц) = 1--4 (3-7) Если можно предположить, что распределение имеет максимум частоты вблизи среднего (условие Кэмпа — Майделла), то для вычисления Р можно использовать следующее приближение: (3-8) 2,25м2 Некоторые значения Р с учетом этих двух условий дает табл. 3.3. Хорошо видно уменьшение Р по сравнению с нормальным гауссовым распределением (см. табл. 3.2). Стандартное отклонение для средних из нормального распределения задает- ся выражением (3.4) в виде а« = а/^/nJ. Здесь Пу означает число параллель- ных определений, по которым получают каждое из средних. Разности между выборочным средним х и генеральным средним р примерно с вероятностью Р
56 Глава 3. Теоретические распределения Таблица 3.3. Некоторые значения Р(и) по Кэмпу и Майделлу [соотноше- ние (3.8)] и по Чебышеву [соотношение (3.7)] и Р(к) Кэмп — Майделл Чебышев 1,00 0,556 1,64 0,834 0,628 1,96 0,844 0,740 2,58 0,933 0,850 3,00 0,951 0,889 4,00 0,972 0,938 попадают в границы — и(Р)ам и +и(Р)ад/ -u(P)-J= < р - х < +и(Р)-^= (3.9) а/ у/ Прибавляя х, получим х — u(P)—— < р < х Р и(Р)—— (3.10) При очень большом числе повторений такой серии измерений можно ожидать, что в 100% всех полученных выборок генеральное среднее р должно попасть внутрь найденного интервала х ± и(Р)-~. Если задать <Р)-^= = Дг (3.11) получится доверительный интервал х± Д.х среднего значения х с вероятностью Р. Между этими пределами +Дг и —Да: в 100Р% всех случаев должно оказать- ся истинное значение р. Поэтому указывая доверительный интервал, характе- ризуют надежность измеренного значения. При нарушений нормальности для заданного р уменьшается достоверность вывода (см. табл. 3.3). При определении доверительного интервала важно выяснить, интересны ли для анализа обе границы (верхняя и нижняя) или только одна из них (см. рис. 3.11). Если доверительный интервал используют для указания ошибки не- которого среднего, то естественно интересны обе границы. В этом случае говорят о двусторонних границах с вероятностью Р. При такой постановке вопроса орди- натами х±и(Р)-~= справа и слева отсекаются площади, равные (1 — Р)/2 = а/2. Напротив, для характеристики результатов часто устанавливают только одну границу, требуя, например, чтобы содержание примесей не превышало некото- рого заданного значения — верхней^границы. В этом случае говорят об одно- сторонней границе с вероятностью Р. Она определяется частью площади, огра- ниченной значениями х = —со, х = и(Р)^)== (см. рис. 3.11). При установлении односторонней границы слева или справа от ординаты в точке х + и(Р)—!= или
3.2. Распределение Пуассона 57 Рис. 3.11. Границы доверительного интервала при двусторонней (слева) и односто- ронней (справа) постановке задачи. Таблица 3.4. Величины_Р Р. Соотношение между Р и Р для одностороннего и двустороннего доверительного интервала р Р Р Р 0,90 0,95 0,99 0,995 0,95 0,975 0,997 0,998 0,98 0,990 0,999 0,9995 х — и(Р)-)== отсекается площадь, равная 1 — Р = а. Между вероятностями для односторонней и двусторонней границ (соответственно Р и Р) существует зависимость: Р = 0,5+Р/2 (3.12) Более полное сопоставление величин Р и Р дается в табл. 3.4; значения для гауссова интеграла в диапазоне —оо .. ,и<т можно взять из табл. А.2 (с. 242). 3.2. Распределение Пуассона В ряде современных методов аналитической химии результаты представляются в виде функций от дискретных величин. Примерами могут служить подсчет им- пульсов в радиохимии, подсчет квантов в рентгеноспектральном анализе, под- счет структурных элементов при исследовании шлифов и прочее. Всем этим методам присуще общее характерное свойство — число возможных событий (на- пример, число распадающихся ядер атомов) очень велико, а число фактически происходящих событий (распад отдельных ядер), напротив, очень мало. Вслед- ствие редкости этих событий в наблюдаемом интервале времени состав пробы меняется несущественно. Если один и тот же опыт повторять многократно, то вероятность появления результатов измерения х можно описать следующей за- висимостью: у - ехР(~А*) (3.13) X1
58 Глава 3. Теоретические распределения Рис. 3.12. Распределение Пуассона для различных значений среднего арифметическо- го д. Такое распределение называется распределением Пуассона. Поразительно, что распределение Пуассона характеризуется только одним параметром — сред- ним значением р. Между средним р и стандартным отклонением а существует зависимость: <7 = yfp (3.14) В отличие от нормального распределения распределение Пуассона дискрет- но. Для малых значений р оно обладает значительной асимметрией (рис. 3.12). Асимметрия очень быстро уменьшается с ростом р, а форма кривой приближает- ся к форме нормального распределения со средним р и стандартным отклонени- ем <7 = у/р. Для практических целей вполне удовлетворительное приближение к нормальному распределению достигается уже при х > 15. Тогда в соответствии с табл. 3.2 68,3% всех значений попадают в интервал р — у/р.. ,р + у/р. Благодаря такой близости к гауссову распределению и здесь можно приме- нять вероятностную бумагу для проверки гипотезы о распределении Пуассона. В этом случае накопленные частоты дают прямую, проходящую через точки Pm(xm =р; Ym = 50%), Pi(xi = р-у/р; У1 = 15,9%) (3.15) ^2(^2 = р + т/Д; Уг = 84,1%) Для практического выполнения этой проверки прежде всего строят сглажи- вающую прямую, пользуясь накопленными частотами и соответствующими им содержаниями вещества. По индивидуальным измерениям находят среднее х и вычисляют на его основе с учетом равенства (3.15) координаты точек Pi и Рг- Прямая, проходящая через эти точки, должна почти совпадать с построенной ранее сглаживающей прямой. [3.4] Сто раз счетчиком измерили число импульсов источника а-лучей. При по- строении функции распределения получились следующие частоты отдельных классов (в %):
3.2. Распределение Пуассона 59 Рис. 3.13. Проверка распределения Пуассона на вероятностной бумаге. Рис. 3.14. t-распределение для f = 1 (-•-...) и / = 5 (----), а также нор- мальное распределение (). Верхняя граница класса х, (импульсы) Частота,% Накопленная частота У, % 3810 5 5 3850 7 12 3890 9 21 3930 23 44 3970 24 68 4010 19 87 4050 8 95 4090 3 98 4130 1 99 4170 1 100 Пары значений (г,, У,) распределения накопленных частот наносим на вероятност- ную бумагу и строим сглаживающую прямую (рис. 3.13). Среднее арифметическое, полученное по ста результатам по уравнению (2.1), равно х = 3958 импульсов. Теперь, пользуясь уравнением (3.15), получаем точки Pi и Рг для теоретического распределе- ния. Значения их абсцисс равны ii = 3958 — V3958 = 3895 и 12 = 3958 + д/3958 = 4021, а соответствующие значения ординат У1 = 15, 9% и Уг = 84,1%. Прямая, проведен- ная через точки Pi и Рг, почти совпадает со сглаживающей прямой. Поэтому можно допустить распределение Пуассона. Если из графической проверки нельзя сделать достаточно точного вывода, то пользуются описанным ниже математическим способом проверки (см. разд. 7.8).
60 Глава 3. Теоретические распределения f ---*- Рис. 3.15. Пределы интегрирования t(P, f) t-распределения в зависимости от степеней свободы f. 3.3. Специальные распределения 3.3.1. /-распределение Описанное в разд. 3.1 нормальное распределение годится только для очень боль- шого числа измерений. При малом числе измерений плотность распределения может более или менее отклоняться от нормальной. В математической стати- стике эта дополнительная ненадежность устраняется специально приспособлен- ным симметричным t-распределением. Абсциссы максимумов частот гауссова и t-распределения совпадают. Однако в отличие от нормального распределения высота и ширина кривых нормированного /-распределения зависят от степеней свободы f соответствующего стандартного отклонения. Чем меньше число степе- ней свободы, тем более пологий ход имеет кривая при одном и том же стандарт- ном отклонении (рис. 3.14). При f —»• оо t-распределение переходит в нормальное распределение. В соответствии с таким ходом кривой в зависимости от степеней свободы f пределы интегрирования при заданной вероятности Р тем дальше уда- ляются от среднего, чем меньше число степеней свободы /. Так для Р = 0,95 значение х может больше и не лежать в области р — 1, 96s .. .р + 1, 96s. Этот ин- тервал становится тем шире, чем меньше измерений было проведено (рис. 3.15). Пределы интегрирования t-распределения в зависимости от вероятности Р и сте- пеней свободы f для нормированного при s = 1 распределения приведены в табл. А.З (с. 244). 3.3.2. .F-распределение Из нормально распределенной генеральной совокупности взяли две выборки объ- емом nx и пг, полагая, что этого вполне достаточно. Подсчитали дисперсии Sj и «2 со степенями свободы Д = тц — 1 и fa — пг — 1 и составили отношение: F = s*/s* {.F > 1; т е §2 ВСегда должна быть большей дисперсией).
3.3. Специальные распределения 61 Рис. 3.16. F-распределение для (Д = 10;/2 = 4) и (/j = 10;/2 — 50) степеней свободы Рис. 3.17. ^'Распределение для f = 2, / = 4и/ = 10 степеней свободы. Кривая распределения для всех возможных значений F проходит — как от- ношение двух квадратов — только в первом квадранте между F = 0 и F = оо (рис. 3.16). Эти кривые обладают обратной симметрией, когда F заменяется на 1/F и одновременно Д заменяется на /2- При интегрировании функции рас- пределения в пределах 0 .. .Fp(Fp < 00) получают Р — часть всей площади под кривой. Она соответствует вероятности того, что найденное значение F = s2/s2 лежит между 0 и Fp. Эти пределы интегрирования F(P;/i;/2) для Р = 0, 95 и Р — 0, 99 в зависимости от числа степеней свободы /1 и /2 даны в табл. А.5 (с. 246). Интерполяцию отсутствующих значений проводят в области за Д = 24 и /2 = 120, при этом F задают как функцию 1/f (см. пример [7.1]). 3.3.3. ^-распределение Пусть дано п независимых случайных величин xi, х? ... хп. При их нормальном распределении можно получить случайную величину с числом степеней свободы f = п — 1. Функция распределения для у2 располагается в первом квадранте в диапа- зоне от у2 = 0 до у2 = оо. Ее вид в сильной степени зависит от числа степеней свободы f (рис. 3.17). Для малого числа степеней свободы кривая резко асим- метрична, с ростом f асимметрия уменьшается, а при большом числе степеней свободы получается гауссова кривая с д > 0. Интегрирование функции рас- пределения в пределах от 0 до х2 (Хр < 00) Дает часть Р общей площади под кривой. Эта часть соответствует вероятности того, что значение х2 = S»=1 xt’ полученное из f взаимно независимых наблюдений, попадает в интервал 0..-ХР- Д л я практического использования пределы интегрирования х ^распределения Х2(Р, /) для Р = 0,95 и Р = 0,99 в зависимости от чисел степеней свободы приведены в табл. А 4. (с. 245). \
62 Глава 3. Теоретические распределения р =б2 Х>15 Распределение Пуассона Рис. 3.18. Связь между отдельными теоретически- ми распределениями. 3.4. Связь между отдельными распределениями На первый взгляд может показаться, что все рассмотренные здесь теоретические распределения абсолютно различны и не взаимосвязаны. Однако то, что это не так, уже показано ранее разными способами. Так, например, было установле- но (см. с. 57), что распределение Пуассона становится близким к нормальному, когда выполняется условие х > 15. Далее было показано, что /-распределение также переходит в гауссово при f —> оо. Подобные связи существуют также и ме- жду другими рассмотренными распределениями, они схематично представлены на рис. 3.18. Известно, что специальные распределения (t,F, х2) представляют собой частные случаи гауссова распределения для определенно поставленной за- дачи и при ограниченном числе степеней свободы.
Литература. 63 Литература 1. Clancey V. J. Statistical Methods in Chemical Analysis. — Nature (Paris), 159 (1947) 4036, 339, 340. 2. Ehrhch G., Gerbatsch R., Jaetsch K., Scholze H. Zur Genauigkeit spektralanalytischer^ Spurenbestimmungen. Vortrag auf dem IX. Coll. Spectrosc. Int. Lyon 1961. 3. Oertel A. C. Frequency Distribution of Spectrographic error in the DC Excitation of Soil Samples.-Austral. J. Appl. Sci., 7 (1956) 2, 133, 141. 4. Schlecht H. Der Zufallsfehler einer chemischen Analyse. Contributions to Geochemistry, Geol. Survey Bull, 992. Дополнительная литература Green L. R., Margenson D. Statistical Treatment of Experimental Data. Amsterdam: Elsevier Scientific Publ. Comp., 1977. Hirsch R. F. Statistics. Philadelphia: The Franklin Institute Press, 1978. Noak S., Schulze G. Statistische Auswertung analytischer Daten.-Z.anal.Chem., 304(1980) 250/254 Plachky D., Bannghaus L., Schmitz N. Stochastik I. Wiesbaden: Akadem. Verlagsges. 1978. Scheffler E. Einfuhrung in der Praxis der statistischen Versuchsplanung. Leipzig: Deutscher Verlag fiir Grundstoffindustrie, 1974. Schmidt W. Lehrprogramm Statistik. Weinheim: Chemie-Physik-Verlag, 1976. Смирнов А., Дунин-Барковский В. Краткий курс математической статистики для технических приложений. — М.: Физматгиз, 1959. Storm R. Wahrscheinlichkeitsrechnung, mathematische Statistik und statistische Qualitatskontrolle. 5. Aufl. Leipzig: Fachbuchverlag, 1974. Есть русский перевод: Шторм Р. Теория вероятностей. Математическая статистика. Статистический контроль каче- ства. — М.: Мир, 1970. Weber Е. Grundriss der biologischen Statistik fur Naturwissenschaftler, Landwirte und Mediziner. 7. Aufl. Jena: Gustav Fischer Verlag, 1972. DIN 55350, Teil 12: Begriffe der Qualitatssicherung und Ststistik — Merkmalbezogene Begriffe.
4 Закон сложения ошибок Случайная ошибка метода анализа чаще всего складывается из нескольких част- ных ошибок. Для минимизации общей ошибки анализа надо найти оптимальные условия измерения. Этому способствуют законы сложения ошибок. Рассмо- трение ошибок такого рода прежде всего сосредоточивается на возникающих ошибках измерений. Поэтому рассмотрение таких ошибок лишь в исключитель- ных случаях может дать некоторые представления о точности аналитического метода, так как ошибки измерений обычно гораздо меньше, чем случайные коле- бания, например хода химических реакций. Тем не менее метод анализа может полностью проявить свои возможности только в том случае, когда ошибки из- мерений сведены к минимуму. Ниже описывается действие закона сложения ошибок при поиске наилучших условий измерения для нескольких типичных методов аналитической химии. 4.1. Общие закономерности Для применения закона сложения ошибок надо знать формулы, связывающие отдельные измеряемые величины и частные ошибки различных стадий процес- са измерения. В дальнейшем мы будем исходить из предположения, что все измерения взаимно независимы (см. с. 42). Если для п независимых (некоррелированных) переменных существует функ- циональная связь1) вида Y = <р(х1,х2,...,хп) (4.1) то общую ошибку <ту приближенно можно выразить в виде Суммарная ошибка из уравнения (4.2) <ту больше, чем ошибки отдельных чле- нов. Она увеличивается за счет суммарного действия нескольких содержащих ошибки независимых частных величин. Поэтому бессмысленно сохранять в ре- зультате много десятичных знаков, когда исходные частные величины верны только до десятых. Зависимости, наиболее часто встречающиеся в аналитиче- ской химии, можно свести к четырем основным видам уравнений. Если для этого взять, например, только две независимые переменные и х2, то для сложения ошибок существуют следующие основные соотношения: 1) Здесь автор выразился неточно. Функциональная связь предполагает коррелировапность переменных. Важно, чтобы некоррелированными были не переменные, а их ошибки. — /Трим, ред.
4.2. Аналитические операции 65 Расчетная формула Суммарная ошибка Y = Xi + Х2 1 Y = X! - х2 J У = + ffx2 (4.3а) У = xi • х2 1 У = xt/x2 / (4.36) При сложении ошибок всегда суммируются соответствующие дисперсии, а именно: для сумм или разностей суммируются дисперсии абсолютных ошибок, а для произведений или дробей — дисперсии относительных ошибок. Поэтому при рассмотрении ошибок суммы и разности предпочитают пользоваться абсолютной ошибкой, а для произведения или частного — относительной ошибкой. [См. уравнение (9.9), касающееся сложения ошибок при коррелированных величинах измерений.] 4.2. Аналитические операции Особенно часто в аналитической химии приходится иметь дело с разностями измеряемых величин (например, при взвешивании). Из уравнения (4.3а) следу- ет, что при этом надо пользоваться абсолютной ошибкой. Она возрастает до- вольно слабо и не зависит от величины разности. Часто полученную разность подставляют в формулы, содержащие произведение или дробь (см., например, уравнение 4.10). В этом случае аналитик будет интересоваться относительной ошибкой разности <Tri_l2/(zi — х2). Она тем больше, чем меньше разность Х\— х2, и становится очень большой, когда scj и х2 примерно равны. Поэтому следует по возможности избегать получения разности измеряемых величин, когда эти величины близки друг к другу. [4.1] При определении хлора были получены следующие результаты: Тигель с AgCl X = 8, 3453 г Пустой тигель Хо = 8, 0875 г AgCl у = X - Хо = 0, 2578 г Ошибку взвешивания можно установить при обычной процедуре проведения весового анализа. Для обоих взвешиваний она одинакова и составляет <тх = 0,0002 г [8]. Из уравнения (4.3а) получаем абсолютную ошибку разности <ту = ах\/2 Я 0,0003 г. Это ненамного больше, чем ошибка одного взвешивания. Относительная ошибка одного отдельного взвешивания составляет <тх/Х я 0,000 03=0,003%. Разность у = X — Хо, например, напротив, оказывается связанной с заметно более высокой относительной ошибкой: ffy/у я 0,001 = 0,1%. Несмотря на высокую точность отдельных взвеши- ваний, разность можно определить только со сравнительно большой относительной ошибкой 0,1%. При умножении числа, содержащего ошибку, на точное значение (стехиоме- трический коэффициент) увеличивается только абсолютная ошибка, а относи- тельная ошибка не меняется. Это также относится и к делению.
66 Глава 4. Закон сложения ошибок [4.2] При гравиметрическом определении никеля диацетилглиоксимат никеля ве- сил 0,3124 г, что соответствует 0,2250 • 0,3124 г = 0,0703 г никеля. При весовой ошибке <Tj, = 0, 0003 г абсолютная ошибка определения никеля составляет 0,0003 г для диацетилглиоксимата никеля и соответственно 0, 2250 U), 0003 = 0,00007 г никеля; от- носительная ошибка составляет в обоих случаях 0,001=0,1%. Деление пробы для объемного анализа — распространенная в аналитической химии операция (выделение аликвотной пробы). Преимущественно она выполня- ется с помощью полной пипетки с последующим разбавлением раствора в мерной колбе. Коэффициент разбавления q получают по формуле 9 vM где Vp — объем полной пипетки, Vm — объем мерной колбы. Отсюда получают относительную ошибку по формуле (4-4) Ч \\VpJ (4-5) Ошибка разбавления раствора будет тем меньше, чем больше объем исполь- зуемой посуды (см. табл. 4.1). Если нужна высокая степень разбавления, то операцию разбавления проводят в несколько этапов. Благодаря этому получа- ют в большинстве случаев незначительную ошибку разбавления, меньшую, чем если бы операцию проводили в один этап, применяя посуду большого объема [16]. [4.3] Из раствора с концентрацией натрия 10-2% требуется получить растворы с концентрацией натрия 10-3% и 10~4%. При использовании 10-миллилитровой пипетки и 100 миллилитровой мерной колбы для раствора с концентрацией натрия 10-3% (см. табл. 4.1 при <т„ ss /т1Х/3) получают / / \ 2 ✓ \ 2 <т„ / /о, 020/3 \ /0,10/3 \ ~ = V \ ~~Гб~ ~ ' ) +(~Н)0 ) ~ °’°°°745 ~ °’07% (отк’) Для раствора с концентрацией натрия 10-4%, который получен разбавлением раствора с концентрацией 10-3%, ошибка удваивается aq/q = 0,00144=0,14% (отн.). Если бы этот раствор получали с помощью пипетки из 1 мл исходного раствора с концентрацией 10-2% натрия разбавлением до 100 мл, то получилось бы /тах = 0,007 мл «ч //о, 007/3 \ , /о, 10/3\ п „„„„„ „ . — = V --- - --- + ( —--z- = 0,002 36 = 0,2% (отн.) ? V \ 1 / \ 100 / В этом случае получается значительно большая относительная ошибка разбавления. [При работе с химической посудой больших объемов (пипетка 25 мл, мерная колба 250 мл) ошибка разбавления уменьшается еще больше, до 0,040% (отн.), а также 0,080% (отн.) для обоих растворов.] В большинстве методов анализа используется градуировка. При условии пря- мо пропорциональной зависимости между измеряемой величиной у и содержа- нием х справедливо равенство Уа _ УК ХА ХК (4.6)
4.3. Гравиметрия 67 (4-7) где ук, Уа — измеряемые величины при градуировке и анализе соответственно, хк, Ха — содержание эталонной и анализируемой пробы. Отношение ук/хк (а также Ду/Дг) принято называть чувствительностью метода анализа и обозначать через Ь. Ее подстановка в равенство (4.6) дает функцию анализа хк Уа ха = — Уа = -т- ук ° При безошибочной дозировке хк имеем / \2 / \2 / \2 | ffx । — I ffyK ) 4- ( <Тул ) \xAJ \ук J \Уа J — ~ - /о ха ~ У Вследствие этого простейшего варианта градуировки случайная ошибка умножается на коэффициент >/2. При ид-кратном повторении этой операции можно несколько снизить дополнительную ошибку в соответствии с соотноше- нием (4-8) с* хл ^,А+ — У V ПК (4-9) При наличии конечного числа измерений выигрыш не очень велик. Кроме того, намного удобнее брать пробы различных концентраций и определять гра- дуировочную функцию методом регрессионного анализа [15], см. разд. 9.2.3. 4.3. Гравиметрий При гравиметрическом методе результат (процентное содержание вещества в ис- следуемой пробе) получают из следующего соотношения: p=100fca/e (4-Ю) где р — содержание вещества в пробе в %, к — стехиометрический коэффициент, [1/&= чувствительность, см. уравнение (4.7)], а — масса остатка, е — масса навески. Итак, результат можно получить непосредственно из измерений, относящих- ся к анализируемой пробе, не прибегая к градуировке. Поэтому гравиметрию часто причисляют к “абсолютным методам”. В этом методе анализа использу- ются массы а и е остатка и навески соответственно, получаемые почти всегда как разности измерений (см. пример [4.1]). Обычно получают вес остатка до- ведением пробы до “постоянного веса” nj раз. Для ошибки при определении содержания имеем выражение gp _ //£Л2 + 1 р у \ е / nj \ а / Это позволяет получить малую ошибку определения при мерений и больших значениях измеряемой величины. (4.П) малой ошибке из-
68 Глава 4. Закон сложения ошибок Уменьшение ошибки измерения ограничено аппаратурными и стоимостными возможностями. Навеску в отличие от остатка взвешивают один раз. Поэтому рекомендуется брать большие навески, чтобы работать с малой ошибкой взве- шивания (например, на верхней шкале весов для полумикроанализа). Увеличению измеряемой величины препятствуют главным образом причины, обусловленные методом анализа; например, если они не позволяют переработать большее количество осадка, вес остатка обычно не должен превышать 200 мг. В большинстве гравиметрических анализов и навеска, и вес остатка — величины одного порядка (е » а). Ошибкой стехиометрического коэффициента к в общем случае можно пре- небречь, если работать с четырьмя знаками после запятой. Поэтому к не фи- гурирует в уравнении (4.11). И все-таки он косвенно влияет на общую ошибку, так как определяет величину навески, задаваемую весом остатка, ограниченного «max » 200 мг. Если навеска и вес остатка приблизительно равны, то большой коэффициент может благоприятно повлиять на общую ошибку. [4.4] В магнезите (MgCOa с р х 25%Mg) магний определяют сначала взвешиванием в форме 8-оксихинолята магния (fci = 0,077 80), а затем в форме дифосфата (fc2 = 0, 218 5). Вес остатка составляет в обоих случаях а ~ 200 мг. При этом навеска в первом случае ei « 60 мг, во втором — е2 я 175 мг. По уравнению (4.36) для оксихинолятного метода получают ошибку измерения: = 0,000 002 73 = 0,0052=0,52% (отн.) Для дифосфатного метода получают 2 \ Р / \175/ \200> — = О, 0023=0, 23% (отн.) Р 2 = 0,000 00517 Несмотря на “менее благоприятный” стехиометрический коэффициент, ошибка во вто- ром методе только вдвое меньше ошибки первого. В некоторых — сравнительно редких случаях — вес остатка значительно меньше, чем навеска. Это имеет место при определении малых содержаний ме- тодом гравиметрического анализа, например при определении фосфора в стали, пробирном анализе при определении благородных металлов и т. д. Определя- ющий вклад в общую ошибку в таких случаях чаще всего вносит ошибка веса остатка (малая величина). В отличие от методов, где навеска и остаток близ- ки по весу, здесь общая ошибка относительно высока. Хотя эта ошибка играет довольно малую роль при определении малых весов, все же по возможности на- до избегать применения таких методов, поскольку при малом осадке довольно значительную роль начинают играть загрязнения. Поэтому гравиметрию приме- няют как основной метод при определении средних и высоких концентраций. А гравиметрическое определение малых концентраций обычно требует специаль- ных приемов.
4.4. Объемный анализ 69 4.4. Объемный анализ В объемном анализе процентное содержание исследуемой пробы [9] находят из уравнения р(%) = lOOkfv/e (4.12) где v — расход раствора, f — титр раствора. При сопоставлении с уравнением (4.10) видно, что в уравнении (4.12) допол- нительно появляется еще титр раствора f. Его надо определять опытным путем, поэтому объемный анализ в известном смысле можно рассматривать как метод с градуировкой. Ошибку определения получают из уравнения (4.12) по закону сложения оши- бок [уравнение (4.36)]: (4-13) В отличие от гравиметрии ошибка измерения объема складывается из не- скольких частных ошибок. Наиболее существенны ошибки отсчета, ошибки ка- пли, ошибки стекания. При точных измерениях надо еще учитывать разницу гра- дуировочной и рабочей температур для используемых приборов, а также разли- чие плотности анализируемой пробы и титровального раствора (Дёрффель [3]). В общем случае можно считать ошибку измерения объема равной <tv » 0,05 мл при работе с бюреткой на 50 мл. Высокие концентрации, требуемые в соответствии с равенством (4.13), огра- ничены возможностями используемых бюреток. Для бюретки на 50 мл опти- мальный расход равен 30, самое большое 40 мл. Соответственно надо выбирать навеску е. Если требуются малые расходы, то выбирают по возможности более длинную и узкую бюретку, но титровать в этом случае надо медленно, чтобы ошибка стекания оставалась небольшой (Линдер и Гальсвантер [10]). Нормирующий множитель f можно найти либо установкой титра по веществу уже известной концентрации, либо точным взвешиванием выбранного реагента. В любом случае он получается комбинацией определений массы и объема по формуле f = eK/kvK (4-14) Отсюда находят ошибку “градуировки” метода f (4-15) Ошибка установки титра должна быть мала по сравнению с двумя другими ошибками, появляющимися при анализе. Следовательно, должно иметь место неравенство тМо’+с?)2 <4лб) Это требование выполняется, если «ту// < 0,001=0,1% (отн.) (Кольтгофф [9]). Только при этом условии объемный анализ может быть успешным.
70 Глава. 4. Закон сложения ошибок [4.5]. При объемном анализе содержания железа в красном железняке (р и 90%РегОз) расходуется v х 30 мл раствора с(|КМпО4)1\ если навеска составляет е х 250 мг. Исходя из предположения, что <r//f = 0,001, в качестве ошибки содержа- ния по уравнению (4.13) получаем — = 2 + 2 + °’ 0012 = °> °023^0’ 23% (°ТН-) р у \ 25U / \ oU / Эта ошибка близка по величине к ошибке гравиметрического анализа (см. пример [4-4]). Величина ошибки оу// сильно зависит от способа установления титра. Если используют вещество с заданным титром, то навеска и расходуемый объем жид- кости при градуировке и анализе близки по величине и, следовательно, ед- х е и vк ~ v. Вследствие этого f у \ ек ) \ гк / V \ е / \г/ Таким образом, неравенство (4.16) не выполняется. Однако можно удовлетво- рить условию (4.16), если градуировку проводить более тщательно. Так сле- довало бы, например, предусмотреть по меньшей мере три параллельных опре- деления rij = 3, что уменьшило бы ошибку в 1/ynj раз [см. уравнение (3.4)]. Навеску ек надо взвешивать на аналитических весах, объем v в данном случае увеличится, если взять большую бюретку. Кроме того, хорошо бы использовать при титровании вещества с высокой молярной массой. [4.6] При установке титра 0,1 и. раствора перманганата калия берут ек = 210 мг оксалата натрия, а на титрование идет около vk = 30 мл мерного раствора. По урав- нению (4.16) получим ошибку титра: Требование <7/// < 0,001 также не выполняется. Однако если навеска взята на анали- тических весах (<тек « 0,1 мг) и на титрование пошел объем vk = 40 мл, то при трех параллельных определениях (п} = 3) ошибка заметно уменьшится. Она станет — = -т=\/(4к') + = 0,000 75 = 0,075% (отн.) Р Уз V \ 280/ к 40 J v ' При этом прекрасно выполняется требование af/f< 0,001. Для ряда мерных растворов титр можно определить, измеряя с высокой точ- ностью массу действующего реагента и общий объем раствора. При достаточно больших количествах жидкости (например, 1 л) ек е и vk v, и поэтому тре- бование (4.16) выполняется. Такой способ установки титра, однако, возможен только в том случае, если используемый реактив приготовлен в определенной форме и требуемой чистоты и если титр раствора остается постоянным. Еще Здесь и ниже в тексте несколько раз использовано обозначение с( — х), где п — целое число, а. х — формула некоторого химического соединения. Например, в данном случае х = КМпО4. Есть основание предполагать, что таким образом автор обозначает 1/п долю децимоля. — Прим. ред.
4.5. Фотометрия 71 Таблица 4.1. Допуски для мерной посуды (Лидер и Яр [7]) Мерные колбы класса А Объем, мл Максимально допустимая 2000 1000 500 250 100 абсолютная ошибка fmix, мл Максимально допустимая 0,6 0,4 0,25 0,15 0,10 относительная ошибка, % 0,03 0,04 0,05 0,06 0,10 Пипетки класса А Объем, мл Максимально допустимая 100 50 25 10 2 абсолютная ошибка /max, мл Максимально допустимая 0,80 0,50 0,30 0,20 ОД относительная ошибка, % 0,08 0,10 0,013 0,20 0,5 предполагается, что при изготовлении раствора мерной жидкости истинное зна- чение титра не может меняться. Реагентами, удовлетворяющими этим условиям, будут, например, бихромат калия, бромат калия или этилендиаминтетрауксус- ная кислота. [4.7] Для приготовления точно 0,1 н. раствора бихромата калия с^КзСгзО?) взве- шивают ек = 4,903 2 г К2СГ2О7 и наполняют мерную колбу до объема vk = 1000 мл. При aVK « 0,10 мл (табл. 4.1) получают ошибку измерения ?_Л + = 0,00012=0,012% (отн.) р V к 4903,3 / \1000/ v ’ Максимально допустимая ошибка при установлении титра в// f < 0, 001 заметно боль- ше полученной, и это не потребовало особых затрат. На основании всех этих рассуждений объемный анализ приходится отнести к методам, наиболее благоприятным с точки зрения затрат времени и подходя- щим главным образом для определения больших и средних концентраций. В этом он похож на гравиметрию. В отличие от гравиметрии он нуждается, одна- ко, в предварительном экспериментальном определении титра. И только если ошибка этой градуировки пренебрежимо мала, объемный анализ приобретает достаточную точность для определения проб с большими концентрациями. 4.5. Фотометрия Основанием всех фотометрических измерений служит закон Ламберта — Бера Бугера. Если в исследуемой системе имеется одно единственное светопоглоща- ющее вещество, то справедливо соотношение Е = £(Х)с1 (4-17) где Е — экстинкция (светопоглощение), г(А) — коэффициент светопоглощения, зависящий от длины волны (чувствительность), с — концентрация, I — толщина слоя в кювете.
72 Глава 4. Закон сложения ошибок Используемые здесь значения экстинкции Е вычисляют по формуле £ = lny=^(W) (4.18) Здесь 10 — интенсивность света при отсутствии пробы, I — интенсивность при наличии пробы на пути светового луча. Дисперсию определения экстинкции получают по уравнению (4.2): 2 /mw)V 2 , <mw)V <?E = —дг— ai0 + .2 _________ -*о . " I ffI - ~Г2 + J2 .2 _ aIo di0 J “'° ' V di J i02 Отсюда при <ti0 = ar = an получают абсолютное стандартное отклонение <те и относительное стандартное отклонение <те!E'- /1 1 aE ~ <TDd J2 + р (4.19а) er Е _ aD ~Ё ~~Ё (4.196) Как и в гравиметрии, здесь тоже будет точный результат, если мала ошибка измерения егд. На хорошей аппаратуре ее можно снизить до <td , равной двум делениям шкалы при общей длине шкалы в тысячу делений (1о = 1000). Влияние отношения 1^/1 на относительную ошибку экстинкции показано на рис. 4.1. Из рисунка видно, что ошибка будет минимальной, если 1 = 0,371о; так для ад = 0,5% пропускание будет <те/Е « 0,015=1,5% (отн.). Минимум ошиб- ки лежит в пологой части кривой, поэтому для анализа можно использовать область 0, 05 Го < I < 0, 77q соответственно 1, 3 > Е > 0, 2. При этом получаются малые значения I (слабое пропускание) при относительно точном результате, в то время как при большом пропускании ошибка очень резко возрастает. По этой причине фотометрический анализ всегда ненадежен у нижней границы заданной области концентраций. Для определения крайне низких концентраций часто применяют дифферен- циальный метод, особенно в инфракрасной (ИК) спектроскопии. Прежде всего сдвигают примерно к середине шкалы пропускание для чистых растворителей 10. Затем регистрируют выбранный участок спектра как обычно, То есть рас- твор — в измерительном луче, а растворитель — в заданном (сравнительном) луче. После этого кюветы меняют местами и повторяют измерение. Первый опыт дает положительную, а второй — отрицательную полосу (см. рис. 4.2). Экстинкцию вычисляют по формуле Е = ЩЦ/Ь) (4.20) В результате этого чувствительность увеличивается приблизительно вдвое. Для снижения ошибки берут Ц = I + х и /2 = I — х, откуда получают £ = 1п[(7+;г)/(7-Ж)] (4.21) Из уравнения (4.2) получают относительную ошибку измерения экстинкции _ 27 тд —2 й && Е (Г -х2)Е (4-22)
4.5. Фотометрия 73 Рис. 4.1. Зависимость относительного стандартного отклонения экстинкции <те/Е от экстинкции Е. Рис. 4.2. Стандартное отклонение <тд/£ при измерении экстинкции дифференциаль- ным методом для ад = 0, 5%. Для I = 50% и пропускания а о = 0, 5% величина <td/E достигает минимума в той же пологой части кривой (см. рис. 4.2). Даже при одинаковой ошибке измерения пропускание <td/E возрастает в точке минимума почти в два раза по сравнению с обычной фотометрией. Ошибка измерения фотометрического метода выше, чем ошибка гравиметрии и титрования (ср. примеры [4.4] или [4.5]). Поэтому фотометрию применяют главным образом для определения малых концентраций, так как в этой области большая ошибка не имеет такого значения, как при анализе больших концентра- ций. В этой области применения фотометрия работает тем лучше, чем большая часть цветообразующих реакций дает очень'Интенсивно окрашенные соединения.
74 Глава 4. Закон сложения ошибок Отсюда, однако, не следует, что надо вовсе отказаться от попыток использова- ния фотометрии для определения средних и высоких концентраций, особенно там, где другие методы требуют значительных затрат (например, разделения) и поэтому могут оказаться ненадежными. Правда, при фотометрическом опреде- лении основных компонентов нужна специальная техника анализа, особенно по возможности более точное измерение величины < <т/0). 4.6. Косвенные методы В некоторых случаях на измеряемые величины, необходимые для определения анализируемого вещества, влияют сопутствующие компоненты. Причинами это- го могут быть либо плохо подобранные условия измерений, либо недостаточная селективность хода реакций (см. также разд. 10.3). Из-за этого на сигналы анализируемого вещества налагаются сигналы сопутствующих компонентов. В таком случае искомые результаты для анализируемого вещества удается полу- чить только из комбинации нескольких измеренных значений [4, 5]. “Косвенные” методы известны для всех широко распространенных методов определений, та- ких, как гравиметрия, объемный анализ, фотометрия и т. д. В простейшем случае искомую величину получают как разность двух ре- зультатов анализа (например, в методе обратного тйтрования). Если нужно определить совместно без разделения два или несколько элементов, то в п- компонентной смеси проводят п независимых анализов, по ним составляют си- стему уравнений с п неизвестными, решение которой дает искомое содержание отдельных компонентов. Особенно часто используют методы с обратным титрованием избытка раство- ра. Концентрацию в таком случае находят по уравнению р(%) = 100(/i&it>i - /2fc2v2)/e (4.23) При этом величины «х и v2 получают как разности двух измерений объема. Надо полагать, что оба стехиометрических коэффициента примерно равны по величине к &2) и что Д = /2 = 1, 000. Тогда по уравнению (4.3а) для ошибки разности объемов AV — — V) получают Если ошибка определения титра мала по сравнению с ошибками определения объема и навески, то для ошибки определения концентрации Общая ошибка несколько увеличивается по сравнению с ошибкой прямых измерений, так как ошибка объема умножается на \/2. Для сохранения малой ошибки надо стремиться к возможно большей разности объемов Av. [4.8] При объемно-аналитическом определении препаратов ацетилсалициловой ки- слоты (Медикус и Петту [13]) прежде всего эта кислота нейтрализуется щелочью.
4.6. Косвенные методы 75 + NaOH + НгО Затем добавляют избыток щелочи (щ) и опыляют при кипении в соответствии с уравнением ^'''X-ONa + CH3COON0 Избыток щелочи оттитровывают кислотой («г)- При навеске е « 400 мг и при содер- жании ацетилсалициловой кислоты примерно 100% получают щ = 30 мл и «г = Ю мл. Исходя из предположения, что нейтрализация прошла правильно, по уравнению (4.24) получают 7 = ^)"И^)2-мюбго'36% > Следовательно, при подходящем выборе измеряемых величин дифференциальным методом можно получить достаточно малую ошибку измерения. Такая малая ошибка в примере [4.8] получается благодаря правильному вы- бору измерений. Если при постоянной навеске расход жидкости Ди уменьша- ется, то общая ошибка очень быстро растет. При разности объемов Ди = 5 мл ошибка получается около <тр/р яа 1,5% (отн.) и, следовательно, результаты ока- зываются уже весьма неточными. Особенно часто для анализа смеси веществ применяют фотометрические определения. Следует всегда пользоваться этой методикой, если при данной длине волны А свет поглощается более чем одним компонентом. Тогда измеря- ют суммарную экстинкцию п компонентов при п различных длинах волн. При известном коэффициенте экстинкции г(А) для чистых веществ и данной толщи- ны слоя I можно составить систему из п уравнений. Для простейшего случая, когда система состоит из двух компонентов А и В, получают = Е' — ё'дСА + EjjCb E7(A2)/Z = Е" = фА + фв ' (4.25) Искомые концентрации сА и св находят решением этой системы уравнений следующим образом: _Е'е£-Е"е'в _ Е"е'а-Е'е£ А е1 е" — е' е" ’ СВ е' е" — е' е" (4-26) еАеВ еВеА £А£В еВеА Результаты анализа сд и св вычисляются на основании двух объединенных, содержащих каждое свои ошибки измерений. Для вычислений концентраций на-
76 .Глава 4. Закон сложения ошибок 3 2 1 Д Л-тах (в единицах ДЯ7/2)-•> Рис. 4.3. Относительное увеличение случайной ошибки в зависимости от степени на- ложения $ и от расстояния до максимума сигнала ДАтах. до иметь четыре константы (в противоположность прямому методу, когда нуж- на только одна). Определение всех измеряемых величин должно проводиться с особой тщательностью; это касается и экстинкции, и особенно коэффициента экстинкции. Систематическая ошибка любой из этих величин проявляется как систематическая ошибка и сд, и св- Из уравнения (4.26) получают случайную ошибку для концентраций сд и св с помощью равенства (4.2) в виде = Уев+£в2 сд |Е'е£-Е%| * ^св = х/е'д + ^д2 св |Е"е'а-Е'еХ| У (4-27) Для е'ъ — 0 и еа = 0 равенство (4.26) переходит в соотношение сгс/с = <те/Е, верное и для прямого определения. В качестве приближенных берут аналогичные величины (Е' ~ Е") и анало- гичные коэффициенты экстинкции (еа яа Eg) в точках максимумов полос (спек- тра). Тогда отношения _ <те \Z£2 + 1 ~ е 1-е (4.29) Е' и (4.28) £а £а можно рассматривать как меры наложенности этих полос. Следовательно, °~сд ~ о-Е СА ~ Е |еХ-^| °>в ~ + £А2 СВ ~ Е |Eg -EXI С увеличением степени (рис. 4.3). Особенно хорошо это заметно при малых концентрациях одного из Двух компонентов. Поэтому для косвенного анализа крайне важно, чтобы оба компонента имели примерно равные доли. Для косвенных методов анализа многокомпонентных систем все эти рассу- ждения очень важны. Вообще косвенные методы должны применяться только наложения быстро растет случайная ошибка
4.7. Дискретные (счетные) методы 77 тогда, когда для данного случая- нет прямого метода (даже включающего опера- цию разделения). Число компонентов должно быть минимальным (иногда один или несколько компонентов можно определять отдельно). Длину волны измере- ния следует выбирать по минимальному наложению и максимальной разности коэффициентов экстинкции. Вообще при косвенных методах особенно важно еще до проведения анализа иметь четкое представление об оптимальных усло- виях измерения. 4.7. Дискретные (счетные) методы Счетные методы анализа, такие, как радиометрия или рентгеноспектроскопия с непосредственным измерением, всегда имеют большое значение в аналитиче- ской химии. Аналитические данные — искомое содержание пробы — получают, считая дискретные величины (например, импульсы). Этот подсчет повторяют несколько раз, и отдельные числовые значения усредняют: х. Чтобы эти ве- личины можно было сравнить между собой, их чаще всего относят к единице времени, например к минуте. Если в течение Т минут измерили всего х импуль- сов, то для частоты импульсов получают (имп./мин): v = х/Т (4.30) Для определения частоты импульсов можно либо получить число импульсов в заданное время, либо задать число импульсов, а затем измерить необходимое время. Первый метод называется методом постоянного времени, второй — ме- тодом постоянного числа импульсов. Последовательность дискретных величин чаще всего следует распределению Пуассона (см. разд. 3.2). При помощи соотношения tr « V? [уравнение (3.14)] можно легко оценить относительную ошибку числа событий. Она равна [4.9] Число импульсов радиоактивного препарата надо найти с точностью не менее 0,01 = 1% (отн.). Для среднего х, полученного из серии измерений, по уравнению (4.31) имеем Отсюда следует 'х = 10 000. Значит, необходимо по меньшей мере 104 импульсов для достижения требуемся точности 1% (отн.). Требуемую в уравнении (4.30) частоту импульсов и получают из разноси частот для системы препарат + подложка и для подложки, и, следовательно, v — vp — i>u (4.32 где vp — частота импульсов системы препарат + подложка, ь-ц — частота им пульсов подложки. Если обе величины i/p и mj определяют в заданное время Т (постоянное вре мя), то р = хр(Т — хр/Т = х[Т (4.33
78 Глава 4. Закон сложения ошибок Так как оба значения получены за одно и то же время счета Т, можно брать число импульсов непосредственно как измеряемую величину. Уравнение (4.32) переходит в х = хр - ху (4-34) где хр — число импульсов системы препарат + подложка, ху — число импуль- сов подложки. Из уравнения (4.34) по закону сложения ошибок [уравнение (4.3а)] и с учетом a « [уравнение (3.14)] получаем <тх = \Jap + ffy = у/*р + ху (4.35) Частоту импульсов Ру можно задать как долю величины рр: PU = (£ < 1) (4.36) Если выбран метод постоянного времени, то агу = (хр Подставим это соотношение в уравнение (4.35) и получим относительную ошибку определения числа импульсов для метода постоянного времени: <Гх _ \/(1 + £) х ~ V^F(1 (4-37) При выборе постоянного числа импульсов хр = ху = х*. Тогда измеряют времена Тр, Ту, требуемые для получения этого числа импульсов, и, пользуясь уравнением (4.30), находят частоту импульсов. Уравнение (4.32) переходит в Хр ху _ "7b ” V = Рр — Ру = 2_____1_\ Тр Ту) (4.38) В уравнении (4.38) l/Тр 1/7Ъ, поэтому расчет ошибки ведется по уравне- нию (4.2). Зная, что <т = получают a + + ' 14 391 " ~ \ т? + Т? ~ \ т? + Т? (4-бУ) V 1и у £р 1и Снова выразим частоту импульсов ру как долю Рр [аналогично уравнению (4.36)]. Если выбран метод постоянного числа импульсов, то верно соотношение Ти QTp Подставляя это соотношение в уравнение (4.39), при хр = ху = х* найдем относительную ошибку частоты импульсов для метода постоянного числа им- пульсов: Уг (1 - е) (4.40) Для сравнения относительных ошибок метода постоянного времени и метода постоянного числа импульсов найдем их отношение, используя уравнения (4.37)
4.8. Пробоотбор 79 Рис. 4.4. Отношение ошибок двух методов измерения (постоянного времени и постоян- ного числа импульсов в зависимости от соотношения числа импульсов для подложки и препарата (Бирке и Браун [2]). и (4.40). Если обозначить ошибку метода постоянного времени индексом Т, а ошибку метода постоянного числа импульсов индексом п, то при (хр)т = (ж*)п (<Гх/х)т (<Ту / 1/)п /1 + £ у i + £2 (4-41) Это частное зависит только от соотношения чисел импульсов, полученных для системы препарат + подложка и для одной подложки. Если при постоян- ном времени для системы препарат + подложка и для подложки подсчитыва- ется примерно то же число импульсов, что было задано при постоянном числе импульсов [(гр)т’ = (ж* )п], то ошибка метода постоянного времени всегда будет немного больше, чем ошибка метода постоянного числа импульсов. За эконо- мию времени, полученную благодаря более быстрому счету импульсов подлож- ки, приходится расплачиваться увеличением случайной ошибки. Графическое представление уравнения (4.41) показывает (рис. 4.4), что повышение случай- ной ошибки метода постоянного времени определяется отношением измеряемых частот импульсов ир и up. В самом неблагоприятном случае (£ ~ 0,4) при (хр)т = (ё*)п метод постоянного времени дает случайную ошибку примерно на 10% (отн.) больше, чем метод постоянного числа импульсов. Счетные методы анализа, особенно методы радиохимии, имеют широкое при- менение. Их можно использовать как для определения малых и очень малых концентраций, так и для анализа основных компонентов. Такая широта возмож- ностей применения требует, чтобы ошибка измерения этого метода тщательно обсуждалась в каждом конкретном случае для выбора оптимальных условий измерения. 4.8. Пробоотбор Задача отбора и подготовки проб заключается в получении относительного ма- лого количества вещества зачастую из огромного исходного материала, причем
80 Глава 4. Закоя сложения ошибок так, чтобы это малое количество смогло обеспечить основу для анализа. Проба только тогда считается взятой правильно, когда она представляет весь материал, подлежащий проверке. При количественном анализе это означает, что процент- ный состав взятого материала идентичен процентному составу анализируемой пробы. Хотя аналитик с большой тщательностью проводит сам анализ, иногда он уделяет недостаточно внимания безупречному отбору проб. Результаты в та- ких случаях оказываются заведомо ложными. Поэтому важно выяснить, какие общие закономерности надо соблюдать, чтобы аналитик получил действитель- но репрезентативную (т. е. представительную, соответствующую фактическому содержанию вещества) пробу. Из жидкостей и газов отбор проб в общем прост. Однако надо помнить о возможных явлениях расслоения (по плотности). Сложнее дело обстоит с от- бором проб твердых веществ. Выбранный для анализа материал чаще всего представляет собой гетерогенную смесь разнородных компонентов. Если не рас- сматривать особых случаев, как, например, исследования месторождений, то интересующие нас компоненты распределены в общем объеме пробы случайно. Вследствие зернистости материала при отборе пробы рискуют получить слишком большую или слишком малую долю того или иного компонента. Поэтому при повторном отборе пробы получаются несколько различного состава. Обусло- вленную этим ошибку пробоотбора ар при определенных идеальных условиях можно оценить. Для смеси двух компонентов, например руды и пустой породы, согласно Бауле и БеНедетти-Пихлеру [1], справедливо следующее уравнение: <тр qd^d-2 /а , _ , . у = йо^Уа(10М'-^’ (4Л2> где х — среднее содержание руды в смеси в %, di, d? — плотности руды и породы соответственно, d — плотность пробы, q — содержание металла в чистой руде (%), е — количество вещества, использованное для анализа (г), а — средний диаметр частиц (см). При составлении этого уравнения предполагалось, что все частицы пробы имеют одинаковый объем. Поскольку в большинстве случаев это не так, надо брать объем частиц а3 таким, чтобы масса всех частиц размером меньше а соста- вляла около 75%. Из уравнения (4.42) видно, что ошибка отбора пробы растет с ростом содержания металла в чистой руде и с увеличением размера частиц, а также с уменьшением содержания руды и уменьшением навески используе- мой пробы. Если ошибка отбора пробы должна лежать в заданных пределах, то пробу надо брать тем большего объема, чем более крупнозернист исходный материал. Кроме этого уравнения (4.42), предложенного Бауле и Бенедетти-Пихлером, в литературе упоминаются и иные попытки оценить ошибки пробоотбора [12]. Особенно достойна упоминания номограмма для отбора проб, предложенная Ги [6]. Она позволяет найти следующие величины: ~ необходимый минимальный вес пробы, если даны диаметр самых больших частиц руды и ошибка пробоотбора; ~ необходимый размер частиц, до которого надо .затем измельчить руду, чтобы не превысить допустимой ошибки пробоотбора; - относительную ошибку, с которой следует считаться при отборе пробы, если известны количество пробы и наибольший диаметр частиц данного образца РУДЫ.
4.8. Пробоотбор 81 Подход к решению всех этих задач основан на многочисленных очень сильно идеализированных предположениях о содержании частиц и распределении их по размерам. Поэтому в общем он не приводит к разумным оценкам при вычисле- нии ошибки пробоотбора. В связи с этим целесообразно рекомендовать обрат- ный путь, а именно производить отбор проб исходя из практического опыта, а затем проверять результаты такого отбора статистически. Для этого с помощью однофакторного дисперсионного анализа (см. разд. 8.2), пользуясь специально поставленными для этого экспериментами, находят ошибку отбора пробы ар [3]. По предположению Томплинсона [14] отбор пробы можно считать безукоризнен- ным, если его ошибка составляет примерно четыре пятых общей ошибки. Отобранную пробу надо еще препарировать в соответствии с требованиями, предъявляемыми при анализе. Для этого зернистость и объем пробы уменьша- ют и размельчением, и последующим делением общего объема пробы на части. При этом количества пробы, остающиеся на отдельных стадиях измельчения, должны относиться как кубы размеров частиц (размеров отверстий сита). Чем меньше отобранный объем пробы, тем тоньше должно быть измельчено вещество. Из готовой пробы берут наконец ту или иную навеску для анализа. При этом опять возникают те же самые проблемы отбора пробы из первоначально отобранного материала. Дробление анализируемой пробы должно быть поэто- му достаточно тонким, чтобы гарантировать ее правильность. Это требование особенно критично во всех методах, которые имеют дело с малыми навесками твердых веществ (например, микроанализ, спектральный анализ и т. д.). Небла- гоприятно для анализа, если оба компонента имеют очень разную плотность или если один из них резко преобладает. [4.10] Альтенбергскую оловянную руду можно считать смесью пустой породы и ру- ды в форме касситерита. Из уравнения (4.42) следует, что эта руда не очень пригодна для спектрохимического анализа с малой навеской. Разница в плотности между рудой (</1 = 6, 9 г/см3) и породой (</г = 2,7 г/см3) относительно велика, а среднее содержание руды (х = 0,4%) и полезное количество вещества (е и 0,005) г оказываются очень малыми. В соответствии с этим ошибку отбора пробы по уравнению (4.42) можно со- хранить в требуемых пределах только для тонко измельченной пробы. Как следует из рис. 4.5, средний диаметр частиц должен достигнуть примерно 0,0005 см, если мы хотим, чтобы ошибка отбора пробы была порядка 1%." Выполнить это требование в данном случае непросто, так как касситерит тверд и в сравнении с породой менее хру- пок. Подобные вопросы правильного пробоотбора играют более или менее важную роль во всех методах анализа, где исследуются непосредственно твердые пробы. Сильно негомогенные пробы (например, руды металлов) можно надежно анали- зировать, только переводя в раствор достаточно большую навеску и исследуя этот гомогенный раствор (см. пример [8.1]). Для каждого метода анализа важно знать суммарную общую ошибку, скла- дывающуюся из ошибки пробоотбора и ошибки анализа. Особенно рекомендует- ся выяснять, при каком методе анализа удается минимизировать общую ошибку а. Если берут m проб одного и того же вещества и каждую из этих проб анали- зируют n-j раз, то дисперсия получаемого среднего определяется выражением 2 2 0-2 = + Sa. (4.43) m тп3 где ар — ошибка пробоотбора, а а —Ъщибка анализа.
82 Глава 4. Закон сложения ошибок 0,0001 0,001 см 0,01 a------ Рис. 4.5. Ошибка отбора пробы при спек- трохимическом анализе альтенбергской оло- вянной руды в зависимости от диаметра час- тиц. Ошибку пробоотбора можно выразить как долю ошибки анализа. Тогда Отсюда получается: 2 2 <г* 2 = = А£ + В (4.44) т тп, Общая дисперсия о-2 также линейно зависит от отношения частных диспе- рсий Ор/бд. При заданном числе анализов п = тп} величина «г2 мала, когда т максимально велико. Другими словами, это значит, что следует брать возмож- но, большее число проб. А чтобы при этом сохранять в приемлемых пределах издержки производства, можно сократить число параллельных определений. [4.11] Вместо того чтобы провести по три определения трех проб одного и того же вещества (т = 3; п} = 3; п = 9), целесообразно взять четыре пробы и анализировать каждую только по два раза (т = 4; п3 = 2; п = 8). Из рис. 4.6 следует, что, хотя объем работы при этом сокращается, уменьшается и случайная ошибка. При одинако- вой величине ошибок отбора проб и ошибок анализа можно уменьшить общую ошибку анализа и при п = 5, беря пять проб т = 5 и анализируя каждую только по одно- му разу. Несмотря на значительно меньшие затраты времени, воспроизводимость не ухудшается. Правда, надо иметь в виду, что при одном анализе в какой-нибудь пробе появляется опасность пропустить грубую ошибку. Вытекающее из уравнения (4.44) требование согласуется с практическим опы- том отбора проб, когда для негомогенных материалов предпочитают иметь дело с множеством малых проб, а не с малым числом больших. При этом надо брать пробы одинакового объема. Все приведенные здесь закономерности применяют в каждом конкретном слу- чае с учетом поставленной задачи. Нужно иметь в виду природу исследуемых веществ и требуемую информацию. Так, надо различать, проверяют ли с по- мощью анализа качество воздуха на рабочем месте или для контроля качества
Литература 83 Рис. 4.6. Влияние ошибки отбора про- бы и ошибки анализа на общую ошибку И- отбирают пробы из газового потока. Только учет общих и частных закономерно- стей приведет к тому, что результат анализа исследуемого вещества, получаемый с затратой большого труда, будет отражать действительное положение вещей. Литература 1. Saule В., Benedetti-Pichler A. Zur Probenahme aus kornigen Materialien. — Z. anal. Chem., 74 (1928) 442. 2. Birks L. S., Brown D. M. Precision in X-Ray Spectrochemical Analysis. — Fixed Time vs. Fixed Count. — Anal. Chem., 34 (1962) 240. 3. Doerffel K. Beurteilung von Analysenverfahren und-ergebnissen. — Z. anal. Chem., 185 (1962) 1/98. 4. Fuchs P. Einheitliche Gestaltung indirekter Analysen nach typischen Grundformen. — Angew. Chem., 54 (1941) 512. 5. Gorhch P. Die richtige Fehlerberechnung und die Vertrauensgrenze indirekter Analysen. — Z. anal. Chem., 179 (1961) 266. 6. Gy P. Probenahmediagramm. — Erzmetall, 9 (1956) 237. 7. Jander G., Jahr W. Massanalyse. 15. Aufl. Berlin/New York Verlag Walter de Gruyter and Co, 1989. 8. Johnson R.A., Graham С. B. (Jr). Reproduzierbarkeit analytischer Waagen. — Anal. Chim. Acta (Amsterdam), 12 (1955) 408. 9. Kolthoff J. H., Stenger V. A. Massanalyse. New York: Intersci. Publ. Com. 1942. 10. Linder L., Halswanter F. Der Nachlauffehler von Biiretter — Angew. Chem., 42 (1942) 821. 11. Липатов С. M. Физикохимия коллоидов. — M. — Л.: Госхимиздат. 1948. 12. Malissa Н. Z.anal. Chem., 273 (1973) 449. 13. Medicus M., Poethge W. Massanalyse. Dresden: Verlag Th. Steinkopff, 1952. 14. Tomihnson R. C. Sampling.-In: Wilson C. L-, Wilson D. W. Comprehensive Analytical Chemistry. Elsevier Publishing Comp. 1960, 15. Doerffel K., Eckschlager K., Henrion G. Chemometrische Strategien in der Analytik. Leipzig: Deutscher Verlag fur Grundstoffindustrie, 1990.
84 Глава 4 Закон сложения ошибок 16 Zollner Н Die Genauigkeit gemessener Werte und die Gausssche Fehlerberechnung — Ber dtsch keram Ges , 28 (1951) 492 Дополнительная литература Bartscher E Numensche Endpunktoetimmung bei unsymmetnschen potentiometnschen Titrationskurven — Z anal Chem , 297 (1979) 132/137 Donn J J, Wolke R L The practical design and statistical interpretation of background- dominating counting experiments-Radiochem , Radioanal Lett , 25 (1976) 57/66 Jochum C , Jochum P , Kowalski В J Error propagation and optimal performance in multicomponent analysis -Anal Chem , 53 (1981) 85/92 Jonsson J A , Vejrosta J , Novak J Systematic Error occunng with the use of gassampling loop injectors in GLC — J Chromatogr , 236 (1982) 307/312 Lam R В , Isenhour T L Minimizing relative error in tne preparation of standard solutions by judicious choice of volumetric glass-ware —Anal Chem 52 (1980) 1158/1161 Liteanu C , Rica I, Liteanu V On the confidence interval on the equivalence point in linear titration — Taianta, 25 (1978) 593/596 Molch D , Konig H , Than E Auswertung photometnscher Simultanbestimmungen von Zweikomponentensystemen — Z Chem , 16 (1976) 109/111 Mosescu N, Kalmutchi G Graphische Methode zur Bestimmung der Konzentration zweier Komponenten — Rev Chim (Bukarest), 27 (1976) 789/890 Olin A , Wallen В On the accuracy of acid-bace-determinations from potentiometric titrations, using only few points from the titration curve - Taianta, 24 (1977) 303/308 Puxbaum H Probenahme von atembaren und lungengangigen Staubimmissionen zur integnerten Staubanalyse — Z anal Chem , 298 (1979) 110/122 Schwarz L M Statistical uncertainties of analysis by calibration of counting measurements — Anal Chem , 50 (1978) 980/985 Schwarz L M , Gelb R I Statistical analysis of titration data — Anal Chem , 50 (1978) 1571/1576 Still E R Statistical adjustment of parameters for potentiometric titration data — Taianta, 27 (1981) 573/582 Tommgas R Remarks on the samplung procedures for polycyclic aromatic hydrocarbons from the atmosphere — Z Anal Chem , 297 (1979) 97/101 Youmans M L , Brown V H Selection of optimum ranges for photometric analysis — Anal Chem 48(1976) 1152/1155 Gerhard W Steckenreuther I\ Wieland G Greater Analytical Accuracy through gravimetric determination of Quantity —Z anal Chem 334 (1989) 534/539 Brown C W Multicomponent Quantitative Analysis — Appl Spectrosc Rev , 20 (1984) 373/418
5 Случайные ошибки методов анализа Для решения конкретных задач аналитик должен выбрать подходящий метод анализа. Наряду с оценками затрат времени, требуемого оборудования, стои- мости и т. д. вопрос о случайной ошибке метода часто играет решающую роль. Опытный аналитик обычно может качественно охарактеризовать эффективность выбранных методов. Он, например, знает, что при объемно-аналитическом опре- делении цинка очень часто появляется большая ошибка, если определение за- канчивается обычным титрованием, а не потенциометрически. Однако точные данные о случайной ошибке не могут дать ни большой опыт, ни общая оценка метода. Искомую однозначную характеристику случайной ошибки метода анализа позволяют найти описанные ранее меры разброса, особенно стандартное откло- нение (см. разд. 2.2.2). Поэтому надо выяснить, как можно найти эти величи- ны в конкретных условиях аналитической химии — малое число параллельных определений проб различного содержания. Далее, интересно обсудить вопрос о распространимости полученных данных, о возможности их обобщения и рассмо- треть условия, при которых должны производиться измерения. 5.1. Вычисление стандартного отклонения Для вычисления стандартного отклонения нужен какой-то набор эксперимен- тальных данных. Приходится предположить, что на них влияет только слу- чайная ошибка метода, не имеет места негомогенность проб и не играют роли ошибки, обусловленные личностью аналитика и лаборатории. Тогда разброс внутри распределения частот определяется только случайной ошибкой метода анализа, а ее можно характеризовать, задавая параметр <т — стандартное от- клонение. Учитывать негомогенность проб можно при помощи однофакторного дисперсионного анализа (см. гл. 8). Влияние особенностей работы лабораторий и лаборантов можно определить по Морану [1], используя предложенную им детальную схему эксперимента, см. также [2]. На практике аналитик никогда не располагает требуемым числом измере- ний. Поэтому вместо стандартного отклонения <г он получает только его оценку s. Расчет стандартного отклонения по уравнению (2.5) чаще всего приводит к затруднениям, так как обычно для одной пробы редко проводят больше трех па- раллельных определений. Однако можно использовать результаты многократ- ного анализа проб различного содержания. Из их частных стандартных откло- нений Sj усреднением вычисляют общее стандартное отклонение s. Если взято т проб и для каждой из них сделано п} параллельных определений, то получается следующая схема.
86 Глава 5 Случайные ошибки методов анализа Номер пробы . Номер измерения 1 2 % ... пз 1 *11 4 £12 .. х1з ... 2 Х21 £22 .. х2] ... j 1 Х32 . x)t . . . m Стандартное отклонение s (и соответственно дисперсия s2) получается из выражения s2 _ 5i(ni ~ !) + яг(п2 - 1) + + - 1) _ ~ (ni - 1) + (п2 - 1) + ... + (nm - 1) п - т П*!. - *!)2 + Е(*2. - *2)2 + • + £(*,» - Ъ )2 п — т s = у п — т со степенями свободы f — п — т. Здесь п — общее число всех анализов, т — число проб Вариант уравнения (5.1), приведенный в квадратных скобках, удобен для ра- боты с микрокалькулятором, обеспечивающим статистическую обработку дан- ных. Вообще уравнение (5.1) применимо, только если стандартное отклонение не зависит (или зависит несущественно) от содержания пробы. Это можно быстро оценить по размаху [уравнение (2.9)]. А более точно можно проверить с помо- щью х2-критерия (разд. 7 3). Во многих случаях в рабочем диапазоне постоянно относительное стандартное отклонение. Тогда его вычисляют после логариф- мического преобразования значений (см. пример [5.4]). При малых случайных ошибках [s0TH =0,10=10% (отн.)] уравнение (5.1) можно применять с относитель- ным отклонением (xtJ — afj/x, [5.1] Содержание марганца в пяти разных пробах стали было определено методом Проктера и Смита. По результатам получено стандартное отклонение метода. При вычислениях используется описанное выше (см. пример [2 6]) преобразование. В дан- ном случае случайную ошибку вычисляют для каждой пробы отдельно, поэтому для разных проб можно использовать разные преобразования. При этом важно лишь со- хранить один и тот же порядок величин. Результаты анализа, Размах % Мп Rj 0,31 0,30 0,29 0,32 0,03 0,59 0,57 0,58 0,57 0,02 0,71 0,69 0,71 0,71 0,02 0,92 0,92 0,95 0,95 0,03 1,18 1,17 1,21 1,19 0,04
5.1. Вычисление стандартного отклонения 87 Размах R проявляет очень слабую зависимость от измеряемой величины. Таким образом удовлетворяется условие применения уравнения (5.1). Преобразование Преобразованные значения Хи-100х„- 30 + 1 0 -1 +2 X2i=100x2i- 58 +1 -1 0 -1 X3i=100x3, - 70 +1 -1 + 1 + 1 Х4, = 100х4,- 93 -1 -1 +2 +2 = 100x5i - 119 -1 -2 +2 0 При подсчете отдельных сумм квадратов по уравнению (2.6а) получается Y.(.X1,-Xi)1 = l1 + 01+li + 21-2i/4= 5 Е(Х2,-Х2)2 = 12+12 + 02+12-12/4 = 3 £(Х3(-Х3)2 = 12+12 + 12+12-22/4 = 3 £ (Х4/ - X,)2 - I2 + I2 + 22 + 22 - 22/4 = 9 £(Х5,-Х5)2 = 12 + 22 + 22 + 02 - 12/4 = 9 ЕЕ(^-хр2 = 29 При п = 20 (общее число определений) и т — 5 (число проб) имеем После обратного преобразования, которое не Считывает смещение начала отсчета Х,} — X,, получим 4 = 0, 014 ~ 0, 01%Мп (абс.) при f = 15 степенях свободы. Часто число параллельных определений при всех т пробах одинаково. Тогда имеем Гц = Иг = ... = 1 а также fi = f2 = ... = f. В таком случае можно преобразовать уравнение (5.1) следующим образом: 8 = (5.1а) Эта форма уравнения имеет преимущества при работе с микрокалькулято- ром, обеспечивающим статистическую обработку данных. [5.2] При оценке результатов из примера [5.1] по уравнению (5.1а) получим з? = 0,000 166 7 si = 0,000 091 7 4з = 0,000 100 о з4 = 0,000 300 о 45 = 0,000 291 7 4 = 0,000 950 1 „ „ ---------- = 0, 014% □ Обычно принято проводить два параллельных определения, получая для ка- ждой пробы два значения Если х' и х" — два результата, относящиеся к одной пробе, то для суммы квадратов можно написать: Г -1 “ 2 QS — х‘ 2 + х' ,11x2 2 2
88 Глава 5. Случайные ошибки методов анализа. Если исходят из уравнения (5.1), то при m пробах и п = 2m анализах общее стандартное отклонение получается в виде S = V п — m (5-2) при f = m степенях свободы. Еще можно проверить, не проявляют ли значимого различия оценки случай- ной ошибки разных проб. [5.3] При фотометрическом анализе хрома в стали были проведены двукратные определения десяти проб с разным содержанием. Из найденных значений х'} и х" (в %Сг) стандартное отклонение подсчитываем по следующей схеме: Проба xj у" XJ х) х" (х;-х/)2 1 3,77 3,75 0,02 0,0004 2 2,52 2,55 0,03 0,0009 3 2,46 2,48 0,02 0,0004 4 3,25 3,20 0,05 0,002 5 5 1,82 1,85 0,03 0,0009 6 2,05 2,10 0,05 0,002 5 7 0,88 0,90 0,02 0,0004 8 1,04 1,02 0,02 0,0004 9 1,10 1,13 0,03 0,0009 10 1,52 1,48 0,04 0,0016 Е(х)-х)')2 = 0,0109 Отсюда находим стандартное отклонение по уравнению (5.2). 0,0109 20 з = = 0, 023 = 0, 02%Сг (абс.) при f = 10 степенях свободы Для логарифмически нормального распределения стандартное отклонение подсчитывают по логарифмам результатов измерений. Часто так подбирают метод анализа, что потенцирование происходит автоматически (например, при логарифмическом масштабе на оси концентрации градуировочной кривой). В таких случаях для статистической оценки результатов надо вернуться к лога- рифмам. При этом обычно берут четырех-, реже трехзначные таблицы логариф- мов. А стандартное отклонение тогда подсчитывают для логарифмов описанным способом. Это логарифмическое стандартное отклонение sig представляет собой оценку параметра &ig в логарифмически нормальной генеральной совокупности. В практических целях оно не применяется. При потенцировании получают асим- метричное распределение (см. рис. 2.4), параметр которого <т нельзя оценить по тем значениям, для которых вычислялось sjg. Поэтому стандартное отклонение sig используют раздельно для возрастающих и убывающих значений. При этом +s(9 = lg( 1 + s/x) и — sig = lg[l/(l + s/x)]. Ошибка для высоких содержаний все- гда больше, чем для низких, однако практически это заметно лишь при ошибках более 10% (отн.) (см. с. 32). Результат дается в виде относительной ошибки.
5.1. Вычисление стандартного отклонения 89 [5.4] При спектрохимическом анализе бедных оловянных руд для четырех разных проб получены следующие результаты (%Sn): Проба 1 Проба 2 Проба 3 Проба 4 0,095 0,14 0,38 0,80 0,120 0,18 0,44 0,70 0,080 0,16 0,31 0,84 0,107 0,21 0,36 0,95 Учитывая логарифмически нормальное распределение (см. пример [2.3]), эти зна- чения преобразуем в логарифмы. Затем считаем стандартное отклонение по формуле (5.1), как в примере [5.2]. Получаем следующую схему: Проба 1 Проба 2 Проба 3 Проба 4 -1,0222 -0,8539 -0,4202 -0,0969 -0,9208 -0,7447 -0,3565 -0,1549 -1,0969 -0,7959 -0,5086 -0,0757 -0,9706 -0,6778 -0,4437 -0,0223 Логарифмические стандартные отклонения проб 0,07526 0,07491 0,06283 0,05485 У отдельных логарифмических стандартных отклонений практически нет никаких зависимостей от данных. Поэтому по уравнению (5.1а) получаем s = /о, 01823/4 = 0, 0675 Потенцирование дает 4-0, 0675 = 1g 1,168 и —0, 0675 = 1g 0, 856. Относительное стан- дартное отклонение таким образом составляет 0, 86 ... 1,17= — 14% ... 4- 17%) с Е = 12 степенями свободы. Приближенная оценка стандартного отклонения s возможна с помощью раз- маха R. По уравнению (2.9) R = ^тах — ^тт Если для тп проб проведено одинаковое число повторных определений nj, то можно усреднить полученные размахи: R = ^R}/m (5.3) Если можно предположить нормальное распределение, то между средним размахом R и стандартным отклонением s существует приближенное соотноше- ние R Числовые значения для с?(п^) надо брать из табл. 5.1. Число степеней свобо- ды f для этого приближенно вычисленного среднего стандартного отклонения зависит от числа параллельных определений и числа исследуемых проб т. Табл. 5.1 показывает, что f здесь всегда меньше, чем при расчете стандартного отклонения по уравнению (5.1). [Эмпирическое приближение: f « 0, §т(п} — 1)-] Это уменьшение особенно значительно для п, > 6 параллельных определений (см. разд. 2.2.2).
90 Глава 5. Случайные ошибки методов анализа [5.5] Для данных примера [5.1] нужно приблизительно оценить стандартное откло- нение по размаху варьирования. Получаем Результаты анализа, Размах % Мп Rj 0,31 0,30 0,29 0,32 0,03 0,59 0,57 0,58 0,57 0,02 0,71 0,69 0,71 0,71 0,02 0,92 0,92 0,95 0,95 0,03 1,18 1,17 1,21 1,19 0,04 Средний размах R = 0,03 Коэффициент d(n}) в уравнении (5.4) берут из табл. 5.1 для п} = 4 и m = 5 и получают d(nj) = 2,10. Отсюда з Я = 0, 014 я 0,01%Мп (абс.) Соответствующее число степеней свободы, найденное из табл. 5.1, равно f — 13,9; оно меньше, чем при подсчете стандартного отклонения из суммы квадратов (/ = 15 в примере [5.1]). (Нахождение стандартного отклонения по размахай для использования в аналитической химии признано недопустимым в соответствии с правилами ЮНАК.) 5.2. Обсуждение Стандартное отклонение характеризует при определенных условиях эксперимен- та случайную ошибку метода анализа общепринятым и ясным образом. Поэтому его постоянно используют для оценки метода анализа. Расплывчатые термины (например, “ошибка метода анализа” или даже “точность метода анализа” или “средняя ошибка” и т. д.) должны исчезнуть из литературы, так как они не удовлетворяют объективным требованиям и Легко приводят к ложным толкова- ниям. Каждое вычисленное стандартное отклонение надо рассматривать как слу- чайную величину, а это значит, что при повторении опыта получаются разные числовые значения s. Поэтому возникает вопрос об ожидаемом максимальном значении при Р. Установление доверительного интервала для оценки s имеет такое же значение, как и построение доверительного интервала для среднего значения х. Если обозначить верхнюю границу такого интервала символом sq, то F — распределение (см. разд. 3.3.2) дает следующее соотношение: Ы«)2 = Е(ЛА = оо,/2 = /) (5.4) При этом / — число степеней свободы соответствующей оценки s. Если обозна- чить
5.2. Обсуждение 91 Таблица 5.1. Зависимость <£(п,) от числа параллельных определений и числа проб при соответствующих числах степеней свободы f (Дэвид [З])1-1 2 3 4 5 т 4(»j) f f <*(»,) f d(Bj) f 1 1,41 1,0 1,91 2,0 2,24 2,9 2,48 3,8 2 1,28 1,9 1,81 3,8 2,15 5,7 2,40 7,5 3 1,23 2,8 1,77 5,7 2,12 8,4 2,38 11,1 4 1,21 3,7 1,75 7,5 2,11 11,2 2,37 14,7 5 1,19 4,6 1,74 9,3 2,10 13,9 2,36 18,4 6 1,18 5,5 1,73 11,1 2,09 16,6 2,36 22,0 7 1,17 6,4 1,72 12,9 . 2,08 19,4 2,35 25,6 8 1,16 7,2 1,71 14,8 2,08 22,1 2,35 29,3 9 1,15 8,1 1,70 16,6 2,07 24,9 2,34 32,9 10 1,14 9,0 1,69 18,4 2,07 27,6 2,34 36,5 mj > 10 1,13 0,88 * /ij 1,69 1,82-Bj 2,06 2,74 * Bj 2,33 3,62 • Bj "J 6 7 8 9 10 m d(Bj) f d(Bj) f (<0»j f f «/(flj) f 1 2,67 4,7 2,83 5,5 2,96 6,3 3,08 7,0 3,18 7,7 2 2,60 9,2 2,77 10,8 2,91 12,3 3,02 13,8 3,13 15,1 3 2,58 13,6 2,75 16,0 2,89 18,3 3,01 20,5 3,11 22,6 4 2,57 18,1 2,74 21,2 2,88 24,4 3,00 27,3 3,10 30,1 5 2,56 22,6 2,73 26,6 2,87 30,4 2,99 34,0 3,10 37,5 6 2,56 27,1 2,73 31,9 2,87 36,4 2,99 40,8 3,10 45,0 7 2,56 31,5 2,73 37,1 2,87 42,5 2,98 47,6 3,09 52,4 8 2,55 36,0 2,72 42,4 2,86 48,5 2,98 54,3 3,09 59,8 9 2,55 40,5 2,72 47,7 2,86 54,5 2,98 61,1 3,09 67,3 10 2,55 44,9 2,72 52,9 2,86 60,6 2,98 67,8 3,09 74,8 m,> 10 2,53 4,47-bj 2,70 5,27 • bj 2,85 6,03 • Bj 2,97 6,76 • Bj 3,08 7,45 • Bj Ч На русском языке см., например, Дэвид Г. Некоторые упрощенные методы проверки гипотез. Гл. 8. — В кн.: Введение в теорию порядковых статистик. Пер. с англ. — М.: Статистика, 1970, с. 94-121. — Прим. ред. ТО so — kqs (5-5) [Числовые значения «о для вероятностей Р — 0,95 и Р = 0, 99 приведены в табл. 5.2.]
92 Глава 5. Случайные ошибки методов анализа Таблица 5.2. Значения ко для подсчета доверительного интервала стандартного отклонения / Р = 0,95 Р = 0,99 1 15,9 80 2 4,42 10 3 2,92 5,11 4 2,37 3,67 5 2,09 3,00 6 1,92 2,62 8 1,71 2,20 10 1,59 1,98 15 1,44 1,69 20 1,36 1,56 30 1,27 1,42 40 1,23 1,34 60 1,18 1,27 120 1,12 1,17 В качестве эмпирического приближения для уравнения (5.5) в диапазоне 4 < f < 15 можно использовать s0«5s/v7 (Р = 0,95) (5.5а) so»6,5s/v7 (Р = 0,99) [5.6] В качестве случайной ошибки определения марганца по Проктеру и Смиту в примере [5.1] было подсчитано стандартное отклонение в = 0,014%Мп при f = 15 степенях свободы. Из уравнения (5.5) и табл. 5.2 при Р = 0, 95 получим верхнюю гра- ницу доверительного интервала So = 1,44з = 0, 020%Мп. При повторном определении s можно ожидать, что 95% всех выборочных значений ст будут ниже 0,020%Мп. Надо стремиться к тому, чтобы стандартное отклонение имело как можно больше степеней свободы. Этого можно добиться объединением измерений рав- ной точности (см. разд. 5.1), полученных для проб одинакового состава (одной серии проб”) и одним и тем же методом анализа. Обоснование для объеди- нения измерений можно вывести из одних только логических причин (свойства исследуемых проб, свойства применяемого метода анализа...). [5.7] При газохроматографическом анализе технического сырья для производства аминопродуктов (полиспиртовая неподвижная фаза) были получены следующие ре- зультаты (соответственно в %):
5.2. Обсуждение 93 МЕА DEA TEA NH3 EtOH Et2O AcN H2O х' 15,59 11,17 10,65 6,29 23,95 1,50 2,39 28,46 х" 15,58 11,19 10,67 6,30 23,90 1,65 2,10 28,69 d, 0,01 0,02 0,02 0,01 0,05 0,15 0,29 0,25 Коэффициент 1,42 1,21 1,26 0,90 1,03 0,59 0,76 0,80 поверхности (МЕА, DEA, TEA — моно-, ди- и триэтиламин, EtOH — этиловый спирт, EtjO — диэтилэфир, AcN — акрилонитрил) Из таблицы видно, что компоненты МЕА... EtOH имеют небольшую случайную ошибку в отличие от остальных трех компонентов Et2O, AcN и НгО. Последние обра- зуют в неподвижной фазе водородный мост и поэтому подчиняются другому механиз- му элюирования. Компоненты, которые ведут себя в газохроматографическом анализе подобно МЕА... EtOH, сохраняют одинаковый порядок величин по содержанию, они имеют и близкие по величине коэффициенты поверхности. Поэтому эти измерения можно объединить и вычислить стандартное отклонение по уравнению (5.2), равное s = 0,02% (МЕА, DEA, TEA, NH3, EtOH) с / = 5 степенями свободы. Чтобы найденное стандартное отклонение полностью характеризовало слу- чайную ошибку метода анализа, должен выполняться ряд предположений. Как уже было отмечено в начале главы, обязательно следует исключить негомоген- ность проб, ошибки, связанные с особенностями лаборатории и персональные ошибки. Каждый отдельный анализ, который должен служить основанием для подсчета s, надо выполнять целиком, включая все повторяющиеся операции, а также операции разделения. Условия, при которых проводится анализ, должны быть четко определены [4]. Если анализ повторно проводится одним и тем же лаборантом, на одном и том же приборе и с одними и теми же вспомогательными материалами, это называют “условиями •воспроизведения”. “Условия сопоставления” имеют ме- сто, когда разные лаборанты в разных лабораториях на разных приборах и с разными вспомогательными материалами получают соответственно одинаковый результат при одном и том же методе проверки одинаковой пробы. Для расчета стандартного отклонения всегда пользуются неокругленными результатами ана- лиза с неточным последним десятичным знаком. Преждевременное округление в большую или меньшую сторону может исказить ошибку метода анализа. При определении стандартного отклонения следует стремиться к тому, чтобы за счет правильной постановки опыта полученная оценка s лежала как можно ближе к а генеральной совокупности. Особое влияние на это оказывает число степеней свободы, связанных со стандартным отклонением. При числе степе- ней свободы, большем, чем f = 30, можно считать, что требование s « для практических целей выполняется (см. табл. 5.2). Во всяком случае, следовало бы — особенно для малых серий измерений — наряду со стандартным откло- нением указывать соответствующее ему число степеней свободы. Только с этим дополнением стандартным отклонением можно воспользоваться в дальнейшем. Стандартное отклонение часто зависит от измеряемой величины и состава пробы (см. табл. 5.3). Стандартное отклонение, полученное для заданного со- держания и определенного состава пробы, нельзя безоговорочно обобщить. При- емлемость стандартного отклонения, полученного соответствующими измерени-
94 Глава 5. Случайные ошибки методов анализа Таблица 5.3. Стандартные отклонения (/ > 50) для методов анализа стали (и — нелегироваииая сталь, содержащая только С, Мп, Si, Р, S; s — низколегированная сталь, Ст 2% и Ni 2%; h — высоколегированная сталь [б]) Элемент Метод Вид пробы Содержание х % Стандартное отклонение (воспроизво- димость) С Объемный Армко- железо 0,015... 0,04 0,08 Сталь u, s, h 0,1...1,1 (2г + 3,8) • 10-3 Сырое железо 1.5... 3,0 0,011 Si Г равиметрический Сталь u, s 0,2... 1,3 (3,6т + 5,3) • 10“3 Мп Титрование Сталь u, s 0,2... 1,5 (2г + 5,6) • 10“3 S Выделение Сталь и 0,006... 0,05 0,0006 Калориметрический Сталь и 0,007... 0,02 0,0005 р Гравиметрический Сталь и 0,01. ..0,06 (120г +3,8) • 10"4 Сг Фотометрический Сталь s 0,03.. .0,1 0,003 Потенциомет- Сталь s 0,1.. ,1,0 0,0006 рический Сталь m“, h 1,0...3,0 0,5% (отн.) 10,0. ..30,0 0,3% (отн.) Ni Гравимет- Сталь s, h 0,1... 2,0 (7,5г +5,5) • 10“3 рическиий 2,0... 10,0 0,5% (отн.) Си Фотометрический Сталь u, s, h 0,1... 0,3 0,005 m — обозначение стали мартенситного класса. — Прим. ред. ями и последующим применением статистической проверки гипотез, надо еще доказать (см. гл. 7). В качестве оценки параметра функции распределения стандартное отклоне- ние почти всегда дается в виде абсолютной ошибки. Однако если относительная ошибка проявляет слабую зависимость от измеряемых величин, то используют ее. (При этом часто применяют коэффициент вариации V = s/x.) Во избежа- ние недоразумений следует обозначать используемый вид ошибок сокращениями “абс.” для абсолютной ошибки и “отн.” и “проц.” для относительной ошибки. [5.8] Для методических исследований были получены стандартные отклонения опре- деления калия по перхлоратному методу и при использовании пламенной фотометрии [5]. Исследование солей калия различного содержания дало следующую картину: Стандартное отклонение Содержание К2О % Перхлоратный метод Пламенная фотометрия абс. проц. абс. проц. 1,5 0,10 6,8 0,02 1,3 15 0,18 1,2 0,15 1,0 40 0,18 0,45 0,45 1,1 50 0,19 0,38 0,57 1,1 90 0,20 0,22 - -
5.2. Обсуждение 95 Таблица 5.4. Стандартные отклонения (абс.) при анализе магниевых сплавов [7] Элемент Метод С оде ржание, % Стандартное отклонение, % А1 Гравиметрический для 0,5 0,005 оксихинолята 8 0,025 Титрование оксихинолятов 8 0,035 As Йодометрическое титрование 0,01 0,00015 Си Электролитический 0,05 0,2 0,0025 0,005 Си Йодометрическое титрование 0,17 0,0015 Фотометрический с диэтил- Дитиокарбаматом 0,02 0,0005 Fe Фотометрический с тиогли- колевой кислотой 0,005 0,0001 К Пламеннофотометрический 0,005 0,00015 Мп Титрование перманганата солью Мора 1 0,01 Фотометрический для 0,005 0,0005 перманганата 0,25 1,3 0,004 0,01 Na Пламеннофотометрический 0,05 0,0025 Ni Фотометрический для диацетилглиоксимата никеля 0,005 0,0001 Р Фотометрический для фос- форномолибденовой сини 0,01 0,0005 Si Г равиметрический 0,2 0,0065 Фотометрический с молиб- деновой синью 0,15 0,0002 Th Фотометрический с торином 2 0,09 Zn Потенциометрическое титрование 5 0,022 (индикатор дифенилбензидин) 2 0,01 Фотометрический (дитизон) 0,02 0,001 Zr Гравиметрический для 0,5 0,01 диоксида циркония 40 0,1 Фотометрический с ализарином S • 0,5 0,008 В перхлоратном методе постоянной остается абсолютная ошибка, а в пламенно фо- тометрическом методе (как и во многих физических методах) постоянна относительная ошибка. Поэтому в первом случае используют абсолютную ошибку, а во втором — от- носительную. Дальнейшее рассмотрение показало, что перхлоратный метод имеет пре- имущество при точном определении высоких концентраций, а пламенная фотометрия дает оптимальные результаты при низких и средних концентрациях. Во многих случаях такой ясной картины, как в примере [5.8], не получается. Поэтому надо определять зависимость стандартного отклонения от измеряемых величин. Существуют различные формы представления этой зависимости. Если
96 Глава 5. Случайные ошибки методов анализа пользоваться табличными данными, важно помнить о возможности линейной ин- терполяции. Нередко записывают функции, показывающие зависимость ошибки от концентрации или от измеряемой величины. Этот вид представления особен- но легко допускает интерполяцию промежуточных значений. Однако важно помнить, что такая функциональная зависимость — это просто эмпирическое соотношение, а вовсе не закон природы. Значения стандартных отклонений при анализе стали приведены в табл. 5.3. Указанные там данные собраны в результате многолетней и очень тщательной исследовательской работы. Все эти данные были получены на основании ста- тистической оценки большого числа анализов, выполненных аналитиками на различных предприятиях в течение нескольких лет. Эти значения справедли- вы только для отмеченных концентраций и марок сплавов. Однако они дают определенные ориентировочные представления об ожидаемой случайной ошибке и при исследовании проб другого рода. Другие значения стандартных отклонений при анализе магниевых сплавов дает табл. 5.4. Эти значения взяты из сборника стандартов анализа манчестер- ской фирмы “Magnesium Electron Ltd”. Литература 1. Moran R. F. Reproduzierbarkeits — und Richtigkeiskontrolle industrieller Proben und Analysen. — Anal. Chem., 19 (1947) 961. 2. Doerffel K. Beurleilung von Analysenverlahren und — ergebnissen. — Z. anal. Chem., 185 (1962) 1/98. 3. David H.A. Further Applications of Range to Analysis of Variance. — Biometrika, 38 (1951) 393. 4. DIN 51848, Priifung von Mineralolen (vgl. Verzeichnis all. gemeiner Vorschriften, c. 248). 5. Knopf A Bewertung und Vergleich zweier fcjO-Bestimmungsverfahren. — Mitt. Kaliind., 4(1961). 6. Doerffel K., Schulze M. Standardabweichungen von Verfahren der Stahlanalyse. — Neue Hutte, 9 (1964) 690. 7. Magnesium Electron Ltd , Manchester, Chemical and Spectrochemical Analysis of Magnesium and its Alloys. Дополнительная литература Bower N. W., Ingle J. D. Precision of Flame-AAS. — Anal. Chem., 51 (1979) 72/76. Drescher A., Kucharski R. Zur Genauigkeit der Vanadiumbestimmung durch volumetrische und coulometrische Titration. — Z. anal. Chem., 298(1979) 144/149. Prudnikow E. D., Bradaczek H., Labschinsky H. Die Berechnung der Standardabweichung in der AAS. — Z. anal. Chem., 308 (1981) 342/346. DIN 55350, Teil 13: Begriffe der Qualitatssicherung und Statistik.
6 Характеристика данных анализа Цель количественного анализа — получение информации о количественном со- ставе исследуемого материала. Чтобы избежать недоразумений при оценке по- лученного результата анализа, следует указать соответствующую ошибку (см. разд. 2.2). Ошибки физических измерений нельзя переносить непосредственно на методы аналитической химии, так как в аналитической химии измерения чаще всего играют второстепенную роль на фоне многочисленных нарушений хода химических реакций. Для характеристики возникающей ошибки может служить доверительный интервал [уравнение (3.11)]. Расчет этой величины для конкретных условий химического анализа и примеры ее применения для описа- ния качества анализируемых продуктов изложены в данной главе. 6.1. Вычисление и обсуждение доверительного интервала В общем случае аналитик может строить свои доказательства только на очень ограниченном числе результатов. Поэтому для расчета доверительного интерва- ла приходится возвращаться к общепринятому /-распределению вместо гауссова распределения. По аналогии с уравнением (3.11) можно вычислить доверитель- ный интервал Дж среднего х. Тогда среднее задается в виде Ж ± t(P> f)s =й± Дд (6.1) Tlj где f — число степеней свободы s, rij — число параллельных определений х. При этом следует предварительно выбрать вероятность Р, определяющую результат вычислений. Требуемые значения /(Р, /) можно взять из табл. А.З. Из уравнения (6.1) следует, что при очень большом числе повторных выборок в 100Р% случаев истинное значение пробы д лежит внутри интервала значе- ний х ± Дж. Поэтому доверительный интервал используют как характеристику ошибки среднего значения х. Кроме того, уравнение (6.1) дает границы, внутри которых лежит истинное значение д, совместимое с найденным средним выборки х. Границы доверительного интервала, заданные уравнением (6.1), справедли- вы только в том случае, когда выполняется /-распределение (а также гауссово распределение). При невыполнении этого условия снижается достоверность су- ждения (см. табл. 3.3). [6.1] При анализе железной руды были найдены следующие значения (%РезОз): 38,71% 38,90% 38,62% 38,74% 38,74% — среднее
98 Глава 6. Характеристика данных анализа Рис. 6.1. Доверительный интервал для среднего значения при s = 1 и Р = 0,95 в зависимости от числа параллельных определений п3 и числа проб т. По уравнению (2.5) находят стандартное отклонение в = 0,12%FeiO3 при f = 3 степенях свободы. Из уравнения (6.1) доверительный интервал при Р = 0, 95 равен д_ = ЗД8 0,12 = 19%Fe2Q3 Vi Таким образом результаты анализа с соответствующим доверительным интервалом имеют вид: (38, 74 ± 0,19)%ГегОз (при Р = 0, 95). Рассчитанный по уравнению (6.1) доверительный интервал сильно зависит от числа параллельных определений. Из рис. 6.1 видно, что при переходе от двух к трем или четырем параллельным определениям точность данных значительно увеличивается. Однако с дальнейшим ростом числа параллельных определе- ний это преимущество перестает~оправдывать затраты труда. Напротив, значи- тельные преимущества дает увеличение числа степеней свободы, причем, когда объединяются измерения из одной и той же серии проб (см. с. 92). Для стан- дартного отклонения при параллельных определениях и числе проб m полу- чают m(n; — 1) степеней свободы. При простом объединении m = 5 проб уже получается значительный выигрыш в информативности (рис. 6.1). Если оценка s стандартного отклонения известна из более ранних исследований, то ее тоже можно применять для определения доверительного интервала. Чаще всего такие оценки уже известных стандартных отклонений имеют много степеней свободы. Вследствие этого величина t(P, f) уменьшится, а значит, получатся значительно более надежные данные. [6.2] При гравиметрическом определении никеля в стали были найдены значения 4,64, 4,67 и 4,65% никеля. Стандартное отклонение находим в табл. 5.3: в = 0, 5%Ni (отн.) =0,023% Ni (абс.) при f > 50 степенях свободы. Из табл. А.З берем t(P — 0,95; f > 50) « 2,0, а отсюда получаем доверительный интервал д_ = 2,О^О 23 = 0,027%№ (абс j Содержание в исследуемой пробе лежит в границах (4, 65з ± 0,027)%Ni или окру- гленно (4, 65 ± 0, 03)%Ni с заданной вероятностью Р = 0, 95. Если бы доверительный
6.1. Вычисление и обсуждение доверительного интервала 99 интервал определяли только из трех параллельных определений по уравнению (6.1), то получилось бы Л_ 4,30-0,023 „ Дх = ---------- = 0, 057%Ni. >/3 Среднее в этом случае было бы найдено со значительно меньшей точностью. При известном значении оценки стандартного отклонения s можно также для индивидуального значения (т. е. при п} = 1) оценить интервал, внутри которого при вероятности 100% всех выборок следует ожидать значения р. Вот этот интервал: х ± t(P, f)s — х ± Дх (6.2) [6.3] При определении марганца по Проктеру и Смиту в примере [5.1] была получена оценка стандартного отклонения з = 0,014%Мп при f = 15 степенях свободы. Отсюда по уравнению (6.2) находим Дх = t(P = 0, 95; f = 15) .3 = 2,13-0, 014 = 0, 030%Mn. Теперь результат анализа можно представить в виде (х ± 0, 03)%Мп (при Р = 0,95). При логарифмически нормальном распределении доверительная область рез- ко несимметрична относительно заданного значения. Асимметрия доверитель- ного интервала особенно велика при большой случайной ошибке и малом чи- сле степеней свободы (рис. 6.2). Поэтому в случае логарифмически нормально распределенных измерений особенно большое значение имеет увеличение числа степеней свободы. Если X|g = 1g х и S|g = Igs, то Axig = ±i(P,/)sig/^/nJ. Если надо вернуться от логарифмов к обычным значениям,то получается X|g ± ДТ18 = 1g х ± 1g Дх. Это равнозначно хДх и соответственно х/Дх. Важно иметь в виду, что доверительный интервал в этом случае задается относительной ошибкой. [6.4] Логарифмическое стандартное отклонение для спектрохимического определе- ния олова в примере [5.4] было найдено равным sig = 0,068 с f = 12 степенями сво- боды. Доверительный интервал среднего из п} =4 параллельных определений равен, следовательно, для Р = 0, 95 t(P — 0, 95; f = 12)si9/x/n7 = 2,18 • 0, 068/\/4 = 0, 074. По- тенцированием получаем Дхо = 1,13 верхняя граница и Дхц = 0, 84 нижняя граница. Следовательно, со средним из четырех параллельных определений связана неопреде- ленность в пределах 0, 84х < х < 1,13х. Если результат анализа используется для подтверждения соответствия неко- торой норме качества То, то надо брать односторонний доверительный интервал (см. с. 57). При определении требуемой минимальной концентрации (например, полезного компонента) результат анализа х не противоречит норме качества То до тех пор, пока х- > То (6.3) V^A И наоборот, максимальные требования (например, концентрации примесей) вы- полняются с достоверностью Р при х + < Го (5.4) [6.5] Для определенного сорта полистирола содержание мономера не должно превы- шать верхнюю границу допуска То = 0, 6% при Р = 0, 99. При стандартном отклонении
100 Глава 6. Характеристика данных анализа Рис. 6.2. Доверительный интервал (Р = 0, 95) для логарифмически нормального рас- пределения при числе проб т = 1 и т = 5. a) s/x = 0,1; б) s/x = 0, 5. з = 0, 028% (/ = 25 степеней свободы) для определения мономера при п3 = 2 парал- лельных определениях д лежит ниже То = 0,60% моностирола при Р = 0,99 до тех пор, пока Л Результаты анализа, превышающие эту границу, уже не отвечают требованию То = 0,60% стирольного мономера (см. пример [6.12]) с заданной вероятностью Р. Данные об ошибке надо получать в другой форме, если результаты следу- ют распределению Пуассона. Когда наблюдаемое среднее достаточно велико (х > 15), распределение Пуассона приближается к нормальному (гауссову) рас- пределению (см. разд. 3.2). В качестве доверительного интервала для индиви- дуальных числовых результатов имеем ц ± и(Р)<т = ц ± и(Р)-У/7 (6.5) Это соотношение справедливо только тогда, когда /1 известно или заменено тре- буемым значением. В соответствии с разд. 3.2 аппроксимация распределения Пуассона гауссовым распределением возможна только при х > 15. При малых значениях средних доверительный интервал нельзя определить способом, указанным уравнением (6.5). Приходится находить верхнюю и нижнюю границы доверительного интер- вала по отдельности: Дг0 = х + (6.6а)
6.1. Вычисление и обсуждение доверительного интервала 101 с числом степеней свободы f = 2(ж + 1), AXu-X Р(Р;/1;/2) (6.66) с числами степеней свободы_/1 = оо, /2 = 2х. Числовые значения у2(Р, /) можно взять в табл. А.4 “Процентные точки ^-распределения”; значения F(P; /х; /2) дает табл. А.5 “Процентные точки /-распределения”. Следует иметь в виду, что Дж0 и Джи дают односторонние границы доверительного интервала по уравнению (6.6) (см. рис. 3.11). Для полу- чения двусторонних границ, которыми чаще всего интересуются в аналитических исследованиях, надо пересчитать их для Р = 2Р — 1 [уравнение (3.12)]. [6.6] При изучении структуры графита под микроскопом на некоторой площади подсчитали число пор определенного размера х = 11. С вероятностью Р = 0,90 по уравнению (6.6) и табл. А.4 и А.5 доверительные интервалы Дто и Дти равны Х2(Р = 0, 95; f = 24) , 36,42 „„ Дто = 11 + = 11 + К. 29 Дти = 11-----=-------—------------ = 11---— и 5 F(P = 0,95; /оо; /2 = 22) 1,78 В 90% всех случаев можно ожидать на той же площади от 5 до 29 пор. Как показывает пример [6.6], при малом числе результатов точность данных довольно низка. Поэтому в таких случаях разумно ограничиваться выбором вероятности Р = 0,90 или самое большое Р = 0,95. При более высоких значени- ях Р доверительный интервал слишком растягивается и теряет практическую ценность. При исследовании пробы аналитик обычно проводит два, три, а иногда и че- тыре параллельных определения. Получаются -в общем разные значения. Для их оценки хорошо иметь критерий допустимой разности жтах — жт,п между па- раллельными определениями. При известном стандартном отклонении <т спра- ведливо, что l^max Eminl < D(P',nj)(T R2 и(Р)<Т^/пУ (6-7) Множитель Z>(P, Tij) вычислен по Пирсону, для Р = 0,95 он приведен в табл. 6.1 для обычно используемых значений п} = 2 .. п} = 4. Таблица 6.1 Множи- тели по Пирсону для Р = 0,95 п1 D(P = 0,95,71^ 2 2,77 3 3,31 4 3,65 Для Р = 0,95 и rij =2 [уравнение (6.7)] при условии применения (см. разд. 5.2) используется “повторяемость (воспроизводимость)” w, а при усло- вии применения межлабопатопногойтандаптного отклонения — “сопоставимость
102 Глава 6. Характеристика данных анализа (межлабораторная воспроизводимость)” v. Максимально допустимая разность между двумя значениями, описанная уравнением (6-7), в стандартах часто на- зывается ошибкой параллельных анализов. [6.7] При гравиметрическом определении никеля были найдены значения 4,64, 4,65, 4,76%Ni. Надо проверить, согласуется ли полученная разность 0,03%Ni со случайной ошибкой. Соответствующее стандартное отклонение находим по табл. 5.3 в виде s = 0,5%Ni(oTH.)S0,023%Ni(a6c.) с f > 50 степенями свободы. Вследствие столь большого числа степеней свободы можно считать s ss <т и получить из уравнения (6.7) при D(P = 0,95;п7 = 3)=3, 31 Zmax - Zm.n = 3, 31 • 0, 023 = 0, 076 Разница между тремя значениями с вероятностью Р = 0, 95 согласуется со случай- ной ошибкой, и найденные значения можно объединить и усреднить. В случае логарифмически нормально распределенных результатов справед- ливо соотношение )|Xfc - Х(|| = II lg Xk - lgXIII = u(P)<7lgVn- (6.8) Для P = 0,95 и nj = 2 получим lg—= l,96<ng72 (6.9) Потенцирование приводит к xk/xt = (1 + s ,/x)1’96^ « (1 + s x/x)3 (6.10) Повторяемость и сопоставимость описываются в данном случае частным xxJxt [вместо разности значений, как в уравнении (6.7)]. При очень большом числе измерений в отдельных случаях они могут пере- ходить границу, заданную для повторяемости w и сопоставимости v [уравнение (6.7]. Однако если появляются большие разности, чем заданные, и достаточ- но часто, то целесообразно провести дополнительную проверку условий опыта (измерительных приборов, метода анализа, а также персонала). Доверительный интервал с данной вероятностью Р дает в общепринятой фор- ме однозначные сведения об ошибке результатов анализа. Поэтому его следует всегда применять вместо довольно туманных терминов вроде: “граница ошибки”, “ошибка метода анализа” и т. д. Доверительный интервал указывает, с какой вероятностью надо ожидать ошибки данного значения ±Дх. Однако он не пред- ставляет собой конкретной ошибки конкретного результата анализа. Возмож- ность получить отдельное значение с более высокой ошибкой, чем Дт, остается с риском а = 1 — Р. Поэтому границы доверительного интервала всегда надо Дополнять указанием вероятности. Выбор ее — предмет взаимно приемлемого соглашения. Обычно для расчетов доверительного интервала берут Р — 0,95. Для других внутрипроизводственных данных иногда достаточно Р — 0,90. От- ветственные решения требуют более высокой надежности (например, Р — 0,99). В фармакологии и близких к ней областях особенно важно сохранять высокую надежность Р = 0, 99 или даже Р = 0,999, когда ошибка практически полностью исключена. В физике часто довольствуются просто указанием оценки стандарт- ного отклонения и мирятся с высоким риском a — 1 — 0,683 = 0,317 появления больших отклонений. Это справедливо только для достаточно большого числа
6.1. Вычисление и обсуждение доверительного интервала. 103 степеней свободы (/ > 10); при меньшем числе измерений риск заметно увеличи- вается. Следует помнить, что при таком способе представления ошибки задается доверительный интервал с u(P) = 1 и t(P, /) = 1, а вовсе не стандартное откло- нение. Доверительный интервал можно задавать как абсолютной ошибкой в тех же единицах, что и результат анализа, так и относительной ошибкой — в процен- тах от результата. В тех методах, где ошибка остается постоянной в заданной области концентраций, предпочитают первый способ представления, а в методах с постоянной относительной ошибкой предпочитают второй способ. Так как ре- зультаты анализа чаще всего выражают в процентах, важно выяснить, идет ли речь об абсолютной ошибке или об относительной. Обычно это указывают сокра- щениями: (абс.), (отн.) или (проц.). Величиной ошибки определяется наиболее подходящее число знаков после запятой в результатах индивидуальных измере- ний или в средних из нескольких измерений. Результаты измерения и ошибки должны выражаться числами с одинаковой точностью. Поэтому в конце концов (и как можно позднее) их округляют до одинакового числа знаков. Если ре- зультаты анализа надо пересчитать на большие числа (например, ежемесячное производство), то пользуются множителями — степенями числа десять. При этом ненадежный знак должен появляться только на втором (или дальше) ме- сте после запятой. Если известно стандартное отклонение а (или s), целесообразно проводить округление следующим образом [6]: - по стандартному отклонению определяют границу g интервала округления по формуле g = а/2; - в ряду 100... 50... 10...5... 1...0,5...0,1...0,05... отыскивают ближайшее меньшее число а, следующее за д. Оно будет соот- ветствовать интервалу округления; - в том же ряду отыскивают второе меньшее число Ь, следующее за д. Оно будет соответствовать округляемому знаку; - если порядковый номер знака округления < а/2,то округляют отбрасывани- ем, если же номер > а/2, то округляют прибавлением; - остальные цифры отбрасываются. Примеры Результаты измерения: 1 062,85, стандартное отклонение <т — 13, 6 - граница интервала округления д = 13, 6/2 — 6, 8; - в указанном числовом ряду ближайшее меньшее число, следующее за 6,8: а = 5. Отсюда получают интервал округления 1 060 ... 1 065 ... 1 070. - второе меньшее число, следующее за 6,8: 6=1. Отсюда следует, что окру- гление должно касаться первого знака до запятой; — знак округления результата 2,85 > а/2 = 2,5. Следовательно, округляем сверху (1062,85 до 1065). Результат измерения: 1065,85; стандартное отклонение 5,1. д = 5,1/2 = 2,55; а = 1 (—* интервал округления 1064, 1065, 1066, ...); 6 = 0, 5 (—» округление в первом десятичном знаке).
104 Глава б. Характеристика данных анализа 0,85 > а/2 = 0,5. Округленный результат: 1066. Результат измерения: 22,24; стандартное отклонение 1,45. g = 1,45/2 = 0,725; а = 0,5 (—► интервал округления 22,0, 22,5, 23,0 ...). 6 = 0,1 (—> округление в первом десятичном знаке). 0,24 < а/2 = 0,25. Округленный результат: 22,0. Общие правила округления без учета стандартного отклонения изложены в [7]. Если нет полной уверенности в величине возникшей случайной ошибки, то лучше оставить на один десятичный знак больше. 6.2. Принципиальные границы методов анализа В процессе анализа содержание определяется в пределах от ста до почти нуля процентов. При приближении к этим пределам проявляются принципиальные, обусловленные случайным разбросом, границы. При анализе очень высоких содержаний (например, при определении содер- жания фармацевтического препарата) результат х = xi/n} должен значимо отличаться от границы 100,0%. Иначе можно сделать заключение, что найден- ное значение х равно 100%, а это означает, что точность метода недостаточна для оценки чистоты препарата. Искомое значимое отличие от 100% имеет Р = 0, 998, если л / О &х \ Ё< 100,0-= 100,0(1-—ы (6.11) х/й? \ х/й?/ Чтобы как можно ближе подобраться к значению 100,0%, необходимо вы- брать метод анализа с минимальной случайной ошибкой. [6.8] Содержание серебра в серебре высокой чистоты определяется электролитиче- ским способом. При стандартном отклонении всего лишь <т = 0, 35%Ag (что соответ- ствует при содержании 100% минимальной относительной ошибке ах/х = 0, 0035!) при = 3 параллельных определениях получают границу отличимости от 100%: х = 100, 00 - 3 • 0, 35/х/з = 99, 39%Ag. Несмотря на чрезвычайно высокую точность, более высокие концентрации нельзя значимо отличить от 100,001). Уравнением (6.11) задается принципиальная граница непосредственного определения содержания. Более высокие степени чистоты приходится оцени- вать косвенно через сумму примесей. Тогда для определения концентраций нет каких-либо принципиальных ограничений. К методам, которые применяются в этом случае для анализа, не стоит предъявлять особенно высоких требова- ний точности, часто достаточно бывает и полуколичественных методов (ср. [8]). Если концентрации примесей колеблются в пределах нескольких порядков, для ] ) Если, конечно, не увеличивать число параллельных определений. — Прим. ред.
6.2. Принципиальные границы методов анализа 105 указания степени чистоты достаточно определения только доминирующих ком- понентов. Однако всегда важно определить те компоненты (даже и второстепен- ные), которые имеют токсическое действие или значительно влияют на свойства исследуемого материала. При определении очень низких концентраций заметно отрицательно влияют примеси в используемых реактивах. Хотя фактическая концентрация х = О, получают отличное от нуля значение утц, результат холостого опыта (например, холостая экстинкция в фотометрии). Если исследуют большее число проб с х = 0, то получают соответствующее число различных результатов холостого опыта, которые рассеиваются вокруг среднего значения холостого опыта ув со стандартным отклонением холостого опыта <тв- Любое измеренное значение у (среднее из п} параллельных определений) только тогда отличается от значения холостого опыта, когда У = Утш > Ув + (6-12) При безошибочном (точном) холостом значении у0 — 0 уравнение (6.12) перехо- дит в У = Утш > (6.12а) Для получения результата надо пересчитать измеренное значение ymln на значение жт1п. Принимают линейную градуировочную функцию у = a 4- bx, где a — ув и b — чувствительность [см. также разд. 9.2.3 и уравнение (4.7)]. Тогда получают - _ Утш ~ Ув _ «(-Р)о-В *тт — 1 — » .__ Ь Ьу/пГ (6.13) Эту наименьшую концентрацию, которую дает сигнал, отличимый от значе- ния холостого опыта с вероятностью Р, Г. Кайзер [3] назвал “пределом обна- ружения”. Благодаря его предложению использовать и = 3,00 гарантируется достаточно высокая достоверность даже в тех случаях, когда речь идет о содер- жаниях, при которых вблизи предела обнаружения уже нельзя гарантировать гауссово распределение. Такой порядок обеспечивает высокую достоверность об- наружения фактического сигнала и как следствие — “положительный результат анализа” Однако в то же время с этим связан довольно высокий риск неоправ- данного отказа от обнаружения сигнала и следующего из этого “отрицательного результата анализа”. Поэтому для “предела обнаружения” рекомендуются так- же низкие_достоверностр. Особенно в англоязычной_литературе используется и — 1, 65 (Р = 0, 95) для гауссова распределения, но (Р = 0, 68 — при нарушении нормальности). Эта граница называется “decision limit” — “пределом принятия решения”. Предел обнаружения, описываемый уравнением (6.13) (при измерении содер- жания или концентрации), — важный параметр метода анализа [см., однако, уравнение (6.21)!]. Предел обнаружения можно понизить: — снижая стандартное отклонение холостого опыта <тц, - повышая чувствительность Ь, - повышая число параллельных определений (“накапливая результаты”).
106 Глава 6. Характеристика, данных анализа Абсолютный результат холостого опыта ув не влияет на предел обнаружения. Все экспериментальные меры, направленные на “усиление” величины у (сюда относится, например, увеличение толщины слоя в фотометрии), усиливают и сгу. Однако они не дают никакого выигрыша в способности обнаружения (см. рис. 4.1). [6.9] Для обнаружения следов железа в чистом ферроалюминии применялся фото- метрический анализ с сульфосалициловой кислотой (е = 5,6 • 102 м2/моль). В кювете с толщиной слоя d = 0,01 м при холостой экстинкции Ев=ув = 0, 08 и стандартном от- клонении холостого опыта <тв = 0, 02 (пв = 20) при П] = 2 параллельных определениях получим 3-0,02 ' Гт,п = О, 08 +--= 0,122 у/2 Отсюда следует [уравнение (6.13)] 0,122 - 0,080 „ г ,„_3 , з _ ,„_6 Стш = т-тг:-Z-7——7 = 7,5-10 моль/м =7,5-10 моль/л и, U1 • о, о • 1U При использовании триазина (е = 2,25 • 103 м2/моль), напротив, получают cmin = 1,87 • 10-6 моль/л. Если применяют кювету с большей толщиной слоя (например, d = 0,05 м), то усиливаются одновременно и экстинкция, и стандартное отклонение в одинаковой степени. Для случая с триазином получим Ев = 0,40 и <тв = 0,10. = 0,40 + - - °-’10 = 0, 612 0,612 - 0,400 _» з _6 Стш = i ' —-Tg = 1,87 • 10 моль/м = 1, 87 • 10 моль/л U) ио * Z^ ZO * 1 и Увеличение толщины слоя также не дает никакого выигрыша в способе обнару- жения. (Правда, вследствие увеличения толщины слоя иногда происходит смещение неблагоприятных для измерений малых концентраций в благоприятную для измерений область экстинкции, см. рис. 4.1.) В связи с экспериментальным определением ymin чаще всего обсуждаются два варианта [2] из целого ряда возможностей [1]: 1. Среднее значение холостого опыта уе определяют из пв холостых опытов. При этом пв очень велико по сравнению с числом параллельных определений «д самого анализа. Тогда j/min получают из уравнения (6.12). 2. Параллельно с каждым анализом, состоящим из пд параллельных опре- делений для каждой пробы, проводят пв холостых опытов (обычно пв = па)- В каждой пробе значение холостого опыта уА вычитается из среднего уА. Тогда 3/min — 2/В 4" (6-14) где число степеней свободы f = пд 4- пв — 2. В первом из названных методов результаты холостых опытов в разных про- бах должны быть близкими. Разброс результатов холостого опыта в этом случае должен соответствовать случайной ошибке метода анализа вблизи предела обна- ружения. Здесь можно особенно точно определить результат холостого опыта, потому что он основывается на очень большом числе данных. (Для практиче- ских целей используют чаще всего пв = 20 анализов.) Второй метод применим всегда, так как каждый результат анализа комбинируется со “своим” холостым опытом. Недостаток же заключается в том, что часто получают лишь нечетко
6.3. Статистическая оценка качества 107 метрологически регистрируемое значение холостого опыта из относительно не- большого числа определений. Поэтому такой метод применяется лишь для проб, результаты холостых опытов которых так сильно рассеиваются, что невозможно указать какого-либо общего значения холостого опыта или какого-либо общезна- чимого стандартного отклонения значений холостого опыта, как в варианте 1. При определенных условиях значение холостого опыта и предел обнаружения можно найти по градуировочному графику (см. разд. 9.3.3). Методы анализа с самописцами дают фон у0 с “полосой шума” шириной R. Сигнал анализа счита- ется тогда обнаруженным, если он выступает из этой полосы шума на величину R. Применяя часто используемое приближение R « 5<т, получим критерий об- наружения сигнала: Утт - Уо = R = 5ст - 3,54<т\/2 (6.15) Это соответствует вероятности Р — 0, 9998 [см. табл. А.2, а также уравнение (6.14)]. 6.3. Статистическая оценка качества Показатели качества многих продуктов определяются при проведении аналити- ческих исследований. В той мере, в какой проверяемый материал можно счи- тать однородным, рассеивание полученных результатов определяется ошибкой анализа. Ее надо всегда указывать и учитывать при определении качества. Чаще всего производитель и потребитель заключают определенные соглаше- ния о качестве продукта. Потребитель признает продукт безупречным только в том случае, когда аналитически установленное качество Т окажется лучше, чем принятая в договоре норма То- Если анализ показал, что качество хуже, то товар бракуется. Вследствие случайной ошибки анализа и потребитель, и производитель при соглашении идут на определенный риск (рис. 6.3). Произво- дитель должен считаться с тем, что хороший продукт из-за результатов анализа может быть ошибочно забракован. Хотя качество Т продукта лучше, чем ого- воренная соглашением норма То, результат анализа случайно может оказаться ниже То- Тогда продукт бракуют напрасно [риск производителя). Потребитель должен учитывать, что анализ может переоценить продаваемый продукт, хотя качество Т на самом деле хуже, чем согласованная норма То> из-за случайного рассеяния результат может оказаться выше То. Тогда продукт ошибочно прини- мают [риск потребителя). При известной случайной ошибке метода анализа <т и при согласованных рисках потребителя и производителя можно указать грани- цы, внутри_которых может колебаться качество продаваемого продукта. Если = 1 — Ре — риск производителя, а ак = 1 — Рк — риск потребителя, то получаются искомые точки для границ качества: + G£ = T0-^(&h <в.1в) где п} — число параллельных определений. В случае если То представляет согласованную минимальную границу (напри- мер, содержание удобрения), производителю приходится считаться с тем, что анализ в 100(1 — Ре)% всех случаев будет давать заниженный результат. Тогда
108 Глава 6. Характеристика данных анализа Норм Улучшение Т лучше, чем То, но х не достигает значения То из-за ошибки анализа Результат анализа х качества | анализа х J качества Интервал допуска Граничные lzzzzzzzz ZZZZZZZZ1 точки: ° Gf«lo+u(^)(T Рис. 6.3. Результаты анализа и показатель качества. продукт будет ошибочно забракован, хотя его качество может лежать в согла- сованных пределах вплоть до То + РавнЬш образом существует и риск для потребителя, что в 100(1 — Рд)% всех случаев результат анализа будет за- вышен. Продукт будет ошибочно принят, хотя его качество не лежит между То и То - следовательно, оно ниже установленной границы. [6.10] Для калийного удобрения с 38%-ным содержанием оксида калия требуется, чтобы среднее из п} = 2 параллельных определений было не ниже, чем То = 38%К2О. Продукты с более низким содержанием в анализе отвергаются покупателем. Если пр_инять для обеих сторон риск a = 1 — Р = 0, 05, то обе граничные точки Ge и Gk при »(Р = 0, 95) = 1, 65 и <т = 0,18%К2О (см. пример [5.8]) равны Ge = 38,0 + 1’-65-'?’ 18 = 38, 2%К2О 7? GK = 38, 0 - 1,-65-,Д’18 = 37, 8%К2О 72 В 5% всех случаев возможно, что анализ из двух параллельных определений даст
6.3. Статистическая оценка качества 109 Рис. 6.4. Вероятность браков- ки продукта Ре в зависимости от качества Т. значение, которое окажется ниже 38,0%КгО, хотя проба на самом деле будет содер- жать не более 38,2%К2О, и что на основании этих данных потребитель откажется от продукта. И потребитель тоже идет на подобный риск, принимая продукт на основании результата 38, 0%К2О, хотя на самом деле содержание Кг О лежит в интервале 38,0 и 37,8%. По результатам анализа потребитель решает принимать продукт или нет. Ве- роятность Pr того, что продукт не будет принят, можно представить в зависи- мости от Т — То = и(Р)<г/у/nJ в качестве оперативной характеристки (рис. 6.4) (то же верно и для вероятности необоснованного приема продукта). Для Т = То, т. е. когда качество изготовленного продукта точно соответствует границе нор- мы, в 50% случаев потребитель, скорее всего, решит отказаться от продукта. Такое ошибочное решение об отказе будет приниматься тем реже, чем дальше Т отстоит от То, т. е. чем больше стремление производителя делать “слишком хорошее” (неэкономичное) качество. В некоторых случаях производитель должен гарантировать качество свое- го продукта. Тогда надо договориться, что качество товара Т только в a — 100(1 — Р)% всех случаев окажется хуже, чем гарантируемое качество Тд. При обеспечении такой гарантии производитель снова должен учитывать случайную ошибку метода анализа. Он должен выдавать только такие продукты, каче- ство которых, задаваемое доверительным интервалом, вычисленным исходя из ошибки анализа <т, лучше, чем требуемая норма. Таким образом: Потребитель требует: гарантированное качество Тд Производитель обеспечивает (6.17) как минимум: качество Тд + и(Р)а При п3 параллельных определениях доверительный интервал надо разделить еще на у/nJ. Эта граница будет гарантировать качество точно в 100Р% всех слу- чаев. Однако потребитель в 100а = 100(1 — Р)% всех поставок должен считаться с тем, что товар может и не соответствовать гарантированному качеству. В ка- ждом случае надо четко оговаривать надежность предоставленной гарантии. [6.11] С вероятностью Р = 0,95 надо гарантировать содержание товарной желез- ной руды, Тд = 22,00%Ге2Оз. Стандартное отклонение определения железа для этих
по Глава б. Характеристика данных анализа содержаний равно <т = 0,05%Fe203 (“Справочник по черной металлургии для лабо- раторий”). Если для каждой пробы проводят п} = 3 параллельных определения, то производитель должен отгружать только такую руду, содержание которой по меньшей мере равно Т = 22, 00 + 1,65 ' °’05 = 22, 05%Fe2O3 3 что можно установить аналитическим путем. Для производителя гарантии качества всегда представляют собой определен- ную экономическую нагрузку. Поскольку, чтобы действительно соблюсти гаран- тию, он должен поставлять продукты, качество которых выше требуемого ка- чества на доверительный интервал Дх. Применение очень точных методов ана- лиза при достаточно большом числе параллельных определений может обеспе- чить соблюдение малых различий, требующихся для гарантии. Снижение затрат на анализы за счет уменьшения автоматически увеличивает доверительный интервал и вынуждает предприятие к производству неэкономичных “слишком хороших” продуктов. Оснащение аналитической лаборатории необходимой аппа- ратурой и квалифицированным персоналом в достаточном количестве — обяза- тельное условие, которое дает возможность гарантировать качество при вполне оправданных технико-экономических затратах. Благодаря тому что обеспечение гарантий качества происходит с различной надежностью, появляется возможность сортировки продуктов, поступающих на продажу, по качеству. Например, гарантия может соблюдаться с Р = 0, 99, если установленное значение качества Т лучше, чем Тя + 2, ЗЗс/^/пу. Если при проверке качества получают показатель Т: Тг + 1,65<т/^/п;<Т<7;+2,33<т/х/п7 (6.18) то еще возможна гарантия с Р — 0,95. Соответствующим образомможно задать пределы для других вероятностей (например, для Р = 0, 90 или Р — 0, 80). Ка- чество продукта должно оцениваться тем выше, чем выше надежность данной гарантии. Поэтому между производителем и потребителем возможно согласова- ние дифференцированных цен. Подобное разделение качества по сортам обеспе- чивает производителю продуктов особенно высокого качества дополнительную прибыль, а также позволяет ему разумно использовать партии товаров более низкого качества. А для потребителя это дифференцирование качества удобно тем, что позволяет подбирать необходимые продукты с учетом целей их приме- нения в соответствии с качеством, а значит, экономично; это же относится и к их использованию. При заключении соглашений между производителем и потребителем следует четко сформулировать, приемлем ли еще результат анализа х = То, см. урав- нение (6.16), или речь идет о границе Ts, которую требуется гарантировать с надежностью Р, см. уравнение (6.17). Часто граница качества устанавлива- ется общепринятыми нормами, которые в каждом конкретном случае допол- няются другими соглашениями (lex specialis)1-*. Если нет положений, имею- щих силу закона, приходится находить пограничное значение в ходе совмест- ной работы двух заинтересованных сторон, осознающих свою ответственность. В таких нормоопределяющих инструкциях указывается только повторяемость Это латинское выражение в юриспруденции означает “специальный закон”.— Прим. ред.
6.3. Статистическая оценка качества 111 w [см. уравнение (6.7)], а не стандартные отклонения, требуемые для уравне- ния (6.16) или (6.17). Тогда для гарантии качества, например, справедливо, что х = Тд + u(P)aw/nj « Т„ + 0,4ш (при п} = 2). При оценке уравнения (6.16) следует действовать аналогично. Такие же обстоятельства, как при обеспечении гарантий качества, имеют место и при определении условий охраны труда и техники безопасности. Пред- писываемая нормой верхняя граница Gh сохраняется с надежностью Р до тех пор, пока результат анализа лежит ниже нижней границы доверительного ин- тервала. При переходе этой границы надо учитывать и возможное превышение нормы, даже если результат анализа все еще лежит ниже Gh- Бывает, что случайные колебания характеристик качества обусловливаются не одной лишь случайной ошибкой метода измерения и анализа. Неоднородность проб иди, например, пробоотбора, часто может оказаться довольно заметной. О возможных диапазонах качества рассматриваемого продукта можно правильно судить, лишь если стандартное отклонение о учитывает все эти причины ошибок. Поэтому его надо вычислять по показателям качества, собранным за достаточно продолжительный отрезок времени. В таком случае стандартное отклонение дает вполне надежное представление о колебаниях качества продукта, его уже не надо больше рассматривать только как показатель воспроизводимости метода измерения или анализа. Для всех вышеприведенных рассуждений номинал То> используемый при оценке качества, определялся на основании договоренности, на основании за- кона и пр. Эту границу можно установить также исходя из принципиальных неточностей метода анализа (см. разд. 6.1), так же как например, границу до- верительного интервала, предел обнаружения и т. п. Надежность суждения о качестве (хорошее/плохое, соответствует норме/не соответствует, вредно для здоровья/не вредно, виновен/не виновен, ...) тогда снова описывается оператив- ной характеристикой (см. рис. 6.4). [6.12] В примере [6.5] было показано, что анализ гарантирует максимальное содер- жание То = 0,60% моностирола до тех пор, пока результат анализа (п} = 2) дает х < То — Дт = 0,55% моностирола (Р = 0,99). Для продукта с таким содержанием анализ выдает результаты х < 0,55% и х > 0,55% с одинаковой частотой. Следо- вательно, в половине всех случаев этот продукт будет оцениваться как бракованный. При минимальной доле ошибки 1% решение о том, что он не бракован, возможно при х < То - 2 • 2,49з/У2 = 0, 60 - 2 • 2,49 • 0, 028/^2 = 0, 50% моностирола. Аналогичные закономерности верны и для решений (о наличии или отсут- ствии), принимаемых при анализе следов. Результат анализа х, близкий к пре- делу обнаружения xmtn [т = xmin; уравнение (6.13)], в 50% всех случаев интер- претируется как “результат холостого опыта” (я < rmin), а в остальных 50% как “результат анализа” (я > irain)- Вследствие равных вероятностей и отри- цательного, и положительного решения (Р~ = р+ — 0, 5) содержание следов в районе предела обнаружения остается неизвестным в 50% всех случаев. Это недопустимо высокий риск. Надежность правильного обнаружения содержания следов растет с увеличением расстояния между содержанием х и пределом об- наружения ®mm. Тогда уменьшается доля площади под гауссовой кривой для у ниже предела j/mln = ув + Здв^/^- (рис. 6.5). Соответственно снижается вероят- ность интерпретации результата X > xmin как холостого опыта, т. е. такой, что
112 Глава. 6. Характеристика данных анализа б) Ув Утп УЕ*У8+6аВ у-—~ искомое вещество “отсутствует”. В случае Уе = У mm + 3(ТВ/л/й? = Ув + бав/Тйу Рис. 6.5. Вероятность по- ложительного обнаруже- ния. a) j/mln = ув + Зав (предел обнаружения); б) J/E = J/в + 6<тв (граница ох- вата). (6.19) вероятности для положительного и отрицательного обнаружения суть: Р+ = Р(х > xmm) = 0,997/2 + 0,5 = 0,9985 Р~ = Р(х < zmin) = 1-0,9985 = 0,0015 (6.20) Это можно считать достаточно высокой надежностью определения концентраций следов. Для получения окончательного результата надо перейти от уЕ к резуль- тату анализа хЕ. Применяя линейную градуировочную функцию у = a + Ьх, где a = ув, а b — чувствительность, получим - _ Уе-Ув _ 2ц(Р)<тв Е Ъ Г/гЦ (6.21) Это наименьшее содержание, определяемое с высокой надежностью, было названо Эрлихом [3] со ссылкой на номенклатуру Эмиха “границей охвата”. Ре- зультаты анализа выше этой границы описываются, как обычно, с помощью сред- него и доверительного интервала (иногда с учетом логарифмического распреде- ления). Граница, заданная уравнением (6.21) при и(Р) = 3,00, создает достаточ- ную надежность, даже когда гауссово распределение низких содержаний уже не выполняется. Столь высокая надежность для гарантированного признания (“гарантированное положительное обнаружение”, например, в криминалистике) снова вступает в противоречие с высокой степенью риска пропустить истинное содержание (“неоправданное необнаружение”, т. е. отрицательное обнаруже- ние, например, необнаружение или обнаружение с опозданием (из-за задерж- ки в связи с накоплением данных) экологически вредных веществ), см. также
Литература 113 разд. 7.1. Поэтому предлагают выбирать иные значения для Р, особенно в ан- глоязычной литературе, где предел обнаружения (detection limit) часто опреде- ляется как 2 • 1, 65а = 3, 30а. При этом аналогично уравнению (6.20) Р+ — 0, 95 и Р~ = 0,05. Вследствие этого снижается риск неоправданного необнаружения, но зато приходится считаться с риском неоправданного положительного обнару- жения (“ложный сигнал тревоги”). Рекомендуемый иногда предел 10а = 2 • 5а означает Р+ — 0,999 999 9 и Р~ = 10~7. Эта чрезвычайно высокая надежность излишне сужает рабочую область, поэтому она приводит к потере информатив- ности; кроме того, она связана с очень высокой степенью риска неоправданного необнаружения. По вопросу интерпретации обнаружений следов в последние годы появился целый ряд публикаций, причем были предложены и новые понятия. Вследствие такого разнообразия при оценке содержаний следов в каждом конкретном слу- чае надо указывать надежность обнаружения сигнала [уравнение 6.12)] и надеж- ность, выбранную для Р+ [уравнение (6.20)]. Благодаря двум этим величинам, а также детальному описанию трактовки значений холостого опыта более объек- тивно описывается разрешающая способность метода анализа. Важно отличать разрешающую способность и все понятия, связанные с ней, от чувствительно- сти метода анализа. Чувствительность [уравнение (4.6), см. также разд. 9.2.3] соответствует углу наклона градуировочного графика. Величина чувствитель- ности — важный фактор для разрешающей способности [уравнение (6.13)]. Литература 1. Agterdenbos J. Uber die genaue Beriicksichtigung des Blindwertes bei kolorimetrischen Messungen. — Z. anal. Chem., 157 (1957) 161. 2. Doerffel K. Notiz zum Umgang mit Blindwerten. — Z. Chem., 8 (1968) 236/237. 3. Kaiser H, Speaker H. Bewertung und Vergleich von Analysenverfahren — Z. anal. Chem., 149 (1956) 46/56. 4. Kaiser H. Zum Problem der Nachweisgrenze. — Z. anal. Chem., 209 (1965) 1/10. 5. Ehrlich G. in: Spurenanalyse in hochschmelzenden Metallen. Leipzig: Deutscher Verlag fur Grundstoffindustrie, 1970. 6. Niederlandische Norm NEN 1047 Blatt 2.1 (Dez. 1967). 7. DIN 1333, Zahlenangaben — Teil 2: Runden (vgl. Verzeichnis allgemeiner Volschriften). 8. Doerffel K., Eckschlager K., Henrion G. Chemometrische Strategien in der Analytik. Leipzig: Deutscher Verlag fiir Grundstoffindustrie, 1990. Дополнительная литература Афонин Ю. П., Ложкин В. Я. Зависимость границы обнаружения РФА от поряд- ковых номеров элемента. — Завод, лаб., 44 (1978) 1086/1088. Бернер А. И., Гимелъфарб Ф. А., Укорская Т. А. Прогноз границы обнаружения элемента в РФА. — Ж. анал. хим., 34 (1979) 10/19. Блюм И. А. Обобщенная интерпретация точности и нижней границы определения методов химического анализа. — Завод, лаб., 43 (1977) 1441/1444. Блюм И. А. Воспроизводимость и границы обнаружения фотометрического анали- за. — Завод, лаб., 44 (1978) 660/666. Davies О. L., Goldsmith Р. Statistical Methods in Research and Production. 4-th Ed. Edinburgh: Oliver and Boyd, 1972. DIN 32 645: Nachweis- und Bestimmungsgrenze.
7 Статистические методы проверки гипотез Все результаты анализа, а также все производные от них показатели всегда со- держат неустранимую случайную ошибку. И всегда важно ее учитывать при сравнениях любых результатов измерений. Возможность учета открывают ста- тистические методы проверки гипотез. При заданной статистической надежно- сти (и соответствующем ей риске) эти статистические методы проверки гипотез позволяют дать объективную и общепринятую интерпретацию результатов ана- лиза. 7.1. Принцип работы Для осуществления проверки выдвигается статистическая гипотеза о генераль- ных совокупностях, из которых извлекаются результаты измерений. По прове- ряемым выборкам результатов вычисляют определенное критическое значение некоторой случайной величины А и находят область Л (при условии, что соответ- ствующее проверяемое распределение выполняется), внутри которой надо ожи- дать А с заданной вероятностью Р. Если же критическое значение А лежит вне области Л, то исходная гипотеза отбрасывается. Различие между гипотетиче- скими и наблюдаемыми величинами называется значимым или статистически достоверным. Однако зто различие не может служить достаточно надежной мерой оценки различия в самих генеральных совокупностях, к которым отнесе- ны результаты измерений. Из статистически достоверной разности, например, двух средних zi — ^2 = Д^12 еще не следует, что соответствующие совокупно- сти отличаются именно на величину Джщ- Поэтому ни в коем случае нельзя делать вывод о некотором конкретном числовом различии, опираясь на резуль- таты проверки. Если критическое значение А находится внутри области Л, то проверяемая гипотеза принимается. Однако из этого не следует еще, что она совершенно верна. Можно только сказать, что результаты измерений ей не про- тиворечат. Поэтому такое различие в результатах называют недостоверным или незначимым. Из утверждения, что разность некоторых величин статистически незначима, еще не следует их равенство. Вопрос о том, можно ли рассматривать такую “незначимую” разность одновременно и как “чисто случайную”, нужно решать пр полном понимании статистических методов проверки гипотез (см. [1, 2. 7]) Решение об отбрасывании или принятии статистической гипотезы принима- ется по выборочным данным. Поэтому приходится считаться и с возможностью ошибочного решения Если с вероятностью Р, установленной до проведения про- верки, отбрасывается, например, гипотеза о том, что средние хг и Х2 принадле- жат к одной генеральной совокупности, то отсюда следует вывод о различии этих двух средних. Но вероятность того, что оба средних все же принадлежат к одной и той же генеральной совокупности, равна а = 1 — Р. Следовательно,
7.1. Принцип работы 115 можно ввести риск а того, что при использовании критерия А > Л будет от- брошена гипотеза, которая в действительности справедлива. Такое ошибочное заключение, возможное в 100а% всех случаев, называется ошибкой первого ро- да. Напротив, может случиться, что, несмотря на А < Л, гипотеза принимается, хотя она ошибочна. Это ошибочное заключение называют ошибкой второго рода или риском /3. Допустимый процент возможных ошибок первого рода — вопрос взаимной договоренности, кроме всего прочего здесь должны приниматься во внимание возможные последствия принятия ошибочного решения. Ложные решения, на- пример, при экспертизе могут иметь более серьезные последствия, чем ошибоч- но декларированная чистота химического реактива. Поэтому в первом случае должны быть предусмотрены более высокая достоверность и, следовательно, бо- лее низкое число возможных ошибок первого рода, чем во втором случае. Обыч- но придерживаются следующих правил: 1. Проверяемая гипотеза отбрасывается, если ошибка первого рода может появиться в менее чем 100а = 1% всех случаев (т.е. Р > 0,99). Тогда рассма- триваемое различие считается значимым. 2. Проверяемая гипотеза принимается, когда ошибка первого рода возможна в более чем 100а = 5% всех случаев (т. е. Р < 0,95). Тогда рассматриваемое различие считается незначимым. 3. Рассматриваемую гипотезу надо обсуждать дальше, если число возмож- ных ошибок первого рода лежит в интервале между 5% и 1% (0,95 < Р < 0,90). Обнаруженная разность интерпретируется как спорная. Часто дополнительные измерения могут прояснить ситуацию. Если по каким-то причинам дополни- тельных измерений окажется недостаточно, то полученные данные следует ин- терпретировать в расчете на самый неблагоприятный случай. Эти три правила будут использоваться в дальнейшем. Однако стоит еще раз подчеркнуть, что выбор а является делом обоюдной договоренности и что кро- ме общепринятых могут выбираться и другие значения. Например, при решении многих внутрипроизводственных вопросов достаточным считается число ошибок первого рода 100а = 10%. Напротив, в особых случаях практически должна быть исключена возможность ошибочного решения (например, при оценке ток- сического действия фармацевтического препарата). Тогда проверяемая гипотеза отбрасывается, как только число возможных ошибок первого рода достигнет та- кого пренебрежимо малого уровня, как, например, 100а% = 0,1%. Риски ошибок первого рода а и ошибок второго рода /3 при прочих равных условиях зависят друг от друга. Чем меньше выбирают а = 1 — Р, тем больше будет /3 (и наоборот). Поэтому нет никакого смысла для проверки значимости выбирать слишком высокое значение Р (а следовательно, и очень низкое а), так как из-за этого очень вырастет неизвестное /?. Практически это ведет к тому, что никак не удается выяснить, каковы же отличия от нулевой гипотеза (см. также выше обсуждение, следующее за формулой (6.21)). При интерпретации критериев иногда приводят данные о “ступенях значимо- сти”, например, Р = 0, 90 симптоматическое различие, Р = 0,95 значимое различие, Р = 0,99 очень значимое различие, Р = 0,999 в высшей степени значимое различие
116 Глава 7. Статистические методы проверки гипотез Такая градация может ввести в заблуждение, так как она никак не связана с вероятностью ошибки (3. Она указывает прежде всего на ошибочное проведение проверки, когда уровень значимости критерия назначается не до его проведения, а только после. [Выбор Р, а следовательно, и а относится (см. выше) к фазе планирования эксперимента!] Гипотеза, формулируемая для статистической проверки, может относиться к параметрам предполагаемого распределения генеральной совокупности (напри- мер, к среднему р или дисперсии а2 нормального распределения). Критерий для проверки такой гипотезы о параметрах называется параметрическим критери- ем. Однако не всегда можно сказать заранее, какая именно функция распре- деления имеет место. Поэтому были разработаны методы проверки, позволяю- щие сравнить распределения, причем не зная их параметров или формы. Такие критерии, основанные на сравнении функций распределения (а не параметров), называются непараметрическими критериями. Они имеют определенные пре- имущества по сравнению с параметрическими благодаря меньшим требованиям к их применению, большему диапазону возможностей и часто большей простоте реализации [12]. Конечно, нужно считаться и с часто более низкой точностью этих критериев по сравнению с параметрическими. Результаты статистических методов проверки часто бывают неудобны для аналитиков. Во многих случаях они дают незначимые (Р < 0, 95) или спорные (О, 95 < Р < 0, 99) различия, хотя на основе субъективного опыта уже установле- но “истинное” различие. В подобных случаях часто помогают дополнительные измерения. Чем больше получено результатов, тем меньшие различия будут до- стоверно фиксироваться. Ни в коем случае нельзя соблазняться заменой точных данных сомнительными на основании субъективной оценки. 7.2. Сравнение двух стандартных отклонений (Т^-критерий) Пусть требуется сравнить две различные по величине оценки стандартных от- клонений Si и S2 со степенями свободы Д и Д. Надо решить, лежит ли различие между и «2 в границах возможных случайных колебаний (см. разд. 5.3), т. е. можно ли оба значения Sj и «2 рассматривать как оценку одной и той же диспе- рсии а2 генеральной совокупности с нормальным распределением. Проверяемая (параметрическая) гипотеза, следовательно, такова: а2 = — а2. Если данное предположение выполняется, то отношение s2/s2 следует F-распределению (см. разд. 3.3.2) с Д и Д степенями свободы. Поэтому получаем F = s2/s2 (7.1) Это отношение должно быть больше единицы, поскольку большее из двух стандартных отклонений стоит всегда в числителе (логически обоснованные ис- ключения см., например, в разд. 8.1 или 9.2.2). При наличии логарифмически нормального распределения в уравнении (7.1) надо брать логарифмическое стан- дартное отклонение S|g. Проверяемую гипотезу а2 = а2 = а2 следует отбросить, если F > F(P, Д; Д). Тогда между оценками и s-2 существует значимое раз- личие так, что а2 > <Д, а следовательно, и s[ > s2- Наблюдаемые стандартные отклонения не противоречат принятой гипотезе, если F < F(P; Д; Д); наблю- даемое различие тогда рассматривают как незначимое. Критические значения
7.2. Сравнение двух стандартных отклонений (F-критерий) 117 15 10 Рис. 7.1. Графическая интерполяция Р(Р;П;Ы- F(P', /1! /2) дает табл. А.5 (в конце книги). Промежуточные значения интерпо- лируются, как описано на с. 61. [7.1] В методических целях важно было сравнить воспроизводимость двух мето- дов пламенно-фотометрического определения натрия по амплитуде и по директрисе. Найденные стандартные отклонения (в относительных процентах) дают следующую картину: Метод Стандартное отклонение Степени свободы По амплитуде «1 = 4, 3% /1 = 11 По директрисе 32 = 2, 1% Д = И Из уравнения (7.1) получим F = 4, 32/2,12 = 4,19. Для Д = 11 степеней свобо- ды в табл. А.5 нет числового значения. Для интерполяции нанесем на график табу- лированные значения Р(Р;/1;/г) в зависимости от 1/Д и найдем F(P = 0, 95; Д = Д = И) = 2,82, а также F(P = 0,99;/1 = Д = 11) = 4,46 (рис. 7.1). По су- ществующим правилам (см. с. 115) нет оснований для принятия решения, так как F(P = 0, 95;/1 = Д = 11) < F < F(P = 0, 99; Д = Д — 11). Поэтому для метода с меньшей случайной ошибкой — метода директрисы — были проведены дальнейшие исследования, в результате которых получилось стандартное отклонение з'2 = 2, 4% с Д = 24 степенями свободы. Из уравнения (7.1) получили F = 4, 32/2, 42 = 3,21; интер- поляцией, аналогично рис. 7.1, нашли F(P = 0, 99; Д = 11; Д = 24) = 3,09. Поскольку F > F(P — 0, 99; Д = 11; Д = 24), различие в воспроизводимости между обоими мето- дами оказывается установленным с риском не более допустимой ошибки первого рода, равной 100а = 1%; следовательно, метод директрисы имеет меньшую случайную ошиб- ку. Имеющаяся между обоими методами анализа разница в воспроизводимости вначале не была признана из-за малого числа измерений. Только при увеличении числа сте- пеней свободы для меньшего стандартного Отклонения ее удалось установить, так как в этом случае метод проверки работает с большей четкостью. На это обстоятельство надо обращать особое внимание, когда отношение двух стандартных отклонений si/«2 получается неблагоприятным, как это было в первой серии опытов.
118 Глава 7. Статистические методы проверки гипотез Рис. 7.2. Номограмма для проверки гипотез по F-критерию. С помощью приближения, данного в табл. А.5а для Р 0, 95 и Д = f2 = f, F(P = 0, 95,/) = [115/(/ + I)2] + 2 по уравнению (7.1) получим 11 5 Cf = + 2] (7.2) При этом Cf > 1(±0,05) означает, что между sj и S2, видимо, существует различие. В пределах 3 < / < 20 такую оценку можно получить без обращения к таблицам. На практике эту проверку можно провести и графически, когда оба стандартных отклонения имеют одинаковые числа степеней свободы, т. е. когда fi = Д = /. Соответствующая номограмма приведена на рис. 7.2. На N-образную шкалу наносят отношение si/s2 — у/F, а затем отыскивают на сетке графика точку с координатами П(/> V^F). По положению этой точки относитель- но двух кривых можно судить о проверяемом различии. На рис. 7.2 Показана такая графическая проверка для значений sj и s2, взятых из примера [7.1]. Из рис. 7.2 хорошо видно, сколь большим должно быть отношение Si/$2, что- бы вообще можно было взять на себя смелость утверждать, что различие между двумя стандартными отклонениями существует (1% < 100а < 5%). При двух се- риях измерений с Д = Д = 3 степенями свободы такая возможность появляется только после того, что одно из стандартных отклонений становится в три раза больше другого, и даже при Д = Д = 12 степенях свободы для этого метода проверки все еще требуется отношение sj/s2 ~ у^З/Т- Для разницы, значимой в смысле правила трех сигм (100а < 1%), в первом случае (Д = Д = / = 3 сте- пени свободы) достаточно, чтобы одно из стандартных отношений было в пять раз больше другого, во втором Случае (Д = Д = / = 12 степеням свободы) — примерно в два раза. Случайные ошибки методов анализа можно оценить с достаточной точностью из больших серий измерений. Значимость различия в значительной степени зависит от Д. Поэтому при подобных сравнениях для
7.3. Сравнение нескольких стандартных отклонений (Критерий Бартлетта) 119 меньшего стандартного отклонения надо предусмотреть как можно больше сте- пеней свободы (см. пример [7.1]). Бывает, что из обширных предварительных исследований или из табличных данных известно стандартное отклонение <т0. Тогда интересно узнать, согла- суется ли с «то большая из оценок а, найденных в текущих исследованиях с f степенями свободы. Значит, надо проверить, есть ли различие между сто и ст в той генеральной совокупности, к которой принадлежит s; отсюда проверяемая гипотеза сводится к ст2 = Стц. Эта гипотеза отбрасывается, если х2(ЛЛ f (7.3а) Отбрасывание гипотезы а2 = ст2 означает, что а — стандартное отклонение ге- неральной совокупности, к которой относится оценка s, больше, чем стандартное отклонение <tq. Напротив, если существует предположение, что оценка s стан- дартного отклонения а меньше, чем «то, то проверяется та же гипотеза а2 = Стц. Эта гипотеза отбрасывается, если Sq Хг(1-Р,/) Со f Если выполняется неравенство (7.36), то s принадлежит генеральной сово-. купности, стандартное отклонение_которой а значимо меньше, чем стандарт- ное отклонение ао. Величины х2(Р,/) (Р = 0,95 и 0,99), а также х2(1 — P,f) (1 — Р = 0,005 и 0,01), требуемые для оценки по уравнениям (7.3), берутся из табл. А.4 (с. 245). [7.2] В руководстве для сталелитейных заводов [5] указано стандартное отклонение потенциометрического определения хрома ао — 0, 017% для концентраций около 3% Ст. При исследованиях получилось несколько более высокое значение з = "О, 024% Ст при f = 6 степенях свободы. Надо выяснить, не повысилась ли в самом деле случайная ошибка. По неравенству (7.3а) при у2(Р = 0, 95; f — 6) = 12, 6 получается 0,0242 0, 0172 12,6 = 1,99 < = 2,10 6 Следовательно, нет никаких оснований отбрасывать гипотезу ст2 = а2. Поэтому нельзя утверждать, что имеет место реальное завышение случайной ошибки. 7.3. Сравнение нескольких стандартных отклонений (Критерий Бартлетта) Пусть получено m различных независимых друг от друга оценок стандартных отклонений si,S2...sm с /1>/2---/т степенями свободы соответственно. При этом предполагают, что число степеней свободы каждой оценки больше двух. Надо выяснить, можно ли интерпретировать различия между m отдельными стандартными отклонениями как чисто случайные, т. е. можно ли отнести их к генеральной совокупности с нормальным распределением и единым стандарт- ным отклонением а. Проверяемая (параметрическая) гипотеза, следовательно, такова: 2 2 2 2
120 Глава 7. Статистические методы проверки гипотез По Бартлетту [6] для проверки этой гипотезы используют выражение, при- ближенно распределенное как х2: Х2= 2,303(А^«2-£л^«72) (7.4) Здесь f3 — общее число степеней свободы, s — стандартное отклонение из урав- нения (5 1), fj — число степеней свободы j-й оценки (/, > 2), s3 — стандартное отклонение j-й оценки Найденная таким образом величина х2 сравнивается с процентной точкой хи-квадрат-распределения х2(73,/) (табл. А.4). Если есть m серий измерений, то число степеней свободы для х2(73, /) берется равным f = m— 1. Проверяемая гипотеза отбрасывается с ошибкой первого рода 100а% = 100(1 — Р)%, если X2 > Х2(Р, f)- Это значит, что некоторые из имеющихся оценок sj принадлежат- генеральным совокупностям, дисперсии которых больше, чем а2. Значение из уравнения (7.4) всегда несколько завышено, и если оно лишь ненамного превышает х2(7э,/), то х2 корректируют по формуле X*2 = х2/с ;и сравнивают снова. А константу С получают из выражения с ~ 3(^ETj +1 И только когда х*2 > Х2(Р, f), различия между некоторыми стандартными отклонениями рассматривают как значимые. [7.3] Стандартные отклонения объемного газового определения углерода были най- дены для четырех проб сплавов с близким содержанием углерода, но различным со- с тавом. Надо выяснить, есть ли между ними различия. (7.4а) (7.5) Про- Содержа- Стандартное отклонение, % С Степени свободы Тип легирования ба. ние, % 1 1,03 0,005 % С 24 Сг1,4% 2 1,23 0,007 % С 32 Si 1,2 %, Сг1,2% 3 1,30 0,010 % С 28 Ферромарганец 4 1,38 0,008 % С 32 Нелегированная сталь Стандартное отклонение преобразуют по формуле Sj — 1000s7 для получения целых чисел и подставляют в уравнение (7.4), пользуясь следующей схемой: $ fj Ж IgSj Zigsj 5 25 24 600 1,3979 33,5496 7 49 32 1568 1,6902 54,0864 10 100 28 2800 2,0000 56,0000 8 64 32 2 048 1,8062 57,7984 116 7016 201,4344 с2 7016 ,о 5 = ------ = 60,48 116
7.4. Сравнение двух средних (t-критерий) 121 Ig S2 = 1,7816 1161g S2 = 206,6656 X2 = 2, 303(206, 6656 - 201, 4344) = 12,0475 По табл. А.4 для f = m — 1 = 3 степеней свободы находим х2(Р = 0, 99; f = 3) = 11, 3. Так как вычисленное значение х2 лишь немного превышает табличное, приходится скорректировать х*2 и повторить проверку. ' Константа С получается из уравнения (7.5): 1 4.X4.I + J_____1 94 ' .49 ' 9Я ~ .49 111 С = 24 32 , 28 32---+ 1 = 1, 0146 3(4-1) Отсюда по уравнению (7.4а) имеем Проверка с х*2 ничего не изменила в первоначальном результате; между четырьмя стандартными отклонениями существует какое-то значимое различие. Возникает по- дозрение, что это различие вызвано типом легирования пробы ферромарганца (проба 3) с более высоким стандартным отклонением зз = 0, 010%С. Поэтому снова повторяем проверку, но уже без стандартного отклонения 33. При этом получается х2 = 5, 63 при Х2(Р = 0, 95; f = 2) = 5, 99. Теперь между тремя стандартными отклонениями з,, з2 и 34 не обнаруживается никакого различия1^. 7.4. Сравнение двух средних (/-критерий) Пусть даны два средних г, и ж2) которые получены из двух независимых друг от друга серий с п1 и «2 измерениями. Средние слегка различаются. Надо проверить, можно ли объяснить это различие только случайной ошибкой, т. е. принадлежат ли оба средних нормально распределенной генеральной совокуп- ности с одним и тем же средним р. Значит, проверяется гипотеза для данного параметрического критерия: pi = ц2 = Р- Перед ее проверкой надо выяснить, нет ли разницы между стандартными отклонениями обеих серий «х и з2 (по F- критерию, см. разд. 7.2). Если значимое различие между «1 и з2 не обнаружи- вается, то сначала по закону сложения ошибок находят стандартное отклонение для разности двух средних из ni и п2 измерений. Уравнения (4.3а) и (3.4) дают П1 п2 - ж1)2 + Е(х2. ~ х2У /тц + п2 Я1 + п2 - 2 711П2 slfi + $2Л /П1 + п2 /1+Л V «1«2 11 Критерий Бартлетта очень чувствителен к нарушению нормальности, что требует большой осторожности при работе с ним. (Из примеч. ред. 1-го издания — В. В. Налимова.) Кроме того, данный пример не совсем удачен, поскольку, отбросив вместо третьей первую пробу, автор, вероятно, тоже получил бы однородные ошибки. — Прим. ред.
122 Глава 7. Статистические методы проверки гипотез В соответствии с уравнением (5.1) можно теперь записать - /П1 + V «1«2 8Г!-Г2 (7-6) с f = тц + П2 — 2 степенями свободы. Разности |xi — — случайные величины, и при малом числе измерений (как обычно бывает) они следуют t-распределению (см. разд. 3.3.1). Для оценки вероятности появления конкретного значения |aci — ic2| эту величину нормируют делением на Sxl-x3y что Дает t - I*1 ~ / П1Пг S у Щ + 712 {1.1} Вычисленную по уравнению (7.7) величину сравнивают с процентной точкой t-распределения t(P,/) (табл. А.З, с. 244). Проверяемую гипотезу Д1 = щ — ц надо отбросить с ошибкой первого рода 100а = 100(1 — Р)%, если t > t(P,/). Между обоими средними ri и т2 в таком случае проявляется значимое разли- чие. Разность между обоими средними считается незначимой, если t < t(P, /). Критерий t можно сделать более чувствительным, если для случайной ошиб- ки взять значение s*, полученное из предыдущих измерений, с большим числом степеней свободы f*. Конечно, это значение s* должно сохранять строгую экви- валентность, т. е. оно должно быть получено из одной и той же партии проб, одним и тем же аналитическим методом и в одинаковых условиях проведения эксперимента. Уравнение (7.7) тогда принимает следующий вид: t = ~ / П1Пг S* у 711 + П2 И сравнение проводится с t(P, /’). [7.4] Сравнение двух серий анализов по определению моностирола: (7-8) 1) 0,49/0,45/0,45% xi = 0,463%; 31 = 0,023% 2) 0,52/0,55/0,50/0,52% 12 = 0,523%; 32 = 0,021% приводит к F = (0,023/0, 021 )2 = 1, 20 < F(P = 0, 95; /1 = 2; /2 = 3) = 9,55 Поэтому вычисляем /0, 0232 2 + 0, 0212 • 3 з = л / -!------F—l---------= 0,022 с / = 5 степенями свободы и t = |0, 463 - 0,523| / 34 _^3 57 0,022 У/3 + 4 Поскольку t(P = 0, 99; f = 5) = 4, 03, в рамках трех приведенных правил нельзя выявить никакой разницы. Если же воспользоваться значением з* = 0,0292% для мо- ностирола, полученным из предыдущих измерений при f = 10 степенях свободы, то
7-4. (Сравнение двух средних (t-критерий) 123 вместо t = 3,92 получим t(P = 0,99;/ = 10) = 3,17. Простое использование уже име- ющейся информации приводит к тому, что критерий обнаруживает значимую разницу. (Проверку можно было бы уточнить объединением з* и з по правилу з2у„ = /*з*2+ /з2.) Решение о том, можно ли использовать измерения, полученные из предыду- щих экспериментов, принимается на основании одних только логических заклю- чений. При более детальном рассмотрении всего, что относится к веществу, а также методических ограничений во многих случаях даже при очень малых се- риях измерений можно добиться достаточно хороших результатов для принятия решения. Когда Hi = п2 = п, уравнение (7.7) упрощается до |»,-га| ЛГ s V 2 с f — 2(п — 1) (степенями свободы). Если при сравнении si и s2 .F-критерий демонстрирует значимое различие, то можно использовать приведенное Уэлчем [3, 13] приближение, которое пре- образует уравнение (7.7) к виду: |хг — х2[ Z “ (s?/m) + (s2/«2) Число степеней свободы получается из выражения '(sl/»l)2 , (s2/»2)2' (7-9) (7.Ю) /=[(«?Л*1) + (^/”2)]2/ (7.И) П1 - 1 П2 - 1 При этом f округляют до целого числа. Нулевая гипотеза снова отбрасывается при t > t(P, f). Число степеней свободы, вычисленное по уравнению (7.11), всегда меньше, чем у /-критерия при si = s2. Причем оно уменьшается тем сильнее, чем больше разница между si и з2 и чем более различны тц и п2. Вследствие этого снижается точность сравнения двух средних. В случае сравнения, когда si ф з2, важно иметь серии измерений достаточного объема. (О проверках см. пример [8.6].) Бывают случаи, когда приходится проверять значимость различия х и детер- минированного числа ро (например, теоретической величины свойства или тео- ретически найденного содержания). Тогда проверяемая гипотеза будет р = ро, а уравнение (7.7) сводится к t = (7.12) s v где ро — теоретическая величина, nj — число параллельных определений, s стандартное отклонение из уравнения (2.5) с f = п7 — 1 степенями свободы. Проверка, как обычно, проводится сравнением значения t с приведенными в таблице процентными точками t(P, f). [7.5] Две рабочие группы методом микроанализа определяли содержание азота в одном органическом соединении (цинхонине). Были получены следующие значения (в % N): Группа 1: 9, 29 9,38 9,35 9,43 = 9, Збз; «1 — о, Обе 9,53 9,48 9,61 9,68 z2 = 9,57s; з2 = 0, 088 Группа 2:
124 Глава 7. Статистические методы Проверки гипотез Критерий t дает [уравнение (7.7)] t = 4, 03 против 1(Р = 0,99;/ = 6) = 3,71. По крайней мере в одной из групп есть систематическая ошибка. Для исследуемого соединения теоретическое содержание азота равно до = 9,517%. По уравнению (7.12) находим ,д „ I»,». - м2; ' 0,05g 0,08g t(P = 0, 95; f = 3) = 3,18 1(Р = 0, 99; f = 3) = 5, 84. Поскольку <1 > i(P = 0,95,/), можно предположить, что в результаты именно первой группы вкралась систематическая ошибка. Во второй группе отклонение от теоретического значения можно считать случайным, так как <2 < i(P = 0, 95; /). Пример [7.5] представляет собой особенно благоприятный случай для обнару- жения ошибочной серии анализов, так как теоретическое содержание исследуе- мого соединения было известно. Если проверка описанным способом невозмож- на, решение приходится принимать на основании третьей, независимо выполнен- ной серии анализов (см. разд. 8.3). Описанный метод проверки различия между средними пригоден только тогда, когда можно предположить, что имеет место гауссово, а следовательно, и ^-распределение. Однако ранее было показано (см. разд. 3.1), что среднее из п} >5 параллельных определений часто уже следует приближенно нормальному распределению, даже если для отдельных входящих в него значений это требование не выполняется. Если сравниваемые средние Г1 и х2 получены из достаточно большого числа измерений, то можно приме- нять /-критерий и тогда, когда о функции распределения отдельных значений нет полной информации. Упрощенно можно проверить различие между двумя средними с помощью выборочного размаха [уравнения (2.9) и (5.4)] [4]. С учетом уравнения (5.4) и для % R2 при П1 — п2 уравнение (7.9) переходит в t - (I*1 ~ *2 (7-13) (7-14) (7-15) (Величину d(n7) см в табл. 5 1.) С помощью подстановки получим формулу критерия Лорда Г 1*1 -*2| ДР,/) /2" r/п W « 7П L = ~п--п~ для сравнения с ———— = ЦР', п) (табл. 7.1) ril + /l2 V П Аналогично сравнивают х с ро [уравнение (7.12)]: т_1*~Р0| 4P,f) х / й 7П -1 = -----для сравнения с ——г—z= = Т(Р‘,п) (табл. 7.1) л d(jij)y/n С помощью этих приближений для Р = 0,95 из уравнений (7.14) и (7.15) получают CL = ([а-! - Ё2|)(п - 1)/1,3(Я1 + Я2) (7.16) Ст = (|г-р0|)(п- 1)/1,6Я (7.17) При Ср или Ст > 1(±0,1) можно с вероятностью Р = 0,95 утверждать, что между проверяемыми величинами есть различие. Для такой проверки не очень нужны таблицы В общем при использовании в методах проверки размахов при- ходится считаться со снижением чувствительности критерия. Если проверяемая величина L или Т оказалась чуть ниже критической границы, то надо возвра- щаться к 1-критерию в соответствии с уравнением (7.7) или (7.12).
7.5. Сравнение двух серий анализов 125 Таблица 7.1. Значения L(P,n) и Т(Р;п) п ЦР',п) Т(Р; л) Р = 0,95 Р = 0,99 Р = 0,95 Р = 0,99 2 1,71 4,30 3,18 31,9 3 0,64 1,09 0,89 3,00 4 0,41 0,63 0,53 1,37 5 0,31 0,45 0,39 0,87 6 0,25 0,36 0,31 0,64 7 0,21 0,30 0,26 0,52 8 0,19 0,26 0,23 0,44 9 0,17 0,23 0,21 0,38 10 0,15 0,21 0,19 0,34 Приближение в области 4 < л < 10 L (Р = 0,95; л) = 1,3/(л - 1); L (Р = 0,99; л) « 1,85/(л - 1) Т(Р = 0,95; л) = 1,6/(л - 1); Т(Р = 0,99; л) * 3,20/(л - 1) 7.5. Сравнение двух серий анализов Пусть даны две серии анализов х^ ...хт и yi .. .ут, выполненных независимо друг от друга. Каждый j-й результат анализа (z; и у7) принадлежит одной и той же пробе. Надо выяснить, есть ли разница между обеими сериями. Если обе серии одинаковы, разности dj = у} — х} будут беспорядочно рассе- иваться вокруг нулевого значения. Надо проверить, принадлежит ли средняя разность d — djjm генеральной овокупности с параметром рв = 0. Полу- чается следующая схема расчета (“расширенный t-критерий”): £1 У1 - У1 - dm — Ут хт Ут = — d=L,j = ldj/m Разности не должны зависеть от измеряемых величин х и у. Это проверяется графически. Отклонение среднего d от ожидаемого значения, равного нулю, проверяется в соответствии с уравнением (7.12) по t=®/^ (7.18) Sd sd = .fcty (7 19) у m, — 1 c f — m — 1 (степенями свободы). Проводят сравнение обычным способом по процентным точкам /-распреде- ления (см. табл А.З). При t > t(P, f) можно констатировать разницу между
126 Глава 7. Статистические методы проверки гипотез сериями. Однако из этого эксперимента нельзя без дополнительной информации найти систематическую ошибку в какой-либо серии. [7.6] Для проверки стабильности электролиза растворов хлоридов щелочных метал- лов определяли содержание NaOH до (т) и после (у) фильтра. Надо узнать, есть ли подобие между обеими сериями анализов. х у d = y~x (мг NaOH/л щелочи) 100,1 96,6 -3,5 115,1 115,6 +0,5 130,0 125,5 -4,5 93,6 94,0 +0,4 108,3 103,3 -5,0 137,2 134,4 -2,8 104,4 100,2 -4,2 97,3 97,3 ±0 Е4 = -19Д; -.3= -2,40 sd - 2,32 (f=l степеней свободы) « = -^^ = 2,93, Г(Р = О,95;/=7) = 2,36, »(Р = 0,99;/= 7) = 3,50. Так как t(P = 0, 95; f) < t < t(P = 0, 99; f), между обеими сериями можно предпо- лагать разницу такого порядка, что результаты после фильтра в среднем ниже, чем до фильтра. Если надо сравнить таким образом более двух серий анализов, то приходится применять двухфакторный (двухвходовый) дисперсионный анализ [1, 7, 11]. Для сравнения двух больших серий измерений можно воспользоваться непа- раметрическим “критерием знаков”, опирающимся на знаки разностей d}. По совокупности всех т разностей определяют к+ — число значений с d > О к~ — число значений с d < О В случае равенства к+ и к~ серии могут различаться только в пределах слу- чайной ошибки, следовательно, нужно проверить нулевую гипотезу P(d > 0) = Р(с/ < 0) = 0, 5. Это односторонний критерий. Для ответа на вопрос, значимо ли одна серия измерений больше другой, подсчитывают число к+ разностей с d > 0. Нулевую гипотезу следует отбросить при р—^(ЛЛ;/2) (7.20) ft "Г 1 где f\ = 2(к~ + 1) и /2 = 2к+ — числа степеней свободы.
7.5. Сравнение двух серий анализов 12' Таблица 7.2. Минимальное число к+ (или к~) для значимого различия до критерию знаков [вычислено по уравнению (7.20)] т к+ а (или к~ г) Р = 0,95 Р = 0,99 5 5 — 6 6 — 7 7 7 8 7 8 9 8 9 10 9 10 12 10 11 14 11 12 16 12 14 18 13 15 20 15 16 25 18 19 30 21 22 40 26 28 50 32 34 60 38 40 80 49 52 При обратном вопросе (т. е значимо ли одна серия меньше другой) для про- верки пользуются формулой __ (7-21) где /1 = 2(fc+ + 1) и /2 = 2&~ — числа степеней свободы. [7.7] На основании результатов примера [7.6] с помощью критерия знаков надо про- верить, значимо ли результаты после фильтра в среднем более низкие, чем до фильтра. Значением d« = 0 для расчета можно пренебречь. По уравнению (7.21) получим прй к~ = 5 и = 2 -4— = 1,67 < F(?= 0, 95; /1 =6;f2 = 10) = 3,22 J + 1 С помощью менее чувствительного критерия знаков между обеими сериями авали- зов не удается обнаружить существенной разницы. Непараметрический критерий знаков требует только непрерывности некото- рой функции распределения генеральной совокупности. Поэтому его нельзя применять для дискретных (счетных) методов анализа. Благодаря тому что он прост и не связан предпосылками, его удобно применять для быстрой при- ближенной оценки значимости различия двух серий измерений. Расширенный
128 Глава 7. Статистические методы проверки гипотез Таблица 7.3. Границы (Р — 0,95) для критерия серии Вальда-Вольфовица к+ к- Нулевая гипотеза принимается для N меньше, чем N больше, чем 2 12...20 3 - а 3 6...14 3 — 3 15...20 4 - 4 5... 6 3 8 4 7 3 - 4 8...15 4 — 4 16...20 5 - 5 5 3 9 5 6 4 9 5 7... 8 4 10 5 9...10 4 - 5 11...17 5 - 6 6 4 10 6 7... 8 4 11 6 9...12 5 12 6 13...18 6 - 7 7 4 12 7 8 5 12 7 9 5 13 7 10...12 6 13 8 8 5 13 8 9 6 13 8 10...11 6 14 8 12...15 7 15 а Черточка обозначает: критерий неприменим. f-критерий особенно удобен при больших сериях [уравнение (7.18)]. Однако при сериях большого объема критерий знаков дает мало информации (см. табл. 7.2). Разности d}, возникающие при сравнении двух рядов измерений, должны иметь нерегулярное чередование положительных и отрицательных знаков. Од- нако иногда наблюдают то короткие, то более длинные серии разностей d3 > О и dj < 0. Тогда возникает вопрос: следует ли считать такое частое появление одинаковых знаков все еще случайным? На этот вопрос легко ответить, приме- нив непараметрический критерий серий Вальда-Вольфовица. Определяют число разностей с положительными и отрицательными знаками (k+ и k~). Число се- рий N в экспериментально полученных данных нужно сравнить со значениями из табл. 7.3. Нулевая гипотеза — рассеяние знаков совершенно случайно — принимается, если при данном k + и k~ число серий N меньше или больше, чем указанные границы.
7.6. Сравнение частот 129 [7.8] При сравнении двух серий измерений были получены разности со знаками + + + 4 - + +. Следовательно, к+ = 6, к~ = 7 и N = 3. По табл. 7.3 определяем, что для к+ = 6 и к~ = 7 число серий должно быть ЛГ<4иЛГ>11, когда нулевая гипотеза при Р = 0, 95 отбрасывается. В данном случае при А = 3 это как раз имеет место, поэтому нулевую гипотезу следует отбросить и предположить, что возможна периодичность. 7.6. Сравнение частот Различие между двумя отсчетами ап и х%, подчиняющимися распределению Пуассона, можно интерпретировать аналогично тому, как интерпретируют раз- ность между двумя средними. В предположении, что ап > 15 и х? > 15, распре- деление Пуассона можно приближать гауссовым распределением (см. разд. 3.2). Проверяют, принадлежат ли обе вычисленные частоты двум генеральным со- вокупностям с одним и тем же параметром х, т. е. справедливо ли равенство xi = Хг = х. Затем предполагают, что ii и хг — абсолютные значения, по- лученные за два отрезка времени 71 и 7г, а не отнесенные к единице времени (например, минуте) значения. Если это предположение справедливо, получают следующее выражение: и - |аиТ2 - x-iT^/y/TiT^xi + т2) (7.22) подчиняющееся нормальному распределению. Сравнением с табличным tz(P) можно обычным путем оценить значимость различия между обоими числовыми результатами. [7.9] Измерения a-активности двух препаратов дали щ — 17 и V2 — 13 импульсов в минуту. Первый результат подсчитан за шесть, а второй — за семь минут. Результаты можно представить следующей таблицей: Проба Частота импульсов Время счета Число импульсов 1 щ = 17 71 = 6 11 = 102 2 »2 = 13 7г =7 Х2 = 91 В соответствии с уравнением (7.22) получим и = (102 • 7 - 91 • 6)/-/б- 7(102 + 91) = 1,87 Из табл. А.2 находим и(Р = 0,95) = 1,96. Следовательно, разность между обоими результатами недостаточно велика, чтобы можно было считать ее значимой. Если приближение распределения Пуассона гаусовым распределением невоз- можно из-за малого числа данных (aij < 15; а:2 < 15), то можно провести провер- ку при помощи следующего Р-критерия: Т2(2аи + 1) Т1(2т2 +4) где Т\ и Т2 — два интервала счета. При этом предполагают, что верно 72(2ti + 1) > 7i(2a:2 + 1), т.е. что дробь больше единицы. Подсчитанные частные сравнивают с процентными точками (7.23)
130 Глава 7. Статистические методы проверки гипотез F-распределения F(P;/!;/2) при Д = 2zi + 1 и f2 = 2г2 + 1 степенях свободы (см. табл. А.5, с. 246). Различие считается значимым, если F > F(P;/i;/2). [7.10] Обогащение цирконом (ZrSiO«) тяжелых фракций песков контролируется под- счетом числа флуоресцирующих частиц циркона. Было обнаружено 500 вспышек. В двух пробах найдено ц = 15 и хз = 9 флуоресцирующих зерен. Применяя уравнение (7.23), получим 500(2-15 + 1) F~ 500(2-9 + 1) = 1,63 Из табл. А.5а (с. 246) интерполяцией находим F(P = 0, 95; /1 = 31; /2 = 19) = 2, 07. Так как F = 1,63 < F(P = 0, 95; fi; /2), то не выявляется значимое различие между обоими результатами. Как уже было показано ранее (см. пример [6.6]), и здесь при небольшом числе данных этот критерий сравнения имеет очень низкую чувствительность. Применение статистических методов поэтому безусловно необходимо, если из результатов хотят получить обоснованные выводы. 7.7. Выявление грубых ошибок При многократном повторении некоторого измерения какое-нибудь одно значе- ние часто особенно сильно отклоняется в ту или другую сторону без достаточного на то основания. Тогда важно решить, идет ли речь лишь о случайном особенно резком отклонении или о действительно “грубой ошибке”, которая может быть сглажена при дальнейшей обработке числовых данных или — лучше — долж- на быть исключена из повторяющихся результатов измерений [8]. Поскольку в аналитической химии чаще всего речь идет о сериях с малым числом измере- ний, определение грубых ошибок проводят в основном с помощью выборочного размаха [уравнение (2.9)]. Значение, которое может рассматриваться как грубая ошибка, обозначают как ц, ап результатов упорядочивают по величине. Затем вычисляем [9] — я?2 R для п = 3 ... 7 - Х2 “ ХП (7.24а) для п = 8 ... 10 Q = zi - х2 - ®п-1 (7.246) Q = Найденное значение Q сопоставляют с табличным Q(P; п) (табл. 7.4). Вели- чину X! можно считать грубой ошибкой, если Q > Q(P;n).
7.7. Выявление грубых ошибок 131 Таблица 7.4. Числовые значения для <?(Р; п) [9] п Р = 0,90 /=0,95 Р = 0,99 3 0,89 0,94 0,99 4 0,68 0,77 0,89 5 0,56 0,64 0,76 6 0,48 0,56 0,70 7 0,43 0,51 0,64 8 0,48 0,55 0,68 9 0,44 0,51 0,64 10 0,41 0,48 0,60 В области 3 = п = 6 в качестве приближения можно использовать: Ч Я4 Q(P = 0,95;/) « П «+• 1 (7-25) [7.11] При определении графита в сером, чугуне получены следующие результаты (в % графита), упорядоченные по величине: 2,86 2,89 2,90 2,91 2,99 Значение х$ = 2,99% подозрительно велико и похоже на грубую ошибку. В соответ- ствии с уравнением (7.24а) подучим 2,99-2,91 „ „„ Q — —------1— = 0, 62 2, 99 - 2,86 Из табл. 7.4 найдем Q(P = 0, 95; = 5) — 0,64. Так как Q < Q(P,n}), можно считать, что подозрительное значение не грубая ошибка. В дальнейших расчетах его надо учитывать наряду с другими результатами. С помощью указанного в табл. 7.4 приближения для Р = 0,95 из уравнения (7.24а) получим (a?i - z2)(n+ 1) 3,847? Когда Cq > 0(±0,03), можно без всякой табл. 7.4 приближенно оценить как грубую ошибку. Если в результате проверки не удается интерпретировать как грубую ошиб- ку результат, явно выпадающий из ряда данных, тогда стоит воспользоваться для характеристики ряда измерений медианой х [уравнение (2.4)]. Однако надо иметь в виду, что — например, при сравнении нескольких серий измерений нельзя одновременно использовать и медиану, и среднее. Описанный здесь метод выявления грубой ошибки будет недостаточно чув- ствителен, если имеется большое число измерений, потому что вывод этого ме- тода опирается только на подозрительное значение и еще два результата из ряда
132 Глава 7. Статистические методы проверки гипотез измерений. Более эффективен в таких случаях метод, описанный Графом и Хен- нингом [10] и применимый для значений 4 < п < 1000. В этом методе для провер- ки грубой ошибки по всем данным, кроме подозрительного значения, вычисляют среднее арифметическое и стандартное отклонение. Если имеется более десяти измерений, то пропущенное значение считается явной грубой ошибкой при усло- вии, что оно удалено от среднего более чем на 4s1). 7.8. Проверка эмпирических распределений Пусть дан ряд из п измерений. В дополнение к графическим методам из гл. 3 важно установить, можно ли описать эти п значений с помощью принятой теоре- тической модели. Наиболее часто прибегают к моделям гауссова распределения или распределения Пуассона. Для проверки тогда выдвигают нулевую гипотезу о том, что между эмпирическим распределением и теоретической моделью нет никакого различия. Из п значений (п > 50) вычисляют среднее д и стандартное отклонение <7, а затем разбивают п значений на тя у/n классов. Для каждого полученного класса определяют абсолютную частоту h попавших в него значений и сопоставляют ее с частотой ht, теоретически ожидаемой в соответствии с моде- лью. Для разных теоретических распределений частоты протабулированы при <7 = 1. Поэтому прежде всего для их расчета стандартизуют классы по формуле и = (х — д)/<7. Для таких нормированных значений в соответствующей таблице (см. табл. А.1) находят соответствующие им ординаты. Принимая во внимание число измерений п, ширину класса d и стандартное отклонение <7, вычисляют те- оретически ожидаемые абсолютные частоты ht попадания в отдельные классы. Из эмпирических и теоретических частот составляют выражение Если теоретические значения ht для отдельных классов достаточно велики (ht > 5, см., однако, подход Кохрена [11]), то найденное выражение будет сле- довать хи-квадрат-распределению с f = m — к степенями свободы. При этом к представляет число параметров, необходимых для описания выборки. Для нор- мального (гауссова) распределения к = 3 (среднее х, стандартное отклонение s и объем выборки п), для распределения Пуассона k — 2 (среднее х и объем выборки п). Требуемое для отдельных классов значение ht > 5 можно полу- чить, объединяя несколько соседних классов. Если при проверке получается, *) Оценка грубых ошибок — это весьма деликатная задача. Ей посвящена большая литерату- ра. См., например, обзор Н. Г. Микешиной — Завод, лаб., № 3, с. 310-318. — 1966. (Прим. ред. первого издания В. В. Налимова.) Теперь есть специальная монография на эту тему: Benett V., Lewis Т. Outliers in Statistical Data. 2-d ed: New York: J.Wiley, 1984. На русском языке см., например: Кендалл М., Стьюарт А. Статистические выводы и связи. Пер. с англ. /Под Ред. А.Н.Колмогорова.— М.: Наука, 1973, с. 707-712; Дмсонсон Н., Лион Ф. Статистикам планирование эксперимента в технике и науке. Методы обработки данных. Пер. с англ./Под ред. Э. К. Лецкого. — М.: Мир, 1980, с. 285-297; Закс Л. Статистическое оценивание. Пер. с Нем./Под ред. Ю.П. Адлера, В. Г. Горского. — М.: Статистика, 1976, с. 256-261; Химмелъблау Д. Анализ процессов статистическими методами. Пер. с англ./ Под ред. В. Г. Горского. — М.: Мир, 1973, с. 177-181; Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — Изд. 2-е, кн. 1. Пер. с англ. — М.: Финансы и статистика, 1986, с. 199. — Прим. ред.
7.8. Проверка эмпирических распределений 133 что х2 > Х2(.Р> f), то проверяемая гипотеза отбрасывается; между эмипириче- ским и теоретическим распределением существует значимое различие. Различие незначимо, если х2 < X2(P,f) (хи-квадрат-критерий). Вычисление теоретических частот и величины х2 происходит по схеме, при- веденной в примере [7.12]. Значения ординат гауссова распределения у(и) надо брать из табл. А.1. Соответствующие значения для распределения Пуассона можно брать из статистических таблиц, если не использовать метод проверки описанный ниже на с. 136. [7.12] При межлабораторном определении FeO в шлаке получилось распределение частот, представленное на рис. 7.3. Возникает подозрение, что выпадающие значения, полученные лабораторией L, не вписываются в нормальное распределение, с которым согласуются все остальные результаты (а поэтому их надо было бы повторить или отбросить). Их можно проверить с помощью ^-критерия1). Общее число данных п = 55 Среднее р = 6,144% FeO Стандартное отклонение a = 0,182% FeO Ширина класса d = 0, 11% FeO Проводят проверку по следующей схеме (тов — верхняя граница класса): объединяя первые три класса, получают частоту в классе h > 5. ХоЬ h И=Л^. a Ф(и) (табл. А. 1) Л, = —Ф(и) (Л - М2 Л, 5,75 21 -2,17 0,0379 1,2599 5,87 2 }• 10 -1,51 0,1276 4,2416 14,7427 1,5257 5,99 6 J -0,85 0,2780 9,2412 6,11 13 -0,19 0,3918 13,0241 <0,0001 6,23 15 +0,47 0,3572 11,8740 0,823 0 6,35 9 + 1,13 0,2107 7,0040 0,5688 6,47 8 + 1,79 0,0804 2,6726 10,6193 л=55 Х2= 13,5369 « 13,54 При /=5—3=2 степенях свободы находят (табл. А.4) у2(Р = 0,99;/ = 2) = 9, 21. Так как у2 > у2(В, /), подтверждается подозрение, что измеренные величины не описываются гауссовым (нормальным) распределением. При взгляде на последний столбец (/i —/it)2//it видно, что “подозрительная” лабора- тория L вносит очень низкий вклад в у2, всего 1,5257 (1-я строка). Соответственно наи- больший вклад в у2 вносит последняя строка 10,6193. В распределении частот (рис. 7.3) в его правой верхней части видны постоянно появляющиеся значения, полученные ла- бораторией В. Эти значения хорошо воспроизводятся. Можно предположить, что они и служат причиной отклонения от нормального распределения. Повторная проверка без результатов, полученных лабораторией В, дает у2 =8,65 < у2(Р — 0,99;/). По- этому можно утверждать, что именно результаты лаборатории В (а вовсе не лежащие в стороне, как кажется, результаты лаборатории L) служат причиной отклонения от нормального распределения. И Автор пользуется здесь греческими буквами вместо латинских, которые были бы лучше в данном примере, поскольку речь идет о выборочных оценках. — Прим. ред.
134 Глава 7. Статистические методы проверки гипотез Н Н К Н К Н К G I G I G F I G F В I G F В К I Е F В К D Е Е В D D Е А В D С Е A F L L D С С А А L L L С С Н А 5,75 5,99 6,23 6,47 % Fe рис. 7.3. Распределение частот результатов анализа при межла- бс>раторном определении FeO в шлаке. Условие такого использования х2'кРитерия — достаточно большое число (п > 50) дискретных измерений. Если это условие не выполняется, проверку можно провести с помощью непараметрического критерия Колмогорова — Смир- нова. Для этого из данных, полученных экспериментальным путем, вычисляют частоты сумм (см. пример [3.1]) и наносят их в виде ломаной линии на вероят- ностную бумагу. Далее по этим данным находят среднее х [уравнение (2.1)] и стандартное отклонение [уравнение (2.5)] в качестве параметров предполагаемо- го нормального (гауссова) распределения. На вероятностной бумаге получается прямая (см. рис. 3.6). Находят максимальную разность ординат rfmax между этой прямой и ломаной линией и сравнивают, как обычно, с d(P, п) (табл. 7.5). Гипотеза о нормальном распределении отбрасывается, если t/max > <f(P,n). [7.13] В результате восьми титрований получились значения V = 20,23; 20,12; 20,21; 20,17; 20,13; 20,07; 20,24 и 20,19 мл. Надо проверить, следуют ли они гауссову распре- делению. Вычисляем х = 20,17 мл и з — 0, 06 мл, а также соответствующие кумулятивные (накопленные) частоты (значения упорядочены по возрастанию, относительная частота для каждого отдельного измеренного значения 0,125 = 1/8). V, мл Частота Кумулятивная частота, %(= У,) абс. ОТН. 20,07 1 0,125 12,5 20,12 1 0,125 25,0 20,13 1 0,125 37,5 20,17 1 0,125 50,0 20,19 1 0,125 62,5 20,21 1 0,125 75,0 20,23 1 0,125 87,5 20,24 1 0,125 100,0 После нанесения на вероятностную бумагу точек и подбора прямой, соответствую- щей гауссову (нормальному) распределению и проходящей через точки х — s = 20,11 мл;
7.8. Проверка эмпирических распределений 135 Рис. 7.4. Графическая проверка по критерию Колмогорова — Смирнова. Y = 15,9% и х + s .= 20,23 мл; Y = 84,1% (см. рис. 3.6), образуем разности ор- динат между прямой и найденными кумулятивными частотами (см. рис. 7.4). Для х = 20,13 мл получается максимальная разность ординат dma.x = 0,12. По сравнению с d(P = 0,95;п — 8) = 0,288 (табл. 7.5) получается dmax < d(P;n). Следовательно, нет оснований отбрасывать гипотезу о нормальном распределении. Эту проверку можно проводить и аналитически. Для этого нормируют зна- чения а;, по формуле щ — (а;, - x)/s и отыскивают значения гауссова интеграла Y(и,), соответствующие ut (см. табл. А.2). Затем находят разности di = Yi—Y(щ) и сравнивают максимальную из них с d(P, п) из табл. 7.5. Таблица 7.5. Процентные точки (Р = 0,95) для проверки на нормальность по Колмогорову и Смирнову п d(P;n) п d(.P;n) п d(.P;n) 3 0,376 9 0,274 15 0,219 4 0,375 10 0,261 16 0,213 5 0,343 11 0,251 17 0,207 6 0,323 12 0,242 18 0,202 7 0,304 13 0,234 19 0,197 8 0,288 14 0,226 20 0,192 [7.14] Применяя к значениям из примера [7.13] критерий Колмогорова — Смирнова, получаем следующую вычислительную схему:
136 Глава 7. Статистические методы проверки гипотез Uj Ей.= К Г(«,) И1 -1,667 0,125 0,048 0,077 -0,833 0,250 0,203 0,047 -0,677 0,375 0,252 0,123 0 0,500 0,500 0 +0,333 0,625 0,629 0,004 +0,667 0,750 0,748 0,002 + 1,000 0,825 0,841 0,016 + 1,167 1,000 0,867 0,133 И снова все разности dt раположены ниже критической границы d(P = 0, 95; п = 8) = 0,288. Критерий нормальности Колмогорова— Смирнова обладает достаточной чув- ствительностью даже при малом числе значений. Его можно применять также для проверки соответствия любому распределению (например, равномерному распределению, см. [4]). Однако следует иметь в виду, что функция распре- деления, установленная гипотезой, должна быть непрерывной. Проверку различия между эмпирическим распределением и распределением Пуассона можно проводить аналогично. Проще всего сделать это для большого числа исследуемых проб (т > 20). Из имеющихся m результатов вычисляют среднее арифметическое х и по уравнению (2.5) стандартное отклонение s с f = тп — 1 степенями свободы. Это стандартное отклонение сопоставляют со стандартным отклонением, получен- ным теоретически из <т — у/^. Их сравнение проводят при помощи F-критерия [уравнение (7.1)]. Получают F = s2/x (7.27) (F > 1) и сравнивают, как обычно, с F(P;/i;/2) при /1 = т— 1и/2 = °о степенях свободы. Предположение о распределении Пуассона надо отклонить, если F > F(P,f1-,f2). [7.15] Для m = 100 из примера [3.4] Находим х = 395$ имп. [по уравнению (2.1)], з = 71 имп. [по уравнению (2.5)]. Отсюда получается F = 712/3958 = 1,27 Из табл. А.5а интерполяцией находим F(P = 0, 95; Д = 99; /г = оо) = 1, 28. Так как F <F(P-,f1,f2), то нет значимого отличия от распределения Пуассона1^. Литература 1. Смирное А., Дунин-Барковский И. Математическая статистика с техническими приложениями. — М.: Машиностроение, 1963. 1 ) Выбор подходящей функции распределения требует специального внимания. Этому це- ликом посвящена, например, монография Г. Хана и С. Шапиро. Статистические модели в ин- женерных задачах. Пер. с англ./Под ред. В. В. Налимова. — М.: Мир, 1969. — Прим. ред. первого издания В. В. Налимова.
Дополнительная литература 137 2. Kob Н. Gedanken zum statistischen Vergleich von Messsergebnissen. Textil-Praxis, 33 (1960) 231, 367. 3. Welch B. L. The generalization of students problem when several different population variances are involved. — Biometrika, 34 (1947) 28/35. 4. Miller J. C., Miller J. N. Statistics for Analytical Chemistry. Chichester: Ellis Horword Ltd., 1984. 5. Handbuch fiir das Eisenhiittenlaboratorium. Berline/Gottingen/Heidelberg: Springer- Verlag, 1955. 6. Bartlett M. S. Properties of Sufficiency ans Statistical Tests. Proc. Roy. Soc., A 160 (1937) 168. 7. Storm R. Wahrrsheinlichkeitsrechnung, mathematische Statistik, statistische Qualitats- kontrolle. Leipzig: Fachbuchverlag, 1974. [Есть русский перевод: Шторм Р. Теория вероятностей, математическая статистика, статистический контроль качества. — М.: Наука, 1976.] 8. Streuh М. Fehlerhafte Inderpretation und Anwendung von Ausreissertests. — Z. anal. Chem., 303 (1981) 406/308. 9. Dean R. B., Dixon W. J. Simplified Statistics of Small Numbers of Observations. — Anal. Chem., 23 (1951) 636/639. 10. Graf U., Henning H.-J. Zum Ausreisserproblem. Mitteilungbl. math. Statistik, 4 (1952) 1/10. 11. Weber E. Grundriss der biologischen Statistik fiir Naturwissenschaftler, Landwirte und Mediziner. 7.Aufl. Jena: Gustav Fischer Verlag, 1972. 12. Lohse H., Ludwig R., Rohr M. Statistische Verfahren fur Psychologen, Radagogen und Soziologen. 2. Aufl. Berlin: Verlag Volk und Wissen, 1986, Кар. 6: Parameterfreie Priifverfahren. 13. Krause B., Metzler P. Angewandte Statistik. Berlin: Deutscher Verlag der Wis- senschaften 1989, S.152ff. Дополнительная литература Bauer P., Scheiber V., Wohlerzogen P. Sequentielle statistische Priifverfahren. Berlin/Heidelberg/New York/Tokyo: Springer-Verlag, 1986.
8 Неоднородный числовой материал Простой дисперсионный анализ Ряд рассмотренных до сих пор вопросов ограничивался некоторыми частными случаями. Так, например, при вычислении и применении стандартного откло- нения или доверительного интервала предполагалось, что есть лишь один един- ственный источник ошибок, а именно ошибки метода анализа. Сравнение сред- них по /-критерию ограничивалось только двумя сериями измерений. Обобще- ние этой проблемы на неоднородном числовом материале, когда действуют более чем одна причина ошибок (например, ошибка пробоотбора и ошибка анализа), а также сравнение более чем двух средних позволяют сделать простой (одно- факторный) дисперсионный анализ. Его применение предполагает нормальное распределение числовых данных, отдельные значения которых получены неза- висимо друг от друга. Дисперсионный анализ чувствителен к отклонениям от гауссова распределения. Поэтому результаты дискретных методов анализа мож- но подвергнуть дисперсионному анализу только после соответствующих преобра- зований (см. [1]). 8.1. Случайная ошибка, возникшая вследствие более чем одной причины Случайная ошибка метода анализа характеризуется стандартным отклонением. Его оценивают по ряду повторяющихся независимых измерений на однородном (гомогенном) материале пробы. Предполагается, что сама эта ошибка не меня- ется при повторении опыта в одинаковых условиях, а именно при повторении анализа в любой лаборатории, при тех же предположениях. На этом основании такую оценку называют оценкой стандартного отклонения воспроизводимости 8w [2]. Для сравнения часто принято анализировать одну и ту же гомогенную про- бу по возможности в разных аналитических лабораториях. При этом каждая лаборатория-участница проводит ряд параллельных определений. Из-за незна- чительного различия в приемах работы разных лабораторий результаты, полу- ченные в отдельных лабораториях, имеют небольшие систематические отклоне- ния. Это хорошо видно, например, в распределении частот из примера [2.2], где результаты разных лабораторий лежат очень близко друг к другу, однако обра- зуют внутри распределения четко различимые группы. Такие систематические ошибки варьируют от лаборатории к лаборатории, вследствие чего они становят- ся Дополнительной причиной ошибок и увеличивают случайную ошибку метода
8.1. Случайная ошибка, возникшая вследствие более чем одной причины 139 анализа (см. гл. 1). Эту ошибку, возникшую вследствие взаимодействия стан- дартного отклонения воспроизводимости и межлабораторной ошибки, называют межлаборатпорным стандартным отклонением sv [2]. Если в каждой участвую- щей лаборатории проведено п} параллельных определений, то межлабораторное стандартное отклонение получается из Sv=4 + nJ*L (8.1) где sl — межлабораторная ошибка. Для одновременного оценивания sw и sv используют простой дисперсионный анализ. Имеющийся цифровой материал делят — в соответствии с его проис- хождением из т различных лабораторий — на т разных групп. Внутри этих групп должны быть случайные ошибки одинаковой величины. Так ли это, опре- деляют при помощи критерия Бартлетта (см. разд. 7.3). Если обнаруживаются значимо различные ошибки, то результаты надо объединить в группы с одинако- вой воспроизводимостью. Величины, необходимые для дисперсионного анализа (суммы квадратов, степени свободы, дисперсии), подсчитывают по следующей схеме (для упрощения обозначений sv, sw и sl заменены на si, s? и s*: Источник Сумма Степени „ Компоненты - Дисперсия „ квадратов свободы дисперсии Разброс между т группами Разброс внутри т групп (ошибка опыта) QSi = ^nJ(iJ - х)2 fi = т - 1 з2 = si=S2 + n}s*2 Qs2 ~ Е Е(*л “ h = n-m = Общий QS — QSi + QSi f =: fi + /2 разброс = E(*u-*)2 =n-l Суммы квадратов “внутри групп” и “общую” вычисляют по уравнению (2.6а). Расчет суммы квадратов “между группами” во избежание ошибок ведется по суммам отдельных серий вместо средних х) по уравнению: г (Г, - = Г (8.2) ‘ П3 п Для симметричных планов исследований с ni = пг • • • — ni (“сбалансирован- ные планы экспериментов”) легко можно получить искомую дисперсию с помо- щью микрокалькулятора, позволяющего делать статистические расчеты. Для каждой отдельной группы получают - среднее группы х3 = ^хз*/пз (» -»)! (8'3’ - дисперсию группы = > —- * тэ — I
140 Глава 8. Неоднородный числовой материал Отсюда получим «2 = S^2/m <8’4) х п - 1 Вычисления можно проверить по тождеству (тп — l)s2 + (п — m)«2 = (n — l)s*2 (8.5) Прежде всего проверяют гипотезу о том, что между s2 и s\ нет значимого различия (нулевая гипотеза <т2 — сг^). Это равнозначно тому, что в уравнении (8.1) величина а*2 = 0. Для проверки нуль-гипотезы составляют отношение из уравнения (7.1) F = «2/з2 (8.6) При этом дисперсия “между сериями” (s£) всегда стоит в числителе дроби. Нуль-гипотеза не отвергается, если F < F(P; fa; fa)- В этом случае материал считают однородным, что позволяет объединить суммы квадратов обеих состав- ных частей ошибки и увеличить таким образом число степеней свободы. Если нуль-гипотеза отбрасывается [F > F(P; fa; /г)], то между «1 и «г оказывается * 1 значимое различие, тогда компонента дисперсии s отличается от нуля и дан- ные приходится считать неоднородными. 8.2. Разложение ошибок на составляющие Общая ошибка метода анализа чаще всего складывается из ряда отдельных част- ных ошибок. Они суммируются по закону сложения ошибок (см. гл. 4). Знание этих частных ошибок важно, например, при разработке нового метода анализа, так как стоит улучшать ход анализа на наиболее ответственной стадии — там, где наибольшая ошибка. Разложение ошибки на две составляющие можно провести с помощью про- стого дисперсионного анализа [6]. [8.1] Из заготовки подшипникового антифрикционного сплава (баббита) было взято m — 6 пробных кернов, каждый по 500 мг. Надо определить, можно ли рассматривать такое количество как репрезентативную (представительную) пробу исследуемого спла- ва. Каждая из этих проб была полностью растворена и проанализирована дважды. Получились следующие результаты (%Sb): 14,72 15,51 14,60 15,10 14,70 14,74 15,05 15,23 14,35 15,23 14,95 14,50
8.2. Разложение ошибок на составляющие 141 Аналогично применим к примеру [8.1] простой дисперсионный анализ. При этом s| вычисляется по уравнению (5.2), так как п7 = 2. Получим si = 0, 2219 (Л = 5), si = 0,47%Sb s22 = 0, 0326 (/2 = 6), s2 = 0,18%Sb Для проверки нуль-гипотезы вычисляем F = 0, 2219/0,0326 = 6, 82;- F(P = 0, 95; j\ = 5; f2 - 6) = 4, 39 Так как F > F(P; fi; /2), между sj и з2 можно предположить различие, которым нельзя пренебречь. Концентрации шести проб имеют больший разброс, чем если бы как предполагалось, действовала только ошибка метода анализа. Ошибку пробоотбора з* находят в виде компоненты дисперсии si из уравнения (8.1) ,2 sl-sl 0,2219 - 0,0326 п в*2 = ----— = —------—!-----= 0, 0942 п_, 2 s’ = 0, 31%Sb Ошибка пробоотбора (s* — 0, 31%) значительно больше, чем ошибка метода анализа («2 = 0,18%). Поэтому рекомендуется для крупнозернистых материалов, склонных к расслаиванию, брать пробы больших объемов. Естественно, исследование будет более громоздким, если надо учесть больше двух причин ошибок. Если, например, кроме ошибки конечного аналитического определения важно выделить еще две ошибки пробоотбора, то получают схему исследования, показанную на рис. 8.1. Основу исследования образует гомоген- ная проба достаточного объема. Полученную из нее часть пробы (аликвотную часть) q подвергают первой контрольной операции (шаг А). В соответствии с п = n}pq параллельные определения Исходная проба q-я часть пробы m = pq гомогенная конечная проба Рис. 8.1. Схема опытов для разложения ошибки на составляющие при действии дву? ошибок пробоотбора и ошибки анализа.
142 Глава 8. Неоднородный числовой материал этой операцией исходную пробу разбивают на q частей. На каждой такой пробе q проводят вторую контрольную операцию (шаг В), т. е. делят каждую часть пробы на р частей. Таким образом получается m = pq “конечных” проб. На каждой из тп конечных проб проводят п} параллельных определений (шаг С). Для определения ошибок пробоотбора обеих операций (также компонент дис- персий и s|) надо расширить данную на с. 139 схему простого дисперсионного анализа в соответствии с рис. 8.1, где отдельные группы делятся еще на подгруп- пы. Простой дисперсионный анализ с подгруппами проводят в две стадии: 1. Прежде всего проводят обычный простой дисперсионный анализ. При этом принадлежность m конечных проб к различным р-пробам оставляют без внима- ния. Согласно схеме, данной на с. 139, выделяют разброс “между конечными пробами”, разброс “внутри конечных проб” и “общий” разброс. 2. На следующей стадии анализа сумма квадратов для разброса “между конечными пробами” разбивается на суммы квадратов “между частями проб” и “внутри частей проб”. Таким образом дважды последовательно проводится простой дисперсионный анализ. Ход расчета можно более наглядно представить следующей схемой: “Общий” разброс Разброс внутри конечных проб Разброс между конечными пробами Разброс внутри частей проб Разброс между частями проб Расчет величин, необходимых для дисперсионного анализа в подгруппах (суммы квадратов, степени свободы, дисперсии), проводят по схеме, приведенной на с. 139, Суммы квадратов “внутри конечных групп” и ’’общую” снова подсчитывают по уравнению (2.6а). Для расчета остальных сумм квадратов используют под- ходящие суммы аналогично уравнению (8.2) (вместо средних значений). Для суммы квадратов “между частями проб” получают рП] = у у Pni QPnj (8.7)
8.2. Разложение ошибок на составляющие 143 ^Источник Сумма квадратов Степени свободы Диспер- сия Компо- ненты дисперсии Разброс между тп ко- пёнными пробами QS1 = п3 Y^(xk] - х)2 1 W Е । И g < II — — Разброс между q частями проб QS2 = рп,^(х -®)2 Л /2 = q - 1 + n}sl+ +pn}s\ Разброс внутри q частей проб QS3 = п} 52(^*J - X к)2 = QSi — QS2 /з = q(p - 1) = fi - /2 о 2 + nJsB Разброс внутри m конечных проб (ошибка опыта) QSi = 52 52 52(ifcj* ~ Хкз)2 /1 = n — m = pqfo - 1) 4 Общий разброс qs = 52(i*ji -х)2 — QS2 + QS3 + QSt f = n — 1 = pqn} - 1 = /2 4- /3 + ft - - Сумму квадратов “между конечными пробами” вычисляют аналогично урав- нению (8.2), а сумму квадратов “внутри частей проб” находят по разности. Искомую ошибку пробоотбора (оценку компонент дисперсии) находят по сле- дующей схеме: Ошибка конечного определения s2 s2 - s2 Ошибка шага В > (g g) s2 - s2 Ошибка шага A «1 = —------ Для компонент дисперсии можно ранее описанным способом (см. разд. 5.2) вычислить доверительный интервал. [8.2] Определение вязкости пластмассы дало сильный разброс данных. Поэтому важно было проверить, на какой стадии метода анализа появляется ошибка [7]. Во внимание были приняты следующие факторы: 1) неоднородность проб, 2) вымывание минеральных добавок, 3) измерение вязкости. Соответственно этим трем факторам было взято 10 достаточно больших проб q = 10 (ai ...аг) (шаг А). Каждая из этих десяти проб была разбита на р = 2 конечные пробы (bi и Ьг) (шаг В). Каждую конечную пробу промывали. После этого на каждой
144 Глава 8. Неоднородный числовой материал pq = m = 20 конечных проб провели по два измерения вязкости (ci и cj) (шаг С). В результате были получены следующие результаты: «1 Я1 «з 05 *1 Ь2 ь2 bi bi bi bi bi bi bi С1 59,8 60,0 65,0 64,5 65,0 65,5 62,5 60,9 59,8 56,0 С2 61,2 65,0 65,8 64,5 65,2 63,5 61,9 61,5 60,9 57,2 «6 о? at a, e10 ь, 62 6> bi bi 62 bi 62 bi 62 68,8 62,5 65,2 61,0 59,6 62,3 61,0 73,0 65,0 62,0 69,0 62,0 65,6 59,3 58,5 61,4 64,0 71,7 64,0 63,0 Дальнейший расчет (здесь проведен с вычислением сумм квадратов) на отдельных ступенях идет как при простом дисперсионном анализе: 1. Преобразование X, = 10z, — 600 O1 ' O1 O1 04 o5 bi bi bi bi bi 62 bi bi bi bi Cl - 2 0 50 45 50 55 25 9 -2 -40 Cl +12 50 58 45 52 35 19 15 +9 -28 Z 10 50 108 90 102 90 44 24 7 -68 zz 60 198 192 68 -61 ZZZ Of, 07 08 e, aio bi bi bi 62 bi bi bi bi bi bi 88 25 52 10 - 4 23 10 130 50 20 90 20 56 - 7 -15 15 40 117 40 30 178 45 108 3 -19 38 50 247 90 50 223 111 19 297 140 1247 2. Расчет сумм квадратов а) Разброс между т = 20 конечными пробами [уравнение (8-2)]: Пс 1О* 2 + 5О2 + 1О82 + 9О2 + ...+5О2 12472 Л. =----------------------------------------= 45 799 2 40 (с fi = т — 1 = 19 степенями свободы).
8.2. Разложение ошибок на составляющие 145 6) Разброс внутри конечных проб (для расчета этой суммы квадратов при п = 2 парал- лельным определениям (см уравнение (5.2)]): QSi = 1[(-2 - (+12))2 + (0 - 50)2 + (50 - 58)2 + ... + (20 - 30)2] = 2645 (<t = п — тп. = 20 степенями свободы). в) Общий разброс (уравнение (2.6а)]: QS = — 22 + 122 + О2 + 502 + ... + 202 + 302 - - 48 444 40 (У = п — 1 — 39 степенями свободы). г) Разброс между q = 10 частями проб [уравнение (8.7)]: 602 + 1982 + 1922 4-... + 1402 12472 U02 =------------------------------------25 о88 4 40 (с fi = q — 1 = 9 степенями свободы). д) Разброс внутри частей проб. В соответствии со схемой, приведенной на с. 142, сумму квадратов и число степеней свободы получают по разности значений из п. а) и г). Следовательно, QS3 = QSi - QSi = 45 799 - 25 683 = 20 116 (с /з = /1 — /2 = Ю степенями свободы). 3. Сводка результатов Источник Сумма квадратов Степени свободы Дисперсия Компо- ненты дисперсии Разброс между т конечными пробами 45 799 19 - - Разброс между q частями проб 25 683 9 2 854 з2 + 2з| + 43д Разброс внутри q частей проб 20 116 10 2012 si + 2з| Разброс внутри т конечных проб 2 645 20 132 з42 Общий разброс 48 444 39 - -
146 Глава. 8. Неоднородный числовой материал 4. Расчет компонент дисперсии Для оценки компонент дисперсии по уравнению (8.8) получают следующие значе- ния: S’,132, _ И01 s;.2W-2.12g211 После обратного преобразования получают si = 13,2 «1=94,0, «1=21,1 «4 = 3, 63, «в = 9, 70, «а = 4, 60 Отсюда следует, что именно ошибка «в, вызванная вымыванием, оказывается наи- большей из трех рассмотренных ошибок. Улучшение метода надо сосредоточить прежде всего на этом этапе. Многоступенчатые (иерархические) опыты описанного здесь вида — эф- фективное вспомогательное средство целенаправленного уменьшения случайной ошибки метода анализа. Если мы хотим, чтобы такой опыт дал достаточно до- стоверную информацию, то каждая частная дисперсия s2, s2... должна иметь по меньшей мере десять степеней свободы. Поэтому особенно на первой стадии (шаг А) следует предусмотреть возможность многократного дробления пробы. Опыт должен быть симметричным, т. е. на каждой ступени следует проводить одинаковое число дроблений. Каждая стадия требует однородных проб (если не надо определять ошибку пробоотбора или чего-то в этом роде). Поэтому при- меняют преимущественно растворы, которые делят объемным путем (табл. 4.1). Наконец, следует учитывать, что исходная проба должна быть достаточно боль- шой. 8.3. Сравнение нескольких средних Для проверки различия между т = 2 средними и itj в разд. 7.4 разность |5Г1 — £2! сопоставляли с ошибкой опыта внутри этих обеих серий. Если эту ошибку опыта обозначить s2, а относящиеся к ней степени свободы, то из уравнения (7.7) для частного случая nj = п2 = получается t - ~ Ж21 Лк *2 V 2 при /2 степенях свободы. Возводя в квадрат, получают (8-9) По уравнению (2.6а) числитель этого выражения соответствует (£>;)' т = n}Y^xl ~х? — сумме квадратов QS\ при простом дисперсионном анализе для разброса “ме- жду сериями” (см. с. 139). Так как в данном случае т = 2, а следовательно, /1 = 1, эта величина одновременно представляет дисперсию s2. В разд. 3.4 было показано, что <2(Р; /2) = F(P; fa = 1; /2). Для общего случая при т > 2 можно записать sl/s22 = F(P;fa;f2) (8.10)
8.3. Сравнение нескольких средних 147 Проверка среднего таким образом сводится к проверке различия между двумя дисперсиями и 4, следовательно, к задаче дисперсионного анализа. Одна- ко теперь есть возможность проверить разность между сколь угодно многими средними. Проверяемая гипотеза при этом сводится к тому, что генеральные со- вокупности, соответствующие средним х}, должны иметь одно и то же среднее ц; следовательно, предполагается, что щ = /12 = • = Дт- Для проверки этой ги- потезы имеющиеся данные подвергают простому дисперсионному анализу. При выполнении нуль-гипотезы [F = А; /2)] между средними нет зна- чимой разницы и проверка на этом заканчивается. Однако если нуль-гипотеза не принимается [F = sf/sl > fi> /2)], то дополнительно проводят попарную проверку средних значений серий при помощи критерия Дункана [1]. Для этого т отдельных средних упорядочивают по убыванию и нумеруют р* = 1,2, 3 ..., т. Разность между какими-либо двумя средними я* и xi значима, если 9 = ®2 Пк + ni > g(P>Pi,f2) (8.11) Числовые значения q(P, Рк,/з) находят в табл. А.6. Для критерия Дункана с заранее заданным q(P, Pk,fz) уровень значимости снижается вместе с числом средних значений, расположенных в порядке убывания между Хк и хр В резуль- тате уровень значимости более высокого порядка определяется выражением Р* = [P(xk;xi) = Р^к1 ’ (8.12) С ростом числа промежуточных средних одновременно возрастает и риск по- явления ошибки первого рода (см. разд. 7.1, а также табл. 8.1). Поэтому бывает целесообразно отказаться от обычных представлений, найти фактический уро- вень значимости и обсудить его. Для попарной проверки средних в литературе иногда применяется расширенная форма t-критерия [уравнение (7.7)]. При этом “множественном критерии” качество проверки снижается гораздо быстрее, чем при критерии Дункана. Поэтому для попарного сравнения средних при т > 2 “множественный t-критерий” не рекомендуется1). Таблица 8.1. Уровни значимости высоких порядков при попарном сравнении т средних по критерию Дункана Р- 0,95 0,99 Дри Х1 > Х2 > х3 > х4 > х5 Р* - 0,95 0,99 1 1 1 0,9025 0,9801 2 1 1 0,8573 0,9702 3 1 1 0,8145 0,9606 4 1 1 Ч Использование критерия Дункана тоже сопряжено с некоторыми трудностями. Вот, на- пример, что пишет об этом критерии такой авторитет в дисперсионном анализе, как Г. Шеффе (Дисперсионный анализ. — М.: Физматгиз, 1963, с. 118): “Я не включил методы множествен- ного сравнения Дункана, так как я не был способен понять их обоснование”. Существует много альтернативных критериев, таких, как Т-критерий, предложенный Дж. Тьюки, и S-критерий, предложенный Г. Шеффе. Описание этих и других подходов на русском языке см., например, в книге Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. Пер. с англ./Под ред. Ю. П. Адлера. — М.: Прогресс. 1976, 600 с. — Прим. ред.
148 Глава 8. Неоднородный числовой материал [8.3] Эталоны для эмиссионного спектрального анализа готовились распиливанием специально гомогецезированного железного прутка квадратного сечения на маленькие пластиночки (3x3 см2). Для проверки однородности каждую пластиночку измеряли четыре раза. Содержание хрома, найденное для каждой пятой пластинки, дает следу- ющую картину. У третьей пробы один анализ выпал вследствие образования окалины. Надо выяснить, можно ли вообще считать исходный железный пруток однородны^, т. е. действительно ли нет значимой разницы в составах отдельных пластинок. 1 2 3 4 5 6 7 8 1,42 1,42 1,42 1,38 1,36 1,37 1,38 1,32 1,42 1,39 1,38 1,41 1,37 1,34 1,37 1,33 1,41 1,38 1,41 1,41 1,37 1,38 1,36 1,34 1,44 1,38 - 1,42 1,39 1,34 1,37 1,32 Среднее 1,423 1,393 1,403 1,405 1,373 1,358 1,370 1,328 1. Преобразование X, = 100х, - 140 № п/п 1 2 3 4 5 6 7 8 +2 +2 +2 -2 -4 -3 -2 -8 +2 -1 -2 + 1 -3 -6 -3 -7 + 1 -2 + 1 + 1 -3 -2 -4 -6 +4 -2 - +2 -1 -6 -3 -8 Суммы +9 -3 +1 +2 -И -17 -12 -29 средние +2,25 Общая сумма -0,75 +0,33 +0,50 - 2,75 - 4,25 - 3,00 - 7,25 -60 2. х2-критерий Результаты анализа для всех восьми пластинок были получены одним и тем же способом. Точки контакта с дугой лежали плотно одна к другой. Поэтому на основа- нии условий опыта и материала не стоит ожидать появления неоднородности ошибки метода анализа и х2-критерий не нужен. 3. Вычисление сумм квадратов [так как пз ^П],П2 по уравнению (8.2)]. а) разброс “между пластинками” [уравнение (8.2)] 92 З2 . I2 . 22 II2 . 172 122 292 y-ir, Э 1 i 11 il л» 602 <3‘51 = т + т' + ^ + т“ + тг + тг + -г + -г-тг = 256’45 44344 4 4 4 31 4 1 4 ' 3 ' 4 ' 4 ' 4'4' 4 (с fi = т — 1 = 7 степенями свободы), б) разброс “внутри пластинок” QS2 = 22 + 22 + I2 + 42 - — + 22 + ... + 82 - — = 55,42 4 4 (с fi = п — т — 23 степенями свободы).
8.3. Сравнение нескольких средних 149 в) “общий разброс” [уравнение (2.6а)] QS = 22 + 22 + I2 + 42 + 22 + ... + 82 - — = 311, 87 4 (с f = fi + /2 = п — 1 = 30 степенями свободы). 4. Сводка результатов Источник Суммы квадратов Степени свободы Дисперсия Разброс между 256,45 7 36,64 пластинками Разброс внутри 55,42 23 2,41 пластинок Общий разброс 311,87 30 - 5. Проверка нуль-гипотезы Согласно табл. А.56, F(P = 0, 99; /1 = 7; f2 = 23) as 3, 60. Так как F > F(P‘, fi; f2), нуль-гипотеза отбрасывается. В отдельных пластинках обнаружено значимое различие в содержании хрома. 6. Попарная проверка Так как в результате проверки по F-критерию нуль-гипотеза отбрасывается, при- ходится проводить дополнительную попарную проверку отдельных средних. Для этого средние упорядочивают по убыванию Номер плас- 1 4 ТИНКИ и нумеруют от 3 2 1 ДО р. 5 Получают 7 6 8 Среднее X3 +2,25 +0,50 +0,33 -0,75 -2,75 -3,00 -4,25 -7,25 Число парал- лельных опре- делений п3 4 4 3 4 4 4 4 4 Порядковый 1 2 3 4 5 6 7 8 номер р Для сравнения, скажем, Xi = +2,25 с Xt = +0,50 по уравнению (8.11) получим |2,25 - 0,5| /2-4-4 _ 4 у/2~И V 4 + 4 Из табл А.6 q(P = 0, 95; р* = 2,/2 = 23) = 2,93. Так как Др*( — 1, получается [уравнение (8 12)] Р* = Р^Рк> < 0,95. Аналогично при дальнейших попарных сравне- ниях Xi относительно Xi находят следующие значения:
150 Глава 8. Неоднородный числовой материал Пары значений \Xi-X,\ 9 й(Р.РьЛ) Ры Р •>< 1 1,92 2,29 3,07 (Р = 0,95) 2 <0,952 « 0,90) Xi-Хг 3,00 3,86 3,17 (Р = 0,95) 4,28 (Р = 0,99) 3 > 0,953 О 0,86) <0,99э «0,97) Xi~X5 5,00 6,44 4,36 (Р = 0,99) 4 >0,994 О 0,96) Х1 - х7 5,25 6,76 4,42 (Р = 0,99) 5 > 0,995 О 0,95) Xi-X6 6,50 8,37 4,48 (Р = 0,99) 6 > 0,99е (> 0,94) х^х. 9,50 12,23 4,53 (Р = 0,99) 7 > 0,99’ О 0,93) При проверке Xi = +0,50 относительно Хз = 0,33 вычисляют точно так же по аналогии |0^0-M3| /2J_3 = /Гп у 4 + 3 Среднее Х< = 0, 50 теперь в (новом) ряду средних становится наибольшим значени- ем. Поэтому оно получает номер р* = 1. Вследствие этого при проверке Х< относитель- но непосредственно следующего за ним (р* = 2) среднего Хз из табл. А.6а получается q(P = 0,95;р* = 2;/г = 23) = 2,93, а значит, Xpki = 1 даст Р* = Р1 < 0,95. Точно так же для проверки Xi относительно Xj находим q = 1, 61 < q(P = 0, 95;р* = 3; ft = 23) = 3, 08. А Дры = 2 даст Р* = Р2 < 0, 952 = 0, 90. Такую проверку проводят для всех m(m— 1)/2 попарных сочетаний. Если в качестве критерия для принятия решений служит значимость Р* > 0, 95 (это справедливо, например, для разностей Xi — Xg), то получается следующая схема: 2 3 4 5 6 7 8 1 2 3 4 5 6 7 + 00 + + + (+) 0 0 0 + 0 + 0 + + 0 + + + + + 4 0 0 + 0 + + Все сравнения с пластинкой 8 показывают значимые различия. Следовательно, Можно предположить, что содержание хрома в этой пластинке (из начала прутка) осо- бенно сильно отличается от его среднего содержания в прутке. Разности между двумя пластинками становятся значимыми тем чаще, чем дальше пластинки друг от друга. Из этого следует, что неравномерности не носят локального характера, а содержание хрома постоянно меняется вдоль всего прутка. Для такой оценки результатов, как описано в примере [8.3], критерий Дун- кана обычно вполне достаточен. Однако для попарного сравнения m средних с Уровнем значимости, который независим от тп, критерия Дункана уже недоста-
8.4. Межла.бора.торные опыты 151 точно. (Так бывает, например, при сравнении эффективности m > 2 фармацев- тических препаратов.) Тогда надо использовать метод, предложенный Шеффё (см. [9]). Между двумя средними х и xi (nj, и п/ измерений) определяют крити- ческую разность D по уравнению D= (-+-") (пг-1)[Т(Р,Л,/2)] У \nj, я;/ (8.13) и проверяют, какие из m(m — 1)/2 пар средних эту разность превышают. [8.4] Используя значения из примера [8.3] при F(P = 0,99; fi =7-,f2 = 23) = 3,60, из уравнения (8.13) получим для п*, = 4 и п/ = 4: D = 1/2,41 (- + -7.3,60 = 5,51 V \4 4/ для п* = 3 и П( = 4 •7-3, 60 = 5, 95 Проводят сравнение всех пар разностей Xk — и получают следующую схему: 2 3 4 5 6 7 8 1 2 3 4 5 6 7 0 0 0 0 0 + + 0 0 0 0 0 + 0 0 0 0 + 0 0 0 + 0 0 0 о о о И снова комбинации данных для пластинок, расположенных далеко друг от друга, показывают значимое различие (Р = 0,99) и подтверждают отклонение в содержании хрома в начале прутка (пластинка 8). 8.4. Межлабораторные опыты Для проведения межлабораторного опыта однородная проба посылается в m независимых лабораторий. Каждая лаборатория выполняет пу параллельных определений. Целями межлабораторного опыта могут быть: - выявление стандартного отклонения воспроизводимости и межлаборатор- ной воспроизводимости (проверка метода), - определение содержания х пробы с высокой точностью и без систематиче- ской ошибки, - перекрестная проверка работы лабораторий. При проверке часто обширного материала данных — независимо от цели межлабораторного опыта — целесообразно начальное графическое представле- ние данных (см. разд. 2.1). На основании гистограмм возможно сделать заклю- чение о работе отдельных лабораторий. Однако подобные эмпирические распре- деления надо интерпретировать с подобающей случаю осторожностью и необхо- димой долей критики (см. пример [7.12]).
152 Глава 8. Неоднородный числовой материал Кроме того, независимо от цели межлабораторного опыта простой дисперси- онный анализ дает основу для оценивания данных. Если в результате межла- бораторного опыта нужно выявить стандартное отклонение воспроизводимости и межлабораторной воспроизводимости [2], то вычисляют в соответствии со схе- мой, приведенной на с. 139, величины Si и $2 со степенями свободы /1 и /2- Отсю- да выводятся межлабораторная v и внутрилабораторная w воспроизводимость [см. также уравнение (6.7)] по формулам v =/(Р = 0,95;/1)31^ (8.14) w = 1(Р = 0,95;/2)s2V2 Эти величины — часто называемые ошибками критерия — указывают допу- стимую разность между двумя отдельными значениями с Р = 0, 95 для обоих стандартных отклонений. Если для среднего ж, полученного из неоднородного числового материала, требуется указать доверительный интервал, то за основу надо взять стандартное отклонение «1, обусловленное неоднородностью. Полу- чается: д s===./ЙЕЙЕ?] (8.15) х/п х/т I у т — 1 / что указывает на содержание пробы в пределах ж+Дж (8.16) Аналогично получается в таком случае доверительный интервал для средне- го серии измерений из п} параллельных определений по формуле Дх, = i(P,/i)si/7n7 (8.17) Если проверка нуль-гипотезы [уравнение (8.6)] не дает значимого различия, то в основу вычисления Д х кладется стандартное отклонение scyM с большим числом степеней свободы / = /i 4- /г- Оказывается [3], что чувствительность оценки в основном определяется чи- слом лабораторий, участвующих в межлабораторном опыте. При степенях сво- боды ниже f = 4 особенно быстро возрастает t(P, f), а также снижается чув- ствительность оценки Дж (см. рис. 3.15). Поэтому в межлабораторном опыте должны участвовать не менее пяти лабораторий. Напротив, число параллельных определений, проведенных в каждой лабо- ратории, меньше сказывается на величине доверительного интервала. В общем случае следует планировать не менее трех и не более пяти параллельных опре- делений. При планировании эксперимента надо заботиться о том, чтобы парал- лельные определения проводились в строго определенных условиях (повторяе- мость и сопоставимость [2]). Большое число п} = 5 параллельных определений надо брать только для довольно сложных исследований (например, стандартных образцов) или если по каким-либо причинам возможны отклонения от нормаль- ного (гауссова) распределения. В каждой лаборатории целесообразно проводить одинаковое число параллельных определений [3]. [8.5] Содержание кремния в пробе ферросилиция определялось в условиях межла- бораторного опыта. Из полученных данных требовалось вычислить среднее проб х, а
8.4. Межлабораторные опыты 153 также межлабораторное и внутрилабораторное стандартные отклонения воспроизво- димости. Были получены следующие результаты: Лаборатории А В С D Е F G 45,09 45,20 45,37 45,23 45,40 45,63 44,93 45,19 45,27 45,45 45,26 45,40 45,65 44,95 45,22 45,30 45,48 45,31 45,45 45,73 44,95 45,25 45,40 45,60 45,39 45,60 45,85 45,14 45,31 45,43 45,62 45,44 45,60 45,85 45,17 Дальнейшие вычисления выполняются по следующей схеме: 1. Преобразование X)t = 100гл Вследствие симметричной организации исследования дальнейшая оценка проводит- ся По уравнению (8.4). Получаем средние и дисперсии по группам: Лаборатории A В С D E F G Xj 21,2 32,0 50,4 32,6 49,0 74,2 2,8 S] 66,2 89,5 110,3 77,3 105,0 111,2 136,2 2. X2 -критерий (см. разд. 7.3) Sj z 66,2 4 264,8 1,8209 7,283 6 89,5 4 358,0 1,9518 7,8072 110,3 4 441,2 2,0426 8,1704 77,3 4 309,2 1,8882 7,552 7 105,0 4 420,0 2,0212 8,0848 111,2 4 444,8 2,0461 8,1844 136,2 4 544,8 2,1342 8,5368 28 2 782,8 55,6196 S2 = 2782,8/28 = 99,39; IgS2 = 1,9973; ; 281gS2 = 55,9251 2 X = 2,303(55,9251 - 55, 6196) = 0,7036 й 0, 70 Х2(Р = 0, 95; f = 6) = 12, 6; так как х2 < х2(Р, f), между дисперсиями групп значимое различие не обнаруживается. Поэтому можно сравнить отдельные серии. 3. Расчет дисперсий S’? = 5-5,528, 3 = 2641,3 S% =695,7/7 = 99,4 S2 = 548,0 (/i = 6 степеней свободы) (/2 — 28 степеней свободы) (/ = 34 степени свободы)
154 Глава 8. Неоднородный числовой материал Проверка: Si(m— 1) = 15 847,8 S?(n — т) = 2 783,2 QSi + QS2 = 18 631,0 4. Вычисление отдельных стандартных отклонений Сначала проверяют нуль-гипотезу = <т2: F(P = 0, 99; /1 = 6; f2 = 28) = 3, 53 Так как F > F(P\ fi\ f2), нуль-гипотезу следует отбросить с 100а < 1% возможной ошибкой первого рода. Дисперсии з? и з2 следует рассматривать как различные; из них получают для стандартных отклонений меж- и внутрилабораторной воспроизво- димости следующие значения: Sv = = у/2641, 3 = 51,4, а также = 0, 51%Si Sw = = ^/99,4 = 10, 0, а также sw = 0,10%Si Согласно уравнению (8.14), получают воспроизводимости w и v [2], равные: w = t(P = 0, 95; f = 28)sw\/2 = 0, 29%Si v = t(P = 0, 95; f = 6)з„\/2 = 1, 77%Si При условии воспроизводимостей два разных значении не должны отличаться боль- ше, чем на w и v. Доля Sv, обусловленная различными лабораториями, получается из уравнения (8.1) и равна Sl = 23 и зь — 0, 23%Si 5. Среднее и доверительный интервал Среднее всех измерений равно х = 45,37%Si. Соответствующий доверительный ин- тервал при условии межлабораторной воспроизводимости вычисляется по уравнению (8.15). Получаем д = _ t(P = 0, 95; Л = 6)si _ 2,45-0,51 >/п ~ у/35 = 0,21%Si Значит, с вероятностью Р = 0, 95 содержание исследуемой пробы равно (45, 37 i 0,21)%Si. Стандартные отклонения внутри- и межлабораторной воспроизводимости в сравнении показаны в табл. 8.2 [4]. Из этой таблицы видно, что между обеими величинами sw и sv нет простой числовой связи (примерно такого типа, что для всех методов анализа sv составляет одинаковую долю от sw). Поэтому sw и sv всегда приходится определять экспериментально.
8.4. Межлабораторные опыты 155 Таблица 8.2. Квадратичные (стандартные) от- клонения для внутри- и межлабораторной вос- производимости при анализе стали [4] Элемент Содержа- ние, % з„, % 3,, % С 0,1 0,004 0,010 0,4 0,005 0,014 1,0 0,006 0,026 Мп 0,3 0,006 0,015 1,0 0,008 0,030 Si 0,3 0,006 0,021 1,0 0,009 0,028 Р 0,001 0,0005 0,002 4 0,003 0,0008 0,0024 S 0,010 0,0006 0,0019 Сг 0,5 0,006 0,009 10 0,04 0,12 Си 0,2 0,005 0,015 Понятие о стандартном отклонении межлабораторной воспроизводимости особенно важно для оценги товарной продукции (например, арбитражный ана- лиз), так как при этом надо принять во внимание разбросы результатов, полу- ченных разными заинтересованными сторонами. [8.6] В сертификате контрольного образца для анализа на определение ГегОз в шла- ке были указаны средние значения, полученные в результате межлабораторного опыта, проведенного в m = 11 отдельных лабораториях (в каждой по п} = 4 параллельных определения). 6, 35—5, 99 — 6,43 — 6,18—6, 19—6, 15—6, 20 — 6, 35—6, 06—5, 80 — 6, ООЙГезОз. Общее среднее (из п = 44 результатов) х = 6, 15s%Fe2O3 Стандартное отклонение среднего зг = 0,18s%Fe2O3 (/ = 10 степеней свободы) Из sj, согласно уравнению (8.4), получается межлабораторное стандартное отклонение, равное si = зу^/nj = 0,18з\/4 = 0, 370%ГегОз При использовании этого контрольного образца в заводской лаборатории были най- дены следующие ид = 3 значения: 6,37 — 6, 35 — 6,42%Fe2O3 х =6,38o%Fe203 зА = 0, ОЗвйГегОз (/ = 2 степеням свободы) Критерий Уэлча [уравнение (7.10)] при n\ = п и п3 = пд дает: л |6,155 - 6, 380| „ „„ t = 1 1 ---- = 3,78 У(0, 3702 /44) + (0, 0362/3) Число степеней свободы, связанное с si, определяется числом m участвующих ла- бораторий. Поэтому число степеней свободы для критерия Уэлча [уравнение (7.11)] в
156 Глава 8. Неоднородный числовой материал данном случае надо принять для п\ = т. Отсюда следует _ [(0,3702/11) + (0,362/3)]2 = 10 6 « П (О.ЗТрД/11)а , (0,036а /З)3 ’ io ' 2 По табл. А.З (с. 244) находим, что t(P = 0, 99; f — 11) = 3,11. В соответствии с пра- вилами из разд. 7.1 между результатами анализа заводской лаборатории и содержани- ем, указанным в сертификате, нужно констатировать различие, так как t > 1(Р; /). В случае очень низких содержаний (например, анализ следов) межлабора- торный опыт нужно оценивать в соответствии с закономерностями, справедли- выми для логарифмически нормальных распределений (см. гл. 2). Тогда х — среднее геометрическое [уравнение (2.2)], sw и sv — относительные стандартные отклонения [уравнение (2.8)], а внутри- и межлабораторную воспроизводимость [уравнение (8.14)] выражают с помощью отношения Xk/xi [уравнение (6.10)] [8]. Для экстремальных содержаний не всегда удается доказать пригодность ло- гарифмически нормального распределения. Несмотря на это, все-таки целесо- образно оценивать межлабораторный опыт в соответствии с закономерностя- ми, присущими этому распределению. Снижение достоверности, возникающее из-за невыполнения этого условия, принимается во внимание в соответствии с табл. 3.3. При очень специальной постановке задачи часто не удается выполнить тре- бование к минимальному чйслу т — 5 лабораторий, рассмотренное на с. 152. В таком случае целесообразно взять две пробы X и У общего происхождения с одинаковым содержанием для исследования в т лабораториях. Обе пробы исследуются по такой схеме: xi и yi как параллельные в 1-й день х? и у2 как параллельные во 2-й день Для обеих проб отдельно проводится дисперсионный анализ, при этом полу- чают [5]: — средние х и У для пх и пу анализов, — стандартные отклонения межлабораторной воспроизводимости sv(x) и sv(y) с т — 1 степенями свободы для каждого, - стандартные отклонения воспроизводимости sw(x) и sw (у) с пх — т и пу — т степенями свободы соответственно. Пробы X и У близко родственны, поэтому их объединяют по формулам Sw - УНЫ + «w(y)]/2, «V = + s?(2/)]/2 (8.18) f = пх + пу — 2т степеней свободы, f = 2(т — 1) степеней свободы. Таким образом можно удвоить число степеней свободы. В результате парал- лельной обработки каждого определения X и У значения х, и у,- коррелированы. Поэтому графическое представление соответствующих друг другу пар значений позволяет сделать дополнительные выводы о возможной систематической ошиб- ке (см. пример [2.14]). Успех межлабораторного опыта определяется главным образом тщательно- стью его подготовки. Выдаваемые пробы должны быть гомогенезированы. Уча-
Литература. 157 ствующие лаборатории должны обладать равной, по возможности высокой, про- пускной способностью. (Рекомендуется проверять это во время планирования эксперимента.) Участвующие лаборатории должны тщательно подготовиться к эксперименту, это относится как к информации о примерном составе проб, так и к определению необходимого числа параллельных определений и представле- нию данных (число знаков после запятой!). При исследовании проб, с трудом поддающихся анализу, часто появляются резко выделяющиеся значения. Такие данные важно обсудить для выяснения причины их возникновения, а не про- сто вычеркнуть (например, путем “уточненного расчета”). Конечный резуль- тат (х; sw ...) должен отражать все полученные и признанные допустимыми значения1-*. Литература 1. Weber Е. Grundriss der biologischen Statistik fiir Naturwissenschafler, Landwirte und Mediziner, 7.Aufl. Jena:Gustav Fischer Verlag, 1972. 2. DIN 51 848, Priifung von Mineralolen (vgl. Verzeichnis allgemeiner Vorschriften). 3. Doerffel K. Planen und Answerten von Gemeinschaftsversuchen. — Z. anal. Chem., 184 (1964) 81/86. 4. Doerffel K., Schulze M. Standardabweichungen bei Verfahren der Stahlanalyse. — Neue Hiitte, 9 (1964) 690/693. 5. Doerffel K. Gemeinschaftsversuche unter Anwendung von Probenpaaren. — Neue Hiitte, 12 (1967) 762/763. 6. Autorenkollektiv (Federf.: К Doerffel und R. Geyer): Analytikum. 8. Aufl. Leipzig: Deutscher Verlag fur Grundstoffindustrie, 1990. 7. Mattias R. H. Use of Subsampling in Control Laboratory Problems. — Anal. Chem., 29 (1957) 1046/1048. 8. Doerffel K., Michaelis G. Auswertung eines Ringversuches im Spurenbereich. — Z. anal. Chem., 328 (1987) 226/227. 9. Sachs L. Angewandte Statistik (Planungs- und Auswertemethoden und -modelie). 4., neu bearb. Aufl. Berlin/Heidelberg/New York: Springer-Verlag, 1974 [Есть русский перевод другой книги этого автора: Закс Л. Статистическое оценивание. Пер. с нем./Под ред. Ю. П. Адлера, В. Г. Горского. — М.: Статистика, 1976.] Дополнительная литература Ohls К., Sommer D. Uber die Beurteilung quantitativer Analysendaten. — Z. anal. Chem., 312 (1982) 195/220. Griepink B. Requirements for Reference Materials. Anal. Proc., 19 (1982) 405/407. Mandel J., Lashof T. W. The Interlaboratory Evaluation of Testing Methods. — ASTM Bull., 239 (1959) 7, 53. D Кроме работ, которые уже упоминались в наших примечаниях, дисперсионный анализ описывается еще в огромном числе источников, в том числе и на русском языке. См., напри- мер: Хикс Ч. Р. Основные принципы планирования эксперимента. Пер. с англ. — М.: 1967, 406 с.; Хъютсон А. Дисперсионный анализ. Пер. с англ./Под ред. Голиковой Т. И. — М.: Ста- тистика, 1971, 88 с.; Ветров А. А., Ломовецки-И Г. И. Дисперсионный анализ в экономике. М.: Статистика, 1975, 120 с.; Аренс X., ЛеИтер Ю. Многомерный дисперсионный анализ. Пер. с нем. — М.: Финансы и статистика, 1985, 230 с. — Прим. ред.
158 Глава 8. Неоднородный числовой материал Schmitt В. F. (Ed.). Production and Use of Reference Materials. Proceedings of the international Symposium, held at the Bundesanstalt fiir Materialprfifung (BAM), Westberlin, 1980. Tukey J. W. Quick and dirty methods in statistics. — Am. Soc. for Qual. Contr.; Transactions of the fifth Annual Convention 1951, S. 189/197. Grieoink H., Marchandise H. Referenzmaterialien. In: Analytiker Taschenbuch. Bd. 6, 3/16. Berlin/Heidelberg/New York/Tokyo: Springer-Verlag, 1986. Davies P. L. Statistical evaluation of interlaboratory tests. (Behandlung von Ausreissern.). — Z. anal. Chem., 331 (1988) 513/519. Mark H., Norris K., Philip W. Methods of Determining the True Accuracy of Analytical Data. — Anal. Chem. Acta [Amsterdam], 61 (1989) 398/403.
9 Статистика прямых линий (Корреляционный и регрессионный анализ) В аналитической химии, как и во всех точных науках, важно найти и охаракте- ризовать связи между результатами измерений. Например, инструментальные методы анализа чаще всего требуют калибровки. Задача аналитиков — поиск калибровочной функции по заданным концентрациям х, и измеренным значени- ям уг и получение из этих данных сведений о прецизионности метода анализа. Все эти проблемы можно рещить при помощи регрессионного анализа. Этот метод применим всегда, когда надо лучше оценить известную заранее зависи- мость между двумя (или несколькими) переменными. При этом значения не- зависимых переменных х задаются уже перед опытом, а результаты измерений зависимых переменных у получаются в ходе опытов. Не всегда известно заранее, есть ли связь между двумя случайными пере- менными. Задача оценки корреляции и заключается в проверке этого. В аналитической химии приемущественно встречаются линейные связи. Изу- чению этих зависимостей с помощью оценки корреляции и характеристики ме- тодом регрессионного анализа посвящена данная глава. 9.1. Проверка взаимозависимости двух переменных (Корреляционный анализ) Зависимость между двумя величинами х и у всегда легко определить, когда слу- чайная ошибка достаточно мала. При большой случайной ошибке связь между двумя величинами смазывается, так как в этом случае результаты рассеивают- ся внутри более или менее широкой области. Тогда говорят о стохастической (вероятностной) зависимости или говорят, что обе величины связаны корреля- ционно. Существование корреляционной связи особенно просто демонстрируется гра- фическим путем [1]: - т пар значений наносят точками на график в заданной системе координат (рис. 9.1,а); - находят центральные значения хну [уравнение (2.4)]; - через точку х проводят ось, параллельную оси ординат; аналогично прово- дить линию, параллельную оси абсцисс через у; - квадранты отмечают знаками плюс и минус; - прозрачную линейку рейсшины сдвигают параллельно вправо от оси у (рис. 9.1,6) до тех пор, пока в верхнем или нижнем квадранте для х оста- нется только одна точка (•). Затем подсчитывают точки пр, расположенные в оставшемся по другую сторону от оси у (пр = 2);
160 Глава 9. Статистика прямых линия Рис. 9.1. Графическое выявление корреляции [1]. - то же повторяют: от оси х влево (рис. 9.1,в) (пр = 2), от оси у вниз (рис. 9.1,г) (пр = 1), от оси у вверх (пр = 3); - все, подсчитанные таким образом результаты складываются с учетом знака квадрантов, в которых они расположены 4 М> = £>₽ (9.1) 1 и сравниваются с NP(P) (табл. 9.1). Связь между х и у при ДГр = 2 + 2 + 14-3 = 8 можно принять с Р < 0, 90. Взаимная зависимость х и у выражается в ковариации sxy. Для тп точек она равна = (9 2) m — 1 Если х и у изменяются в одном направлении, произведение (х,- — x)(yt — у) будет иметь положительное значение, но оно станет отрицательным при изменении х и у в противоположные стороны. Ковариация зависит от величин и размерностей х и у. Поэтому ковариацию делят на стандартные отклонения х и у.
161 9.1. Проверка взаимозависимости двух переменных Таблица 9.1. Границы для графической оценки корреля- ции [1] р Пр(Р) Р Пр(Р) 0,90 9 0,98 13 0,95 11 0,99 14 «г = “ ж)2/(т - 1) (9.3) «у = x/J2(2/> ~ уУ/(™ ~ 1) и получают коэффициент корреляции г = sxy/sxsy (-l<r<+l)Z (9.4) а также коэффициент детерминации В = г2 (9.5) При г = +1 имеет место жесткая положительная зависимость между х и у, при г = — 1 тоже есть зависимость, но отрицательная. В случае г — 0 х и у не зависят друг от друга (некоррелированны). Чем ближе г и ±1, тем более жесткая зави- симость существует между х и у. Коэффициенты корреляции рассчитываются по формулам: г _ Е(*>-*)(у> - у) х/Е(ж> - *) 72(У‘ ~ у)2 - ~Еж.Еу. (9 И"‘Е^-(Е^)2][^Еу>?-(Еу.)2] = (9.6а) (т - l)srSj, [Применяя уравнение (9.6а), проще рассчитать г с помощью любого кальку- лятора, позволяющего выполнять статистические расчеты.] Корреляция между величинами х и у признается только в том случае, когда коэффициент корреляции значимо отличается от нуля. Предполагают, что выбо- рочное значение г принадлежит двумерной нормальной генеральной совокупно- сти (с. 40) с коэффициентом корреляции р = 0, так что обе случайные величины х и у можно считать независимыми друг от друга. Таким образом нуль-гипотеза имеет вид Яо(р — 0). Если нуль-гипотеза отклоняется, это означает, что между х и у признается линейная зависимость. По Р. А. Фишеру выражение < = <9 ” следует ^-распределению с f = т — 2 степенями свободы. Если задать t(P, f), получится £(Р, /)/\/m — 2 — |г|/\/1 — г2 (9-8)
162 Глава 9. Статистика прямых линий Отсюда следуют те границы, ниже которых коэффициент корреляции г уже не отличим от р = 0 (табл. 9.2). Таблица 9.2. Границы г(Р, /) для проверки коэффициентов корреляции f Р = 0,95 Р = 0,99 f Р = 0,95 Р = 0,99 f Р = 0,95 Р = 0,99 1 1,00 1,00 11 0,55 0,68 25 0,38 0,49 2 0,95 0,99 12 0,53 0,66 30 0,35 0,45 3 0,88 0,96 13 0,51 0,64 35 0,33 0,42 4 0,81 0,92 14 0,50 0,62 40 0,30 0,39 5 0,75 0,87 15 0,48 0,61 45 0,29 0,37 6 0,71 0,83 16 0,47 0,59 50 0,27 0,35 7 0,67 0,80 17 0,46 0,58 60 0,25 0,33 8 0,63 0,77 18 0,44 0,56 70 0,23 0,30 9 0,60 0,74 19 0,43 0,55 80 0,22 0,28 10 0,58 0,71 20 0,42 0,54 100 0,20 0,25 [9.1] В примере [2.11] для контроля качества сталей измеряли содержание углерода (т) и прочность на разрыв (у) в отдельных плавках. Требовалось проверить, суще- ствует ли зависимость между этими величинами. Из 40 пар значений примера [2.11] вычисляем = 13, 6600, (£ т,)2 = 186,5956, £ 22 У. = 22 802, (22 s/.)2 = 519 931204, ^2 у2 = 13 021 008 - 7794,53 Из уравнения (9.6) получим 40-7794, 53 - 13,6600-22802 „ т = ....... --- — — ........ = 0,28 \/[40 -4,6974 - 186, 5956][40 - 13 021008 - 519 931204] Из табл. 9.2 |г| < г(Р = 0, 95; / = 38) — 0, 31. Между обоими свойствами материала ие выявлено никакой зависимости. Если из двух взаимосвязанных (коррелированных) случайных величин х и у вычисляют третью z — [/(х;у)], то в законе сложения ошибок надо дополни- тельно учесть еще и степень корреляции между х п у. Для четырех основных действий арифметики — как обобщение уравнения (4.3) — получим следующие закономерности: г - х - J } <г2г = а2х + а2 ± 2гахау (9.9) 4 “ А У J Здесь снова складываются дисперсии абсолютной и относительной ошибок. При корреляции переменных увеличиваетсд^объем вычислений суммарной ошиб- ки (и наоборот). Когда измерения ведутся по дифференциальной схеме, (напри- мер, основаны на вычитании) или в относительных единицах (например, по от- ношению к внутреннему эталону [2]), для одной и той же случайной ошибки при
9.1. Проверка взаимозависимости двух переменных 163 (9.9а) х и у получают — у \/2(1 — г) х/у X Благодаря жесткой корреляции переменных часто удается достичь значи- тельного снижения случайной ошибки величины г, получаемой из х и у. При сравнении часто возникает вопрос: не различается ли степень корреля- ции между переменными х и у в двух рядах измерений? В таком случае надо проверить разность обоих коэффициентов корреляции Гх и гг для mi и шг из- мерений. Для этого составляют выражение ,, = 1,ig у mi+m2—6 (1 - Г1)(1 4-Г2) Рассчитанное таким образом значение сравнивают при f = mi 4- m2 — 4 степенях свободы с t(P, f). Различие считается значимым, если tr > t(P, f). (9.10) [9.2] Для геохимического исследования интересно, существует ли связь между со-, держанием натрия и лития в водах. В первой серии исследований из mi = 10 проб воды получился коэффициент корреляции п = 0, 838. При повторении исследования в дру- гое время года значения, полученные из измерений mj = 15 проб, дали коэффициент корреляции та = 0,738. Согласно уравнению (9.10), получаем tr - 1,1513 (10 — 3)(15 — 3) 10 4-15-6 6 1, 838 0, 262 0,162 • 1,738 = 0,564 Из табл. А.З получается t(P = 0,95;/ = 21) = 2,08. Так как tr < t(P, f), на основании двух коэффициентов корреляции можно считать, что нет значимой разности в степени зависимости, обусловленной временем года. Из коэффициента корреляции можно сделать вывод о том, существует ли линейная зависимость между двумя величинами. При этом представляется воз- можным проверить и критически оценить такие зависимости между достаточно далекими друг от друга величинами. Однако два различных множества дан- ных с одинаковыми коэффициентами корреляции могут подчиняться совершенно разным зависимостям (рис. 9.2). Поэтому из коэффициента корреляции совсем не следует вывод о виде такой зависимости. Расчет коэффициента корреляции без предварительного критического изучения числового материала легко может привести к качественно неверным результатам. Какая-либо недостоверная зави- симость [г = 0, 30 < г(Р = 0, 95; / = 13) — 0, 51] превращается добавлением всего одной пары значений, выпадающей из общего ряда, в значимую зависимость [г = 0,64 > г(Р = 0,99;/ = 14) = 0,61, см. рис. 9.3,а]. Жесткая корреляция в области линейных зависимостей [г = 0,82 > г(Р = 0, 99; / = И) = 0,68, рис. 9.3,6] оборачивается для всей области измерения всего лишь случайной зависимостью [г = 0,19 < г(Р = 0, 95; / = 14) = 0, 50]. Это — следствие нелинейной зависимо- сти между х и у (несмотря на незначительный разброс измеренных значений). Корреляция может быть ложной, если измеренные значения двух параллель- но протекающих совершенно независимых друг от друга временных рядов пе- ресекутся из-за незначительного смещения. Чтобы избежать таких ошибочных интерпретаций, рекомендуется нанести на график имеющиеся пары значений (xt,yt) прежде, чем вычислять коэффициенты корреляции.
Рис. 9.3. Ложные коэффициенты корреляции из-за выпадающих точек, а, б — см. текст. Рис. 9.2. Равные коэффициенты корреляции при совершенно разных зависимостях между х и у. 9.2. Характеристика зависимостей (Регрессионный анализ) 9.2.1. Определение констант Пусть при измерении получили т (т > 2) пар значений Известно, что Между обеими переменными существует линейная зависимость у = а + Ьх и надо вычислить константы этой функции а и Ъ. При этом требуется, чтобы разность между измеренными у, и вычисленными по уравнению значениями У, была воз-
9 2. Характеристика зависимостей 165 Рис. 9.4. Графическое вы- равнивание данных из приме- ра [9 7] в проективной коорди- натной сетке. Рис. 9.5. Построение сгла- живающей прямой при боль- шом разбросе данных. можно меньше, т.е. надо найти “наилучшую возможную” функцию. Для реше- ния этой задачи в распоряжении аналитиков есть графические способы подбора и аналитические методы. При графическом построении результаты измерений наносят на график. С помощью прозрачной линейки проводят в этом множестве точек прямую. При- чем так, чтобы отдельные точки более или менее равномерно распределялись выше и ниже этой прямой. Постоянный член а находят как отрезок на ордина- те у при х = 0, а величина b представляет собой тангенс угла наклона прямой. Непосредственное отыскание констант а и b позволяет, например, проективная координатная сетка (рис 9.4). При сильном разбросе результатов измерений графическое выравнивание описанным способом часто невозможно провести однозначно. Тогда довольству- ются тем, что соединяют точки попарно прямыми линиями. Через середины полученных отрезков снова проводят соединяющие прямые линии. Эта опера- ция продолжается до тех пор, пока не получат несколько точек, через которые затем проводят сглаживающую прямую (рис. 9.5). Особенно простой и не связанный ни с какими условиями способов расчета констант а и Ъ обеспечивает алгоритм, предложенный Тейлом [3]. Сначала из каждых двух пар значений (х,; у,) и (х;, у}) (ж, ху; у, у}) вычисляют угловые
166 Глава 9. Статистика прямых линий коэффициенты по формуле b = У'~ЛГ (9,ц) X, — X] Полученные значения Ь упорядочивают по возрастанию и находят медиану Ьг] [уравнение (2.4)]. По этой медиане t>£j из всех пар значений (®*; у,) рассчитывают отрезки на ординате по формуле: а, = у, - Ьх, (9.12) и находят медиану 5. В качестве уравнения регрессии тогда получают у = a + Ьх (9.13) Приближенно можно найти середину между центральными значениями, если число пар четное (после упорядочения по возрастанию х), и рассчитать наклон Ь из соответствующих друг другу данных в обеих половинах данных. [9.3] Для построения градуировочного графика при определении алкинов прямым термометрическим методом были измерены следующие значения (х = % алкинов, у = высота пика в см): № п/п X У 1 0,09 3,2 2 0,14 4,7 3 0,18 5,9 4 0,25 7,7 5 0,30 9,1 * 6 0,35 10,7 При попарном упорядочении вычисляем [уравнения (9.11) и (9.12)]: Ь«- (7,7 -3,2)/(О,25- 0,09) -28,13 bJ2 - (9,1 - 4,7)7(0,30 - 0,14) - 27,50 Ьд - (10,7 - 5,9)7(0,35 - 0,18) - 28,24 6 -28,13 в!= 3,2-28,13 0,09 = 0,67 а2 = 4,7-28,13-0,14 = 0,76 а3= 5,9-28,13-0,18 = 0,84 а4= 7,7-28,13-0,25 = 0,67 а5 = 9,1 -28,13-0,30 = 0,66 а6 = 10,7 — 28,13 - 0,35 = 0,85 а = 0,76 Таким образом получаем в качестве градуировочной функции [уравнение (9.13)] У = 0,76 + 28, 13х. Расчет констант а и Ъ с одновременной оценкой их доверительного интервала позволяет сделать алгоритм, предложенный Гауссом. При этом разницу между измеренными значениями у, и вычисленными из уравнения Y, = а + Ьх, нужно сделать минимальной. В таком случае У?(у. - Vi)2 = У?(у. - а - Ьх,)2—> минимум (9-14)
9.2. Характеристика зависимостей 167 Отсюда наилучший возможный коэффициент регрессии будет (9.16) (9.16а) (9-17) В простейшем случае предполагается, что выполняются следующие условия: 1. Ошибкой заданного значения х, можно пренебречь (sx/x sy/y). 2. Измеренные значения yt распределены нормально. 3. Воспроизводимость измерений syy постоянна в области измерений (гомос- кедастический разброс). Тогда константы а и b получим по формулам к _ Е(ж- ~ Х^У' ~ У) - тИх‘У‘ ~Их>Иу> °- И*.-*)2 ™E*.2-Q»2 _ ЕЖ»У» - тхУ s2(m-l) _ Ег/. а = ----------- т = у-Ъх [Варианты (9.16а) и (9.17а) имеют преимущества при использовании калькулятора, выполняющего статистические расчеты.] Константы а и Ь — выборочные оценки теоретических параметров а и 0. Как и для отдельных значений [уравнение (3.9)], для а и b можно указать довери- тельный интервал. Для этого сначала вычисляют дисперсию разности между опытными (yt) и рассчитанными У, значениями: m «о = Е^'-^)2)Ат-2) <918> 1 = (т- 1)(ву -6s*)/(m-2) (9.18а) с f = т — 2 степенями свободы. Здесь получается именно т — 2 степеней свободы, так как для проведения прямой требуется не менее двух точек. Однако, если с каждой из т проб про- ведено по п} параллельных определений, так что имеется тп} = п результатов, то в уравнении (9.18) будет естественно f = п — 2 степеней свободы. Сумму квадратов в уравнении (9.18) удобно вычислять из выражения: 52(у> - У>)2 = s2(™ - 2) = £ у* ~ а 52 у' ~ b 52 Xty' (919> При оценивании по уравнению (9.19) следует обратить внимание на то, что вы- числение надо вести с достаточно большим числом десятичных знаков, так как искомая сумма квадратов служит разностью часто между близкими по величине данными Поэтому здесь даже совершенно незначительные ошибки вычислений и округлений в ходе расчетов приводят к большим погрешностям.
168 Глава 9. Статистика прямых линий Дисперсии для констант а и b можно искать с помощью закона сложения ошибок; тогда получим 2 _ S0 _ mS0 т - (E^i)2 (9.20) S2 — ___0_ ~ (т- 1)4 (9.20а) = = (9.21) £(xt-z)2 -(£>•) т с f = т — 2 степенями свободы. Для константы 6, определяющей наклон, дисперсия s2 тем меньше, чем даль- ше от среднего значения х = ^хг/т удалены значения х, т. е. чем шире выбрана область эксперимента. Доверительный интервал для Ъ и а получается из Д6 = ±t(P, Ж (9.22) Да = ±<(Р, f)sa при двухстороннем ограничении для 6± ДЬ и для а± Да. Зная Д6 и Да, находят число требуемых десятичных знаков для b и а (см. разд. 6.1, с. 103). Полученную функцию у — a + bx можно использовать, чтобы для заданных, а значит почти безошибочных значений х вычислять предсказанные значения зависимой переменной. Одному заданному значению соответствует одно зна- чение Yk. Вследствие неизбежных ошибок при определении констант а и & надо и Yk рассматривать как случайную величину. Зная ошибки sa и sj, можно найти доверительный интервал для вычисленного значения Yj,: ДП = <(Р,/)Ъ[1 + ^_5)Ь (9.23) у т Е(ж< _ х) = «лл V т - (£><) Следовательно, доверительный интервал зависит от разности (х^ — х) и стано- вится тем больше, чем дальше xj, от среднего х, а значит, достоверность вывода снижается тем больше, чем дальше х* от среднего х. Таким образом, экстра- поляция даже при наличии линейной связи сопровождается весьма большой ошибкой. Если вычисление регрессии проводят, меняя местами переменные (“регрессия х от j/” или обратная регрессия), то получают функцию х = Ь'у + а'. В этом случае коэффициент регрессии будет Ь> = (9.24) где г — коэффициент корреляции. Коэффициент регрессии Ь для обычной регрессии у от х [уравнение (9.16)] и коэффициент регрессии Ь' [уравнение (9.24)] связаны (ожидаемой) обратно про- порциональной зависимостью только при г = 1, 00. Они тем больше отклоняются
9.2. Характеристика зависимостей 169 от этой зависимости, чем менее жестка связь между х и у. Поэтому при вычи- слении регрессии нельзя1) просто так менять местами х и у. Иногда в результате вычисления регрессии для константы а получается очень малое значение. Тогда при проверке по |a|/sa = ta не обнаруживают по срав- нению с <(Р; /) значимого отличия от нуля. Значит, можно предположить, что будет справедливо уравнение у = Ь'х. Вычисление регрессии при этом значи- тельно упрощается. Получаем Ь = (9.25) (»“> с f = т — 1 степенями свободы (см., однако, формулы (9.18) и (9.18а); ]Г(2/. - Yi)2 = sg(m- 1) = - b^xiy, (9.27) <,2 4 = ^2 (9.28) с f = т — 1 степенями свободы; / s2 M = t(P-^Sb=t(P,f)J^ (9.29) Такая подгонка к у = Ь'х всегда возможна, если только обе дисперсии s'2 и s2 различаются незначительно. Это проверяют, как обычно, по F = s'2/s2 и сравнивают, с F(P\ fi = т — 1; /2 = т — 2). При этом надо учитывать, что «о не может быть больше s'o2. 9.2.2. Метод проверки Не всегда заранее можно утверждать, что предполагаемая линейная зависимосТЕ действительно имеет место. Для решения этого вопроса нужно для каждой иг т заданных величин х, провести по nj параллельных определений. Найден- ная при этом случайная ошибка syv [уравнения (5.1) и (5.2)] не должна — еслт имеет место линейная зависимость — находиться в противоречии с разбросом ре- зультатов измерений вокруг выравнивающей прямой «о- Таким образом, строят критерий (\ 2 2°_) (9.30 svv / с fi = т — 2 и /2 = т{п} — 1) степенями свободы. Уравнение прямой принимается до тех пор, пока имеем F < F(P - *) Описание проблем обратной регрессии см., например, в книге: Дрейпер Н., Смит I Прикладной регрессионный анализ. — 2-е изд. Пер. с англ. — М.: Статистика, 1986, т. 1, гл. 1 2 — Прим. ред.
170 Глава 9 Статистика прямых линий [9 4] При градуировке определения цинка с помощью А АС1) были получены следу- ющие значения г, Zn, млн-1 у' (экстинк- ция) у" - ” - 1 2 3 4 5 6 0,040 0,260 0,422 0,605 0,730 0,805 0,055 0,248 0,417 0,612 0,725 0,795 Линейное уравнение имеет вид. у = —0,061033 + 0,153 486а: при so = 0,044164 (/i = 10 степеней свободы) Из параллельных определений у\ и у" в соответствии с уравнением (5.2) получаем зуу = 0,004 865 (Д = 6 степеней свободы). Находим F = (0,044164/0, 004 865)2 = 82,41. _Из табл. А.5 имеем F(P = 0, 99, Д = 10; Д = 6) = 7,87 Вследствие того что F > (Р — 0, 99; Д;/г), результаты нельзя описать линейной зависимостью Проверку линейной зависимости можно легко провести [при известных усло- виях без многократных параллельных определений, требуемых в уравнении (9 30)] с помощью критерия серий Вальда — Вольфовица (см разд. 7.5). Для этого определяем разность между вычисленными значениями У, = а + bxt и най- денными в ходе эксперимента у,, а затем проверяем последовательность знаков. (О возможностях применения моделей временных рядов см. с. 217.) [9.5] Из зависимости у = —0,061033 + 0,153 486г, полученной в примере [9.4], можно определить следующие значения У, I. 1 2 3 4 5 6 У, 0,092 0,246 0,399 0,553 0,706 0,860 Для 12 разностей У, — у',, а также У, — у" имеем следующую последовательность знаков • + +------------------h+. При к+ = 4 и к~ — 8 число серий (У = 3) лежит ниже критического значения N = 4 (см табл. 7 3). Следовательно, при Р = 0, 95 можно предположить, что линейная зависимость не выполняется. Если в результате проверки оказывается, что линейная зависимость невоз- можна, то пытаются преобразовать результаты в удобную форму. Во многих случаях целесообразно логарифмическое преобразование На полулогарифми- ческой бумаге тогда будет показательная функция у = аЬх, а также обратная ей функция в виде прямой в зависимости от того, какая из осей имеет логарифми- ческий масштаб, ордината или абсцисса Двойная логарифмическая бумага ли- неаризует функции типа у = ахп В особых случаях можно также пользоваться и другими преобразованиями (например, обратные температуры при измерении давления пара) Для простоты в обращении всегда будут стремиться получить линейную зависимость с помощью удобного преобразования переменных. Одна- ' ко важно помнить, что после подобных преобразований необходимо критически перепроверить условия для вычисления регрессии и что только тогда полноцен- ная регрессия может привести к надежным результатам (см разд 9 3.3). В аналитических методах с большим динамическим диапазоном D (напри- мер, спектрометрия с D — 1 105) часто в области измерения относительное стандартное отклонение sy/у постоянно Условия метода наименьших квадратов (с 166) тогда легко можно обеспечить после логарифмического преобразования (У = 1g у и X = 1g х) Если имеет место зависимость у = Ьх, то в этом случае после логарифмирования имеем Y = lg6 + X, т е прямую с отрезком на оси, *) А АС — атомно-абсорбционная спектроскопия — Прим ред
9.2. Характеристика зависимостей 171 равным 1g Ъ, и тангенсом угла наклона, равным единице (т. е. 45°). Обе величины можно вычислить из т пар значений (X, и У,) по уравнениям (9.16) и (9.17) (см. также [9, разд. 4.2.1]). Как мера линейного приближения иногда применяется коэффициент корре- ляции [уравнение (9.6)]. Однако последний зависит не только от рассеяния ре- зультатов, но и от расстояния между наибольшим и наименьшим результатами. Поэтому коэффициент корреляции не следует рассматривать как подходящий показатель для проверки линейности. Различие между коэффициентами двух прямых вида у = а + Ьх можно про- верить так же, как проверяют различие двух средних (см. разд. 7.4.). В со- ответствии с равенством (9.19) объединяют обе полученные суммы квадратов и находят общую дисперсию s2: 2 _ QS\ + QS2 9 mi + m2 - 4 , / Дисперсию разности |i>i — i>2| получают из; (9.31) 2 1 1 'ЧЕ(*1.-зй)2 + Е(*2.-г2)2. 2 _________1_______ __________1________' 9 IE Х1, - (Е *l>)7ml + Е Х2, - (Е х2г)2/т2_ с f = mi + т2 — 4 степенями свободы. Для проверки значимости разности |&i — 62| образуют t __ |6i - &г| Sd и сравнивают обычным способом с t(P, f). Для прямых, проходящих через начало координат, вида у = Ьх эти уравнения упрощаются: 2 _ QSi + QS2 9 mi + т2 — 2 (9.31а) sd - 1 1 + [9.6] Установка титра раствора перманганата калия с(|КМпО4) была проведена пс оксалату натрия и параллельно по оксиду железа(Ш) по Бранду. Между значениями х (мг оттитрованного вещества) и расходом у (пересчитанным на 1 мг оттитрованно- го вещества), существовала пропорциональная зависимость. Полученные результать выглядели следующим образом:
172 Глава 9. Статистика прямых линий Оксалат натрия Оксид железа(Ш) X у X У 136,2 140,0 141,3 152,5 161,2 171,5 203,5 208,4 200,3 207,7 242,0 253,1 235,5 244,6 283,1 291,7 271,1 285,4 327,6 345,0 362,0 370,0 Вычисления: Оксалат натрия Оксид железа(Ш) 223291,35 454750,12 213611,43 438453,31 233433,86 471760,31 т 5 6 ь 1,045 316 1,037 169 sj(m -1) 23,84 107,59 При помощи соотношений (9.31) и следующих за ними , 23,84 +107,59 S* 5 + 6-2 = 14,60, s2t = 14,60 [(1/213 611,43) + (1/438 453,31)] = 0,000101647 3, получаем jd = 0,0319 1,045 3- 1,0372 „„„ o7ofoi----=0>8°- При / = 5 + 6 — 2 = 9 степенях свободы t(P = 0,95; f = 9) = 2, 26. Между получен ними значениями титра для раствора перманганата калия нет значимой разницы. 9.2.3. Градуировка Вычисление регрессии применяется при построении градуировочного графи- ка по т парам значений хк; у к Отрезок на ординате а соответствует неиз- бежному значению холостого опыта, а коэффициент регрессии 6 представля- ет чувствительность метода анализа. Далее при анализе измеренное значение У а — Т2уа/пз вычисляют из тт, параллельных определений. Искомое содержа- ние находят из функции анализа ха — (у.а ~ обратной к градуировочной функции. Стандартное отклонение для концентрации получают из (9.32) У - У^Ук/т с f = т — 2 степенями свободы.
9.2. Характеристика зависимостей 173 Несмотря на то, что syy = const, как обусловлено в гомоскедастической си- стеме, sr(A) будет зависеть от концентрации и тем больше, чем более удалено уА от середины у = ^2 ук/т. Это особенно неудобно на нижней границе области концентраций, поскольку там и без того уже достаточно велика относительная ошибка. Поэтому при градуировке рекомендуется выбирать эталоны с низкими концентрациями в большом количестве и как можно ближе друг к другу, чтобы сместить середину градуировочной прямой в сторону более низких концентраций [9]. Из уравнения (9.32) получают доверительный интервал для результатов ана- лиза жА с / = тп — 2 степенями свободы. Обе границы доверительного интервала жА ± Дж имеют вид двух ветвей гиперболы с малой осью у = a + Ьх и центром в средней точке (ж; у). Из градуировочного графика можно непосредственно определить предел об- наружения. При этом отрезок на оси а примем в качестве результата холостого опыта (а = ув). В качестве наименьшего отличного от холостого опыта значения ym,n (“критическое значение”) по аналогии с уравнением (6.12) получаем Утш > a + ЦР; f = m “ 2)so/vS" (9-33) При преобразовании в концентрации учитывают доверительные границы гра- дуировочного графика, т. е. указывают в качестве предела обнаружения ж + Дж. Когда ymin -С У, можно заменить нижнюю ветвь гиперболы соответствующей асимптотой, и это будет хорошим приближением. Она проходит через точки (ж; у) и (0; a — t(P, и описывается функцией , r\ y-a + t(P,f)s0/nj у - a + t(P, f)s0 = ----—'-^-x x Подставляя у = ymin [уравнение (9.33)] и решая уравнение относительно ж, получим предел обнаружения аналогично уравнению (6.13) 2t(P, ^xso/Уг^ ^mm — = y-a + Z(P, f)s0/^ (9.34) Однако такой способ действий допустим только тогда, когда абсолютные ошибки значений у не зависят от их величины. Во всех остальных случаях ув и <тв (®в) должны определяться из дополни- тельных измерений результатов холостого опыта. С помощью уравнения (9.34) определяется минимально возможная концентрация для градуировки. Если в градуировочном графике есть точка со значением ниже предела обнаружения, эту пробу надо заменить новой с более высоким содержанием. [9.7] Для градуировки фотометрического определения бензола в ультрафиолето- вой области спектра были измерены экстинкции (светопоглощения) семи эталонных проб известного содержания. Предполагая, что по всей области измерения случайная ошибка постоянна (syy = const), получили следующие оценки для уравнения линейной регрессии.
174 Глава 9. Статистика прямых линий Концентра- ции х,, г бензола/л Экстинкция у. 0,2 0,20 0,5 0,37 1,0 0,64 1,5 0,93 2,0 1,22 2,5 1,50 3,0 1,80 Сначала находим £>, = 10,7, £>? = 22,79, £?/. =6,66, £>?= 8,4298, m = 7 (£z,)2 = 114,49 £>,3/, = 13,850 Следовательно, по уравнениям (9.16) и (9.17) получим 7 13,850 - 10,7-6,66 7-22,79 - 114,49 = 0,570337 6,66- 0,570 337-10,7 = 0,079 628 Сумму квадратов для дисперсии разностей результатов (у,) и предсказаний (У,) находим по уравнению (9.19) У^(у, - Y.)2 = 8,429 800 - 0,079 628 • 6,66 -0,570 337 • 13,850 = 0,000 311 2 0,000 311 з° - 5 = 0,000 0622 зо = 0,007 887 Дисперсии для констант b и а получают из уравнений (9.20) и (9.21): 7-0,000 0622 7-22,79 — 114,49 = 0,000 009 67 зь = 0, 003 11 (с f = 5 степенями свободы) 2 _ 0,000 062 2 • 22,79 “ “ 7 -22,79 - 114,49 = 0,000 03147 за = 0, 005 61 (с / = 5 степенями свободы) При Р = 0, 95 /(Р, /) = 2, 57, отсюда /(Р, /)зз = 0, 007 99 и /(Р, f)sa — 0, 014. Следо- вательно, искомые константы графика при Р = 0, 95 равны: 6 = 0, 570 ± 0, 008 (= чувствительность) a = 0, 079 ± 0, 014 (= фон) При последующем анализе были измерены экстинкции уд1 = 0,40 и уА2 = 1,43 у Двух проб (п; = 2). По уравнению (9.32) получаем зДА1) = 0,007887 /1 1 /0,003110\2 /0,40 - 6,66/7\2 0,570 337 V 7 + 2 + ( 0,570 337 ) ( 0,007 887 ) — 0,012 г бензола/л
9.2. Характеристика, зависимостей 175 Для второй пробы найдем Sx(A2) = 0,011 г бензола/л. Так как уА2 лежит ближе к центральной точке калибровочной прямой, чем уА1, то стандартное отклонение 12 будет меньше (см. пример [9.8]). Снова при условии syy = const из уравнения (9.33) получим предел обнаружения (Р = 0, 99; п, = 2): 2 - 3, 37-1,528 6-0,007 887/\/2 _ 0,9574 - 0, 079 6 + 3, 37 • 0, 007 887/У2 ~ = 0,064 г бензола/л Для этого градуировочного графика все использованные эталоны лежат выше вы- численного предела обнаружения. Для целого ряда методов анализа воспроизводимость syy зависит от величи- ны измеренного значения у (например, для фотометрии, см. разд. 4.5). Тогда говорят о гетероскедастической системе. В этом случае результаты с меньшей случайной ошибкой имеют большую информативность, чем данные с большей случайной ошибкой. Эту различную степень информативности надо учитывать, соотнося отдельные измерения с величинами их случайных ошибок. Весовой множитель ш, для отдельных результатов имеет вид: w« = <2/ 52 s.-2/m (9-35) Отдельные стандартные отклонения получают в ходе предварительного ис- следования. Точно так же как и в невзвешенной регрессии, соответствие между измеренными и предсказанными значениями будет наилучшим, если взвешенная сумма квадратов ошибки 52- bwx,)2 = 52 w,(y* - y»)2 (9.36) минимальна. Тогда получают зависимости, аналогичные невзвешенной регрес- сии: , _ m'Ew’x,y, - Е»М,Еад х m 22 wtX' — (J2 w,x,)2 _ Ew«y< - bw E wixi Gw — . m -r.)’= £«-.»? m slw = 52 - y*)2/(m -2) mE w.z,2 - (Ew.z,)2 (9.37) (9.38) (9.39) (9.40) (9.41) (9.42) saw 4^^»? = 4 vw ? m E wiX, — (E w,2:t)2 ™ ' * c f = m — 2 — степенями свободы соответственно для sfw и s2w. Из градуировочного графика, полученного с помощью взвешенной регрессии, находим функцию анализа хдш = (УАш — aw)/bw. Стандартное отклонение для
176 Глава 9. Статистика, прямых линий результатов анализа таково: (А) — s0w bw , л / \ 2 /- = 1 । । f \ ( Ух Уги m waHj \bw J \ sqw (9.43) c f = m — 2 степенями свободы. В противоположность обычной (невзвешенной) регрессии прецизионность при измерении уА учитывает соответствующий весовой коэффициент шА = siA / 53 s«~2 • Необходимые стандартные отклонения $, можно получить из мно- гократных определений при исследовании различных концентраций [уравнение (2.5)]. Можно пользоваться также и эмпирическими зависимостями для кон- центраций (например, уравнение (4.19а)]. Веса [уравнение (9.35)] представляют собой безразмерные относительные величины. Поэтому отдельные стандартные отклонения s, могут иметь любые размерности. [9.8] При фотометрическом анализе стандартное отклонение результата имеет не- случайную зависимость от величины экстинкции [уравнение (4.19а)]. Этой зависи- мостью естественно воспользоваться для расчета весов. Предполагая, что членом 1/1о в уравнении (4.19а) вполне можно пренебречь, в качестве приближения берем <те = anjl = (ТпЮ-^10^. Подставляя <тп = 1, получим s, в производных единицах. Для расчета взвешенной регрессии тогда получим следующую схему при у = £(10): X У Si 0,2 0,20 0,6310 2,511886 0,003283 0,5 0,37 0,426 6 5,495409 0,007 182 1,0 0,64 0,2291 19,054607 0,024903 1,5 0,93 0,117 5 72,443 596 0,094680 2,0 1,22 0,0603 275,422870 0,359963 2,5 1,50 0,0316 1000,000000 1,306945 3,0 1,80 0,0158 3981,071705 5,204351 2Х2/т = 765,142 868. Сначала найдем £w,z, = 19,771512, (£>,х.)2 = 390,912690 = 56,687279, ^w,}, = 11,874709, (52й'*»')2 = 141,008710 = 20,431695, = 34,032326, m^w,x,y, = 238,226 284 Отсюда по уравнениям (9.37) — (9.42) получим bw = 0,584 126, aw = 0,046 522 sow = 0,000 018 5, sow = 0,004 307 s2bw = 0, 000 022, stw = 0, 004 692 4w = 0,000178, saw = 0,013 348 Отсюда имеем (P = 0, 95): bw = 0, 584 ± 0, 005, aw - 0,047 ± 0,013
9.2. Характеристика зависимостей 177 Для двух аналитических проб с уА1 = 0,40 и уА2 = 1,43 в качестве весов находим I шд1 = 0,008 247 и шд2 = 0,946 800. Из уравнения (9.43) с у w = = 1, 696 4 по- лучаем стандартные отклонения sXWl = 0,060 и = 0, 007. По сравнению с обычной регрессией (где sx\ = 0,012 3 и зХ2 = 0,0119) теперь случайные ошибки имеют более четко выраженные различия в прецизионности при измерении экстинкции. Невзвешен- ная регрессия смазывает эти различия. Сравнение результатов примеров [9.7] и [9.8] показывает, что константы b и 6Ш, а также а и aw отличаются лишь незначительно. Однако четко выражен- ные различия получаются при расчете стандартных отклонений и связанных с ними доверительных интервалов. Поэтому всегда, когда надо делать выводы о точности результатов на основании измерений, следует применять взвешенные регрессии. 9.2.4. Определение систематических ошибок Систематические ошибки влияют на результаты измерений таким образом, что они постоянно отклоняются в одну сторону от истинного значения. Метод дает “неправильные результаты”. Причиной этого может быть постоянно присутству- ющая добавка (“переменная ошибка”, см с. 26). Для оценки метода анализа важно знать вид появляющейся систематической ошибки, так как это позво- лит сделать вывод о причине ее возникновения и в дальнейшем по возможности улучшить метод. Для одновременного определения постоянных и переменных систематических ошибок исследуют т проб. Найденные содержания (у,) сравнивают с получен- ными для одинаковых (х,) из уравнения у = a + bx. Отрезок на ординате, отлич- ный от нуля, говорит о постоянной (систематической) ошибке, значение 6 больше 1,000 — о переменной ошибке. Во многих случаях можно предположить, что заданные значения х, безоши- бочны, и что результаты у, подчиняются гауссову распределению. Тогда сгла- живающую прямую можно вычислить с помощью невзвешенной регрессии [урав- нения (9.16) —(9.21)], что дает Юден [4]: 6|/Sb (9.44) и обычным способом сравнить с t(JP; f = m — 2). [9.9] Для определения сульфата методом объемного анализа были представлены следующие результаты (т = данные, у = предсказание, в мг SO^~): X У X У X У 9,50 12,08 38,00 37,87 142,50 139,50 19,00 19,42 47,50 46,37 190,00 185,96 28,50 28,64 95,00 93,12 237,50 232,95
178 Глава 9. Статистика прямых линий а = 1,077 740, «0 = 0,431 122, 11,077 740| Вычисление регрессии дает: Ь =0,973 326, s6 = 0,003 632, = 2,50, ' . - |1 -0,973326| 6 0,003 632 ’ ’ t(P = 0,95; /= 7) = 2,36. Так как ta, tb > t(P, f) можно считать установленным наличие постоянной и ли- нейно изменяющейся систематических ошибок. Метод проверки, при котором можно производить контроль непосредственно по текущим анализам, не зная истинного содержания, предполагает следующие условия [5]: 1. Результат х (например, в мг осадка или в мл титруемой жидкости) отно- сится к известной навеске е. 2. Между величиной х и навеской е есть пропорциональность (х ~ е). 3. Определяемый элемент можно прибавить к пробе в точно известном коли- честве. Для определения постоянной ошибки исходят из параллельного определения двух разных по величине навесок. Если анализы выполняются без ошибки, то в соответствии с условием 1 имеет место соотношение (9.45) е, е. Если появляется постоянная ошибка а, то + а (9.46) • х>2 = х2 + а Подстановкой в уравнение (9.45) и решением относительно а получим a = (9.47) ei - е2 Особенно нагляден расчет для ei = 2е2. Уравнение (9.47) переходит тогда в а = 2ж'2 - < (9.48) Для проверки линейно изменяющейся ошибки оба анализа следует проводить на одинаковой навеске. При е2 = ез будет также ж2 = хз = х. При одном из анализов добавляют определяемый элемент в количестве z. Эта добавка должна быть одинакова по величине для всех проб, и ее выбирают так, чтобы она почти удвоила концентрацию искомого элемента. Если метод содержит линейно изменяющуюся ошибку 6, то х'з = Ьх (9.49) х'з = Ь(х + г) Исключая неизвестное х и решая относительно 6, получим b = (9.50)
9.2. Характеристика зависимостей 179 Эти обе константы а_и Ь определяются из ряда тп проб и по ним вычисляют средние a = и Ь = ^bt/m. Вследствие случайной ошибки чаще всего получают отклонения от ожидаемых идеальных значений До = 0 и Ьо — 1,000. Для доказательства систематического характера ошибки надо сопоставить а и b с их возможными идеальными значениями. По соотношению (7.12) получают j __ ZT? л ______ Ц ZT? zq Сд — yjГМ. — уТП (9. D1) sa Sb с f = тп — 1 степенью свободы. При этом я - t№-«)2 JeGx-*)2 ° V ТП — 1 ’ У тп — 1 Систематическое отклонение будет признано статистически значимым, если ta > Htb >t(P,f). [9.10] Определение мышьяка As в пищевых дрожжах посредством ААС гидрида надо было проверить на наличие систематической ошибки. На четырех пробах были получены следующие значения (в мкг As): ат1 Х2 ^3 Проба 1 13,8 23.3 5,8 15,2 Проба 2 30,0 39,6 14,0 23,7 Проба 3 43,0 52,4 20,0 29,3 Проба 4 66,8 76,5 32,0 41,3 хг, хз — значения без стандартной добавки, Х2', ^4 — значения с добавкой z = 10 мкг As, Х1‘,хз — измерения из алйквотных частей в соотношении 2:1. По уравнению (9.48) получаем из соответствующих значений ii и хз постоянную ошибку: ai = 2 • 5,8 - 13,8 = -2,2 й2 — —2, 0, аз — —3, 0, а< = —2, 8 а = —2, 50 мкг As, за = 0,48 мкг As ta = |2, SOlv'J/0,48 = 10,42 t(P = 0,99;/ = 3) = 5,84 Ji = (23,3 - 13, 8)/10 =0,95 b2 = 0,96, Ьз = 0,94, bt =0,97 b5 = 0,94, Ьв = 0,97, b7 = 0,93 b8 = 0, 93 b = 0,949, sb = 0,016 tb = (|1, 000 - 0, 949|)VZ8/O, 016 = 9, 02 t(P = 0,99;/ = 7) = 3,50 Вследствие того что /а; tb > t(P = 0,99;/), наличие постоянной и линейно изменя- ющейся систематической ошибки установлено достаточно надежно. Результаты этого
180 Глава 9. Статистика прямых линиЯ метода определения сдвинуты примерно на 2,50 мкг As, и, кроме того, метод на 5% менее чувствителен. Метод обнаружения линейно изменяющейся ошибки, описанный уравнением (9.50), соответствует определению “корректирующего коэффициента” (recovery rate). Этот коэффициент надо постоянно проверять на значимое отклонение от ожидаемого значения, равного единице по уравнению (7.12). При определении “корректирующего коэффициента” важно иметь в виду, что по одному только уравнению (9.50) нельзя обнаружить постоянную систематическую ошибку, ко- торая, возможно, имеет место. Не всегда возможно обеспечить требование sx sv, упомянутое для закона Юдена [уравнение (9.44)]. Если для данных можно предположить нормальное распределение, выявление систематической ошибки позволяет взвешенная ре- грессия [6]. Проверка на наличие систематической ошибки без условий, необходимых для модели Юдена (с. 167), возможна методом, описанным Пассингом и Баблоком [7]. Для этого также нужны m пар значений (ж,- и у,). Значения ж,- устанавливаются безошибочно. Согласно алгоритму Тейла вычисляют все возможные N =[m(m — 1)]/2 углов наклона btJ [уравнение (9.11)]. При этом k значений могут получиться с b,j < — 1. В соответствии с уравнениями (9.12) и (9.13) строим сглаживающую прямую у — a + Ьх. Для выявления систематической ошибки надо проверить b и а на отклонения от ожидаемых значений b и а. (Нуль-гипотеза, следовательно, b = 1 и а — 0.) Для выявления линейно изменяющейся ошибки рассчитывают нижнюю и верхнюю границы доверительного интервала для Ь. Получают — b^Mi+k)> б0 = 6(мг+)с) (9.52) N - С(Р) М1 =------M2 = N-Ml + 1 (9.53) (округлить сверху или снизу до целых чисел) С(Р) = (9.54) V 1о Нуль-гипотеза 6=1 принимается для bu < 1 < 6о, тогда при уровне значимо- сти Р линейно изменяющаяся ошибка не обнаруживается. Для определения постоянной ошибки вычисляют верхнюю и нижнюю грани- цы доверительного интервала для а в соответствии с аи — медиана (у, - boxt) (9.55) а0 = медиана (у, — buxt) Нуль-гипотеза а = 0 принимается для аи < 0 < ао> в этом случае постоянная ошибка не обнаруживается. [9.11] При сравнительных исследованиях для определения лактата стандартным химическим методом (—>• z,) и с помощью энзимного электрода (—♦ ух) были найдены следующие данные (в ммоль/л):
9.2. Характеристика зависимостей 181 Г, ’Д 10,2 20,3 29,8 40,1 49,8 10,2 20,5 30,9 41,3 51,2 Сначала вычислим N = 10 возможных углов наклона Ьч [уравнение (9.11)]: i = 4 3 2 1 2 = 5 1,0206 1,0150 1,040 7 1,0354 (4) (2) (7) (5) = 4 1,0097 1,050 5 1,0401 (1) (8) (6) = 3 1,094 7 1,0561 (Ю) (9) =2 1,0198 (3) Нет ни одного значения с b,} < —l(fc = 0). Упорядочиваем их по возрастанию (цифры в скобках) и получаем медиану: b = (1,035 4 + 1,040 1)/2 = 1,037 75 После вычисления а [уравнение (9.12)] получают аналогично уравнению (9.13) у = -0, 385 05 + 1, 037 75т Для указания границ доверительного интервала Ь(Р = 0,95) нужно вычислить: С(Р = 0, 95) = 1, 65= ?4 [уравнение (9.54)] = 10 — 6, 74 = х 63 и 2 | 2 > [уравнение (9.53)] М2 = 10 - 1, 63 + 1 = 9, 37 гз 9 J Для к = 0 получаются следующие границы доверительного интервала [уравнение (9.52)]: би = 1>М1 = 1>2 = 1,015 0 Ьо = Ьм2 = Ьэ = 1, 056 1 Ожидаемое значение Ь = 1 не попадает внутрь доверительного интервале 1,0150... 1,0561. Следовательно, с уровнем значимости Р = 0, 95 признается наличие линейно изменяющейся систематической ошибки. Для определения границ доверительного интервала для а вычисляют в соответ- ствии с уравнением (9.55) Qu» — у, — 1,0561 г, Qot — у, — 1,01501:, QU1 — -0,5722 (4) Qol = -0,1530 (1) Ou2 = -0,9388 (3) Oo2 = -0,1045 (2) Qu3 = -0,5718 (5) Oo3 = 0,6530 (4) Qu4 = -1,0496 (2) Qo4 = 0,5985 (3) Qu5 — -1,3938 (I) Qo5 = 0, 6530 (4) Qu* = au2 = —0, 9388 QO| — Чо2 + Oo3 2 = 0, 2470
182 Глава 9 Статистика прямых линий Ожидаемое значение a = 0 находится внутри доверительного интервала —0, 938 8 + О, 247 0 Поэтому постоянная систематическая ошибка не обнаруживается По сравнению с моделью Юдена проверка на наличие систематической ошиб- ки по Пассингу и Баблоку обладает меньшей селективностью Поэтому ее стоит применять только, если существуют неопределенности в выполнении условий для модели Юдена Полнее узнать о применении метода Пассинга и Баблока (например, проверка линейности) можно из оригинальной работы [7] Все рассмотренные критерии позволяют либо признать наличие систематиче- ской ошибки, либо прийти к заключению, что в рамках существующей случайной ошибки наличие систематической ошибки признать нельзя Но то, что ошибку не удалось обнаружить, вовсе не означает, что она отсутствует Такая интерпре- тация, например основанная на t <С t(P = 0,95,/), — следующий шаг Предпо- лагается, что метод анализа ведет к правильным значениям анализа Понятие “правильность” (см гл 1) поэтому всегда надо рассматривать вместе с резуль- татами анализа Существует соответственно результату проверки качественное решение да/нет, которое нельзя выразить в числах Только в случае неустра- нимой систематической ошибки допустимы точные указания вида, величины и знака “ошибочного решения”, например, в смысле максимальной погрешности измерения [8]1) Литература 1 Olmstead W, Tukey J W Ann math Statistics, 18 (1947) 495 2 Holdt G , Strassheim A The Use of Scatter Diagram in Emission spectroscopy-Appl Spectrosc , 14 (1960) 64/66 3 Theil A A Rank invariant Method for Regression Analysis -Proc k Ned Wet Ser A, 53 (1950) 386/392 4 Youden W J Technique for Testing Accurancy of Analytical Data — Anal Chem , 19 (1947) 946/950 5 Doerffel К Fehlerrechnung in der analytischen Chemie -Z anal Chem , 157 (1957) 241/248 6 Doerffel К , Hebisch R Nachweis systematischer Fehler durch gewichtete Regression -Z anal Chem , 331 (1988) 510/512 7 Passing H, Bablock W A New Biometric Procedure for Testing the Equality of Measurements from Two Different Analytical Methods-J Clin Chem Clin Biochem , 21 (1983) 709/720 8 Ehrlich G , Friedrich К , Kucharowski R , Stahlberg R Zur Bewertung quantitative! chemischer Analysenzufallsfehler, systematischer Fehler, Gesamtfehler -Z Chem , 24 (1984) 204/208 9 Doerffel A , Eckschlager k , Hennon G Chemometnsche Strategien in der Analytik Leipzig Deutscher Verlag fur Grundstoffindustrie, 1990 1 ’ Более полное и систематическое изложение материала данной главы можно найти, на- пример, в монографии Дрейпер Н, Смит Г Прикладной регрессионный анализ — 2-е изд Пер с англ — М Финансы и статистика, кн 1 — 1986, кн 2 — 1987 — Прим ред
Дополнительная литература 183 Дополнительная литература Irvin A., Quickenden Н. I. Linear Least-square-treatment when there Errors in both x and y.-J. Chem. Educ., 60, 9 (1983) 711/712. Phillips G. R., Eyring E. M. Comparison of Conventional and Robust Regression in Analysis of Chemical Data.-Anal. Chem., 55 (1983) 1134/1138. Bubert H., Klockenkampfer R. Precision-Dependent Calibration in Instrumental Analysis.-Z. anal. Chem., 316 (1983) 186/193. Bos U., Junker A. Nachweis- und Bestimmungsgrenze als kritische Verfahrenskenngrossen vollstandiger Messverfahren in der Umweltanalytik.-Z. anal. Chem., 335 (1983) 135/141. Danzer K. Robuste Statistik in der Analytischen Chemie.-Z. anal. Chem., 335 (1989) 869/875. Reimann C., Wurzer F. Monitoring Accurancy and Precision — Improvments by Introducing Robust and Resistanse Statistics.-Microchim Acta (Wien), (1986) 1/6, 31/42. DIN 32 645. Nachweis- und Bestimmungsgrenze.
10 Влияние нескольких переменных (Факторные эксперименты) В аналитической химии на измеренное значение у (или результат анализа) ча- сто оказывают влияние многие составные части исследуемой системы (например, “эффект матрицы”). При разработке метода анализа в этом случае возникает задача качественно установить эти влияния, а затем описать их количествен- но. С этой целью варьируют по заданному плану все эти влияющие величины (“факторы” хи) одновременно и наблюдают, какое это оказывает воздействие на результат измерения. При этом влияние, оказанное каким-то одним фактором, называют его главным эффектом. Если целевые показатели (отклики) изменя- ются при одновременном воздействии двух (или нескольких) факторов, то воз- никают взаимные влияния. Значимость воздействий получают, сравнивая их со случайной ошибкой. Количественное представление эффектов достигается при помощи хорошо подобранного полинома регрессии у — f(xu). Совершенно особая задача стоит перед аналитиком во время факторного эксперимента, она состоит в том, чтобы интерпретировать эффекты, обнаруженные с помощью математи- ческой модели, на основании свойств исследуемой системы и по возможности их обобщить. 10.1. Полные факторные планы Факторные эксперименты определяются числом факторов и = 1,..., п и числом I “уровней” для каждого фактора. Часто используют I = 2 и приписывают символ + 1 верхнему и —1 нижнему уровням [или просто (+) и (—)]. Для п = 3 факторам на I = 2 получается 2 х 2 х 2-факторный эксперимент с т = 23 = 8 опытами. Число опытов k = 1... т в полном факторном эксперименте стремительно растет в геометрической прогрессии т = 1п. Оценка результатов эксперимента с п факторами происходит с помощью п- факторного дисперсионного анализа. Для определения ошибки опыта дубли- руют каждое измерение. В качестве откликов можно использовать косвенные меры концентрации ук (например, экстинкции), тогда их не нужно преобразовы- вать в концентрации через градуировку и функцию анализа. В основе факторного эксперимента 2 х 2 с факторами А и В обычно лежит полный факторный план первого порядка (табл. 10.1) Для оценки опытов составляют две таблицы, одна из которых содержит сум- мы, а вторая — разности двух соответствующих величин у* иу['. Из таблицы Для сумм (у'к + у") вычисляют: 1. Рассеяние всех средних по строкам вокруг общего среднего (рассеяние “ме- жду строками”). 2. Рассеяние всех средних по столбцам вокруг общего среднего (рассеяние “ме- жду столбцами”).
10.1. Полные факторные планы 185 Таблица 10.1. Полный факторный план первого порядка X» опыта Фактор X*. Отклик Ук к = 1 + - у'1 У" 2 — + Уз Уз 3 + + Уз Уз 4 — — Ук Ук 3. Рассеяние всех параллельных определений вокруг общего среднего (рассея- ние “между параллельными определениями”). Взаимодействие между строками со столбцами получают вычитанием из сум- мы квадратов для рассеяния “между параллельными определениями” двух дру- гих сумм квадратов “между строками” и “между столбцами”. По таблице раз- ностей (у'к — ук) по аналогии с уравнением (5.2) рассчитывают ошибку опыта. Наконец, общее рассеяние определяют, как обычно, для всех откликов у,^. Если в составленной таблице сумм есть р строк и q столбцов, то для проведения двух- факторного дисперсионного анализа с дублированными откликами получают следующую общую схему (с Yk = fy'k + Й')): Источник Сумма квадратов Степени свободы Дисперсия Рассеяние между QS3 =2q^(Yp-y)2 fi = P “ 1 s2 = QSi/fi строками Рассеяние между QS2=2p^(Yq-y)2 /2 = g - 1 £ = QS2U2 столбцами Рассеяние между QS. = £(П - и2 параллельными определениями Взаимодействие QSi = QSz - QS2 - QSi /4 = (p- l)(g - 1) s2 =QSk/fk столбцы х строки Ошибка опыта QS, = ^y'k - y'i)2 Л -РЧ sl^QS./fb Общее рассеяние Qs = E(y* - у)2 f = 2pq- 1 После вычисления каждой дисперсии проверяют нуль-гипотезу аналогично тому, как описано в разд. 8.1. Эффекты 1Уц(и = 1,2,.. ,п) отдельных п факторов в эксперименте с I = 2 уровнями получают из выражения: Wu = ——-——— (т — число опытов) (10-1) т/2 Для успешного проведения факторного эксперимента решающее значение имеет правильный выбор уровней факторов. Распространенное применение / = 2 уровням равнозначно ограничению линейной зависимостью. Эта линейная зави- симость обязательно выполняется, если интервал варьирования между (+) и (~)
186 Глава 10. Влияние нескольких переменных не слишком велик. В то же время слишком малый интервал не окажет никако- го влияния на поведение отклика. Оптимальное число уровней факторов можно оценить на основе знания системы, а также с помощью предварительного опыта. [10.1] Надо изучить отрицательное влияние кальция и калия на определение на- трия пламенно-фотометрическим методом. В предварительном исследовании получи- лось увеличение интенсивности j/n», пропорциональное концентрации кальция. Отри- цательное влияние калия, напротив, не было пропорционально концентрации калия. Во время эксперимента поэтому к основному раствору 10 млн-1Ыа+ добавляли оба отрицательно влияющих элемента по следующей схеме: КоСао А1 Сао А2Сао KoCai А1 Cai A2Cai Концентрации приливаемых отрицательно влияющих элементов калия и кальция изменялись по следующей схеме. Ко: тц = 0 Кт: гJ = 10 млн~' К2: = 20 млн 1 Сао: тс» = 0 Cai: = 10 млн-1 Из эксперимента получились следующие результаты у'к и у'к (в делениях шкалы): Ко Kj к2 Сао 153/155 161/159 164/162 Cai 155/157 164/163 167/170 Для упрощения дальнейших вычислений из каждого значения вычитают среднее СаоКо(= 154) и получают табл. 1. Таблица 1. Преобразованные данные Ко Ki к2 Сао ” 1/ “Ь 1 +7/+ 5 +10/+ 8 Cai +1/ + 3 + 10/+ 9 +13/+ 16 Из этих значений составляют таблицы сумм и разностей: Таблица 2. Суммы Yk = у'к + ук Ко к. к2 Сумма Среднее Сао 0 12 18 30 5,00 Cai 4 19 29 52 8,67 Сумма 4 31 47 82 Среднее 1,00 7,75 11,75
10.1. Полные факторные планы 187 Таблица 3. Разности y'k - ук Ко Kj К2 Сао 2 2 2 Cai 2 1 3 Вычисление сумм квадратов. 1. Влияние кальция (главный эффект Са) из табл. 2: , 30^ । 522 822 QS1 = -----------— = 40, 33 (с /1 = 1 степенью свободы) 2. Влияние калия (главный эффект К) из табл. 2: 42 | 312 | 472 822 QS2 = ----------------— = 236,16 (с /2 = 2 степенями свободы) 3. Взаимодействие кальцийхкалий (из табл. 2): Сначала определяют сумму квадратов для рассеяния “между параллельными опре- делениями” и вычитают из нее суммы квадратов, найденные в результате действий 1 и 2: О2 + 122 + 182 +42 + 192 + 292 822 = --------------2-----------------12 = 282’ °7 QS< = 282, 67 — 40, 33 — 236,16 = 6,17 (с /4 = 2 степенями свободы) 4. Ошибка опыта из табл. 3 аналогично уравнению (5.2): 22 I 22 1 22 I 22 I I з2 QS;, = -----------------------= 13,00 (с /4 = 6 степенями свободы) 5. Общее рассеяние из табл. 1: QS = I2 + I2 4- 72 + ... 4- 92 + 132 4- 162 - = 295, 67 (с f = 11 степенями свободы) Сводка Источник QS Степени свободы S2 Главный эффект Са 40,33 1 40,33 Главный эффект К 236,16 2 118,08 Взаимодействие Са х К 6,17 2 3,09 Ошибка опыта 13,00 6 2,17 Итого 295,66 11 Взаимодействие Сах К не превышает случайного рассеяния [/’ = 3, 09/2,17 = 1, 43 < F(P = 0, 95; /1 = 2; /г = 6) = 5,14]. Поэтому сумму квадратов и степени свободы этого взаимодействия можно присоединить к ошибке опыта. Тогда получим новую ошибку опыта:
188 Глава 10. Влияние нескольких переменных QS Степени свободы S2 Взаимодействие Са х К 6,17 2 Ошибка опыта 13,00 6 Новая ошибка опыта 19,17 8 2,40 Нуль-гипотеза Главный эффект Са: F = 40, 33/2,40 = 16, 80 > F(P = 0, 99; fi = 1; /2 = 8) = 11, 26 Главный эффект К: F = 118, 08/2,40 = 49,20 > F(P = 0, 99; /1 = 2; /2 = 8) = 8,65 Наличие обоих главных эффектов не отвергается. Эффекты [уравнение (10.1)] Ис» = (52 - 30)/6 = +3,67 Wk(0 — 1) = (31 - 4)/4 = +6, 75 Wk(0 — 2) = (47 - 4)/4 = +10,75 Оба сопутствующих элемента вызывают увеличение интенсивности. При этом — в одинаковых концентрациях — калий действует сильнее, чем кальций. Если зависимость линейна, то можно описать интенсивность сигнала анали- зируемого вещества у в зависимости от концентрации сопутствующих элементов Ха,хВ • с помощью простого многочлена: WA WB Wn Дж, У = Уо + —ха + — хв + • • • + — xn = Уо + > , (10.2) ХА. ХВ XN U = 1 где уо — отклик при ~ 0; х+ — концентрация А, В... на верхнем уровне; хи — любая заданная концентрация А, В... Отношения IVu/xJ соответствуют частным чувствительностям Ьи. Следова- тельно, принимая во внимание все вклады в интенсивность, получают У = Уо + Уа + УВ + • • • + yN (10.3) У = Уо + ЪАхА + Ьвхв + ... + bNxN Уравнение (10.3) позволяет рассчитать интенсивность сигнала анализа для любых, лежащих в диапазоне исследований, концентраций элементов. [10.2] В примере [10.1] были подтверждены главные эффекты Са и К, а взаимо- действие Са х К, напротив, нет. Из Не» = +3, 67 получается при = 20 млн-1 частная чувствительность 6с» = 0, 184, а следовательно, ус» = 0,184ic»- В случае с ка- лием в качестве приближения можно попробовать квадратичный подход. Пренебрегая свободным членом, получим ук » 0,6025тк — 0,003 25тк- Частную чувствительность для натрия получают, деля на концентрацию основного раствора (10 млн-1 Na) : 6ц» = 154/10 = 15,4. Следовательно, зависимость интенсивности линии натрия можно опи- сать как УНл = 15, 4zn» + 0,184хс» + 0, 602 5хк — 0, 003 25хк Так как ус» линейно зависит от тс», можно предположить, что отрицательное вли- яние на определение натрия оказывает наложенная чувствительность (полоса СаОН+).
10.2. Дробные факторные планы Плаккетта и Бермана 189 Квадратичная зависимость ук от концентрации калия свидетельствует о совершенно другом механизме отрицательного воздействия — предположительно конкурирующем балансе ионизации. То что имеют место два различных, протекающих независимо друг от друга механизма отрицательного воздействия (помех), проявляется сильнее благо- даря незначимости взаимодействия Са X К. Из уравнения (10.3) можно далее определить, какие минимальные концен- трации сопутствующих элементов вызывают значимое отрицательное влияние. Их получают по формулам: . . t(P = 0,95;f)sy + t(.P = 0,95;/)s„ xu (минимум) = -----—-------------------г----— (Ю-4) W u Ou Точно так же можно описать селективность или специфичность метода ана- лиза (см. пример [10.3]). Недостаток всех полных факторных планов состоит в том, что с увеличением числа факторов растет в геометрической прогрессии число требуемых опытов и стремительно растет объем вычислений. Для проведения многофакторного дисперсионного анализа стоит обратиться к книге Вебер [1]. 10.2. Дробные факторные планы Плаккетта и Бермана Если в факторном эксперименте ограничиваются сначала только обнаружением главных эффектов, то значительное сокращение затрат на эксперимент и вы- числения обеспечивают дробные факторные планы. Такие планы, описанные Плаккеттом и Берманом [2, 3], позволяют из m опытов при 1 = 2 уровнях обна- ружить главные эффекты п = m — 1 факторов. Затраты на эксперимент теперь возрастают только линейно вместе с числом факторов. Условие существования факторных планов такого специального вида состоит в том, что m должно де- литься на /2 = 4. Матрица плана (см. табл. 10.2) построена таким образом, что в каждой ее строке каждый фактор хи встречается (т/2) раз на верхнем (+) и (т/2) — 1 раз на нижнем ( —) уровне. После заполнения первой строки все остальные получаются путем циклической перестановки. Последняя m-я строка включает только знаки (—)1-*- Искомые главные эффекты получают в соответ- ствии с уравнением (10.1). Они считаются значимыми только тогда, когда пре- вышают ошибку метода анализа sy. Ее можно получить, проводя каждый из т опытов дважды и вычисляя стандартные отклонения из пар определений [урав- нение (5.2)]. При незначительных затратах ресурсов получают ошибку опыта, если столбцы для некоторых факторов плана не используют по назначению, а применяют их как фиктивные переменные для оценивания S,. В случайном рас- сеянии эффектов W, эти фиктивные переменные проявляются в возникающей случайной ошибке sy. При т опытах и п, мнимых переменных получается (10-5) с f = ns — 1 степенями свободы. Значимое влияние фактора подтверждается, если |IVU| > i(P = 0,95;/)sy = W И И таким образом в каждом столбце оказывается равное число + и —. — Прим. ред.
190 Глава 10. Влияние нескольких переменных Таблица 10.2. Планы Плаккетта — Бермана а) Для 7 факторов (включая фиктивные) в т = 8 опытах X» опыта Факторы Отклик >1 А в с D Е F о 1 + + + - + - - У1 2 + + — + — — + У2 3 + — + — — + + У* 4 — + — — + + + У4 5 + — — + + + — У> б — — + + + — + Уь 7 — + + + — + — Уч 8 — — — — — — — У» б) Первые строки для экспериментальных планов с большим числом факторов: m = 12 + + - + + +-----------+ - т = 16 + + + + - + — + + - — + — — — т = 24 — - “ — + — + — + + + — + + — — — + + + + + — /л = 32-----------+ - + - + + + - + +---------+ + + + + -- + + - + -- + [10.3] Для определения кальция методом пламенной фотометрии [Са(1) 422,6 нм] надо исследовать влияние анионов хлорида, сульфата и фосфата. В эксперименте ис- пользовали раствор с то(Са) = 5 млн-1Са (в форме нитрата кальция). В качестве нижнего уровня (—) для трех факторов была взята концентрация, равная нулю, а в качестве верхнего уровня (+) — концентрация х+ = 20 млн-1. В основе эксперимента лежал план для п — 7 переменных в т = 8 опытах. Расстановка всех факторов А... G по столбцам была чисто случайной и дала: В=фосфат, Е=хлорид, С=сульфат А, С, D, F — фиктивные переменные Для отдельных опытов в соответствии с представленным факторным планом (та- бл. 10.2) были измерены следующие значения в делениях шкалы (отклонения стрелки гальванометра): X» опыта Результат Vk X’ опыта Результат Vk fc=l У1 = 155 к = 5 Л = 210 2 У2 = 128 6 Л = 195 3 Л =175 7 у? = 160 4 Уд = 130 8 Л = 215 Для фактора А по уравнению (10.1) получаем Жа = 1(155 + 128 + 175 + 210 - 130 - 195 - 160 - 215) = -8,0
10.2. Дробные факторные планы Плаккетта и Бермана 191 Аналогично рассчитываем эффекты факторов Wu для переменных А... G: Wb = -55,5 Wc = 0,5 WD = 4,5 We = 3, 0 JVF = —4, 5 JVG = -28, 5 По Wa, Wc, Wd и Wf находим ошибку опыта зу = 5,5 с f = 3 степенями свободы.- Влияние любого фактора будет признано значимым, если |IV| > ДР = 0, 95; f = 3)за = 3,18 • 5,5 = 17, 5 Следовательно, фосфат (|Ив| = 55,5) и сульфат (|ИЛэ| = 28,5) оказывают, вероятно, значимое подавляющее влияние, при добавлении присадки 20 млн-1, влияние хлори- да (|W| = 3,0) меньше ошибки опыта. Самую низкую концентрацию отрицательно влияющих анионов, определяемую с Р = 0, 95, получим по уравнению (10.4): |тфосф(минимум)| = 3,18 • 5,5 „„ „ „ --------- • 20 = 6, 3 млн 55,5 |1сульф (минимум)! = 12,0 МЛН-1, |тхлорид(минимум)| = 116,6 МЛН Статистически значимых отрицательных эффектов нужно ожидать при концентра- ции анионов выше минимальных. В соответствии с уравнением (10.2) можно описать интенсивность эмиссии исследуемой линии Са(1) 422,6 нм при уо = 10(Са)гСа = с ПОМ°ЩЬЮ следующего полинома [уравнение (10.2)]: УСа — 43, OlCa 2, 775тфосф 1, 400тсульф "1 0, 150тхлорид Иногда план Планкетта — Бермана применяется для исследования влияния одних и тех же факторов на несколько откликов (например, на различные эле- менты). В этом случае можно объединить стандартные отклонения, полученные для различных п, фиктивных переменных. Благодаря увеличению числа степе- ней свободы повышается селективность проверки. [10.4] Для исследований методом лазерного микроспектрального анализа проверяли влияние пяти экспериментальных факторов на интенсивность линий элементов Pb, Zn, Си, Fe, Sn, Са и Mg [5]. Для двух фиктивных факторов получились следующие главные эффекты: Pb Zn Си Fe Sn Ca Mg V, -1,4 -1,5 1,2 -1,0 1,6 1,5 -1,1 w; + 1,5 0,8 -1,1 1,1 -1,1 0 1,3 Отсюда получаем по уравнению (5.2) в = 1, 66 с f = 7 степенями свободы и = 2, 36 • 1, 66 = 3, 92. При расчете W* отдельно для каждого фактора точность проверки [с ДР = 0, 95; f = 1) = 12, 7] была бы значительно ниже. Не всегда можно с самого начала с уверенностью исключить взаимодействия. Поскольку ясно, что любые два фактора X и Y могут взаимодействовать между собой. Это взаимодействие проявляется, когда X и Y одновременно находятся
192 Глава 10. Влияние нескольких переменных на уровне (+). В плане Плаккетта — Бермана это неизменно случается (ттг/4) раз1). Такое сочетание (Х+ и У+) всегда сопровождается уровнем (—) какого- либо другого фактора Z. Для плана с т — 8 опытов получается следующая схема: ...X...Y ... Z + + + + Применяя уравнение (10.1) для X, Y и Z, находим „7 , Л Ч 4Wx , 2WxWy tj7 , 1TJ7 TI7 И5с(общ) = —-—I---------= W\ + -PVxIVy 4Wv 2WyWv 1 1Ту(общ) = — = Wy + (10.6) tjz / « \ 4Wz , 2IT'xWzy 1 1Tz(o6ih) = —--1--------= 14 z — тИЗДТу 4 4 2 В случае если главные эффекты W\ и |/4у, а также взаимодействие Их Пу име- ют разные знаки, возникает опасность, что из-за взаимодействия нельзя будет определить статистическую значимость Wx и Пу • Та же опасность существует и для Hz, если Hz и ИхИу имеют одинаковый знак. Если фактор Z предста- вляет фиктивную переменную (Wz ~ 0), то Wz принимает заметно большее или меньшее значение по сравнению с другими фиктивными факторами. Г Это рассуждение требует пояснений. Чтобы учесть характер взаимодействия, надо по- строчно перемножить столбцы соответствующих главных эффектов. Для планов Плаккетта — Бермана такое перемножение задается простым правилом: одноименные знаки дают плюс, разноименные — минус. И в силу циклической природы такого плана четверть всех опытов будет проходить при сочетании (+,+) для любой пары факторов. Кроме того, оказывается, что по той же причине — из-за структуры плана — этому сочетанию знаков в данном плане обязательно будет соответствовать знак ( —) у какого-нибудь другого фактора. Для вычисле- ния эффекта взаимодействия формально подходит та же формула (10.1) только для столбца, соответствующего знакам взаимодействия. Теперь представьте себе, что у взаимодействия окаг- зался знак минус, что вполне возможно. Тогда это взаимодействие сложится с фактором (Z), имеющим минусы на соответствующих местах, и вычтется из главного эффекта, что, конечно, приведет к его искажению. В теории планирования эксперимента такую ситуацию характери- зуют словом смешивание. Говорят, что главный эффект смешан с эффектом взаимодействия и, быть может, еще какими-то эффектами. Для выяснения конкретной системы смешивания в конкретном плане используются таблицы, подобные табл. 10.3. Из этой таблицы, например, видно, что если перемножить столбцы А и В, то с точностью до знака получится столбец F. То же самое верно и для произведений столбцов С и Е и D и G. Значит, в данном эксперименте все эти эффекты нельзя отличить друг от друга. И все, что мы можем узнать, — это их алгебра- ическая сумма. Таким образом, система смешивания позволяет нам судить о возможностях любого плана и выбирать план сообразно нашим целям и с учетом наших возможностей. — Прим. ред.
10.2. Дробные факторные планы Плаккетта и Бермана 193 Таблица 10.3. Двухфакторные взаимо- действия X х Y и их смешивание с Z в факторном плане с 8 опытами у, х У= Смешан с Z = АхВ СхЕ DXG F АхС ВХЕ FxG D AXD BxG EXF С АхЕ ВХС DXF G AxF CXG DXE В AxG BXD CXF E BxF С XD ExG A Если для двух факторов X и Y ожидают значимого взаимодействия (см. та- бл. 10.3), то целесообразно в качестве фиктивной переменной выбирать фактор Z. Величину взаимодействия можно (грубо) оценить как И^общ) « — WxWy/2. При расчете ошибки опыта [уравнение (10.2)] само собой разумеется, что значе- ние Wz, с которым смешано взаимодействие, остается неучтенным. [10.5] Проверялось отрицательное влияние алюминия, фосфата и хлорида на опре- деление кальция с помощью стабилизированной вольтовой дуги. При проведении про- дублированного плана Плаккетта— Бермана с различными сочетаниями уровней фак- торов получились следующие эффекты (S — фиктивная переменная): Фактор 1-й опыт 2-й опыт Вычисление ИД Вычисление ИД A Al -0,142 3 S +0,0158 В Cl -0,0010 PO4 -0,0388 С S -0,0005 S +0,0003 D S -0,0003 Cl +0,0013 E PO4 -0,037 2 S -0,0010 F S +0,0004 Al -0,1536 G S +0,0123 S -0,0008 В первом опыте факторы А и Е связаны с G по приведенной схеме XYZ, во втором — также соотносятся факторы В и F с А (см. табл. 10.3). Объединяя W, из обоих опытов, получим из TVgi и ИД 2 взаимодействие [уравнение (10.6)]: WmWpo, = -(0,0123 + 0,0158) = -0,0281 После этого найдем скорректированные главные эффекты 1 _Л ЛОО 1 ИД, = -[(-о, 142 3) + (-0, 153 6)]------= -0, 133 3 * £ Z WYo4 = |[(-0,037 2) + (-0,038 8)] - ~°’°28 1 = -0,024 0 Для проверки статистической значимости берем W, из обоих опытов (без Wqi и ИДэ) и получаем зу = 0,000 67 с (/ = 5 степенями свободы), а также W* = 0,0017. Сле-
194 Глава 10. Влияние нескольких переменных довательно, чистые главные эффекты алюминия и фосфата, а также взаимодействие Al х РО< статистически значимы. В плане Плаккетта — Бермана выбор уровней (+) и (—) также имеет ре- шающее значение для успеха эксперимента. При неизвестном соотношении ме- жду факторами рекомендуется проводить эксперимент дважды с различными интервалами варьирования. . Для достаточно точной проверки статистической значимости нужно достаточно большое число степеней свободы. Если для f = 5 при проверке значимости эффект Wu лежит лишь немного ниже W*, опыт по- вторяют и пользуются для этого наиболее близким по числу опытов большим факторным планом. 10.3. Специфичность и селективность методов анализа В смеси N компонентов А, В, С... N (концентрации ха', хв', хс . xn) компонент А назначается объектом анализа. Между ха и результатом измерения уд суще- ствует пропорциональность (у& — ЬдХа, 4»д — частная чувствительность). При анализе смеси на определение А будет получено не у а, а измеренная величина У- При единственном специфическом методе анализа эта величина у определя- ется только одним объектом А: У = Уа = >>аХа (10.7) Частные чувствительности всех сопутствующих компонентов равны нулю. Во всех неспецифических методах анализа все N компонентов вносят свой вклад в величину у. Тогда справедливо У — Уа + Ув + ус + • • • + уы = Ъаха + Ьв^в + Ьсхс + • • • + Ь^х^ (10.8) Все N частных чувствительностей bu имеют значения, отличные от нуля. Вы- бор объекта анализа без отрицательного влияния сопутствующих компонентов возможен только, если можно пренебречь долями ув, ус • • • 2W • В этом случае метод анализа называют селективным для компонента А. Тогда в соответствии с уравнением (10.8) N N £2 lj/u| = £2 Ibu^ul < 2/А = (10.9) u=B и=В Вклады N — 1 сопутствующих компонентов могут, следовательно, лежать в рам- ках случайной ошибки sy, т. е. N 52 IMU| < t(P;f)syVN^i (ю.ю) u=B Частные чувствительности, необходимые для решения уравнения (10.10), по- лучают из факторного эксперимента подходящего размера (10.1 или 10.2) по фор- муле bu = Wu/x+, уравнение (10.2). Отдельные доли buxu суммируются, чтобы вследствие компенсации ошибок положительными и отрицательными частными
10.3. Специфичность и селективность методов анализа 195 чувствительностями не возникло ложное представление о селективной избира- тельности анализа. Ошибку опыта sy с f степенями свободы берут из фактор- ного эксперимента или из специальных дополнительных измерений. С помощью перестановки из уравнения (10.10) получим |t»urul t, = (ожидаемое значение ts = 0) (10.11) Сравнивают ts c t(P, f) (табл. А.З). Отрицательные влияния сопутствую- щих компонентов статистически значимы при t, > t(P = 0,99;/). Селективного (избирательного) определения компонента А можно ожидать при ts < t(P = 0, 95; /). В этом случае можно принять величину у, полученную из смеси, непо- средственно как оценку для гд. Для ts > t(P', f) следует пользоваться алгорит- мами косвенного анализа (см. разд. 4.6). В качестве явного выражения для селективности получается: 5=1- Ц* = 1 _ ELb IM.".! (10.12) Ьаха Уа (Уа = 2/8 в плане Плаккетта —Бермана с 8 опытами). Величина S — мера для (процентной) доли анализируемого вещества в измеренной величине у. [10.6] При проверке селективности пламенно-фотометрического определения натрия из эксперимента по Плаккетту —Берману были получены следующие значения XNa = 100 млн-1;з/ка = 227 делений; зу =5,3 деления (/ = 10 степеней свободы) Сопутству- ющий компонент Са Mg К Fe Cl so4 X* , млн-1 100 100 100 100 1000 1000 W. + 16,5 -11,0 -2,5 +3,5 + 15,3 -22,8 ь. +0,165 -0,110 -0,025 +0,035 +0,015 3 -0,022 8 Из уравнения (10.11) следует при хи = х+, а также £2|6ua;u| = для ® компо- нентов (В, С, ...): 71,6 t, =---~ = 5,52 5, Зл/б Так как t3 > t(P = 0,99;/ = 10) = 3,17, при заданных отношениях содержаний нет условий для селективного определения. Долю анализируемого компонента в измерен- ной величине получаем из уравнения (10.12): S = 1-mF = 0’68 (S68%) Если сопутствующие компоненты имеются в указанных здесь концентрациях, ия влияния на интенсивность нужно учитывать в эксперименте (например, с помощью подходящего калибровочного раствора) или с помощью расчетов (применение полино- ма, см. пример [10.2]).
196 /лава 10. Влияние нескольких переменных Выводы о селективности часто связаны с отношением концентраций компо- нента А и сопутствующих компонентов В, С... . При этом, например, принима- ют (хв; ХС • • •) = kiXA. (10.13) (ZKJZL- • •) = Зная частные чувствительности, легко можно выбрать селективный вариант анализа. Для этого бывает достаточно использовать любое приемлемое значение (например, полученное из опыта). По аналогии с уравнением (10.11) получаем _ kl S lfcA; Ьв • I + ^2 £ 1&к; | + • , 0 . , U‘ bA^y/N=l 1 ’ Можно принять, что при и, < «(Р) (табл. А.2) определение селективно. [10.7] При пламенно-фотометрическом определении натрия в соке квашеной капу- сты, заложенной на хранение, ожидали следующих соотношений сопутствующих ком- понентов [уравнение (10.13)]: Са Mg с ki =0,5 К Fe с ki = 0,1 Cl SO4 с кз = 3, 0 С частными чу ветвите льностями, найденными в примере [10.6], получается 0,5(0,165+0,110) = 0,1375 0,1(0,025+0,035) = 0,0060 3,0(0,015 3+0,022 8) = 0,1143 0,2578 Применяя подходящее значение tTxjx = 0,02, из уравнения (10.14) (6а = 227/100) получаем 0,257 8 „ „ и, = ~--------7= = 2, 32 Ж'0,024/6 Так как иг < и(Р = 0, 997) = 3,00, можно считать, что натрий определяется селективно при имеющихся отношениях концентраций. Методы, описанные уравнениями (10.11), (10.14) и (10.12), можно использо- вать также и для многокомпонентных анализов (например, орто-, мета-, пара- ксилола), чтобы сделать вывод о селективности по каждому компоненту. Таким образом получим более полные выводы о селективности отдельных определений, чем при использовании общей меры селективности. Вообще выводы о селектив- ности какого-либо метода анализа возможны только в том случае, если система анализируемого вещества полностью описана с точки зрения качества (частная чувствительность всех компонентов) и количества (диапазон концентраций), а также, если известна случайная ошибка метода анализа1). Кроме описанных в этой главе планов в аналитической химии используется огромное число других методов планирования. См., например, специальный номер Журнала ВХО им. Д- И. Менделеева, 1980, № 1, посвященный планированию эксперимента в химии вообще и в аналитической химии в частности. — Прим. ред.
Литература 197 Литература 1. Weber Е. Grundriss der bioligischen Statistik fur Naturwissenschaftler, Landwirte und Mediziner. 7 Aufl. Jena' Gustav Fischer Verlag, 1972. 2. Plackett R., Burman J. P. Biometrika (London), 33 (1946) 305/310. 3. Stowe R., Mayer R. P. Efficient Screening of Process Variables. - Ind. Eng. Chem., 58 (1966) 36/39. 4. Doerffel K., Kukhnkova J. Lan le van. Plackett-Burman-Experimente bei wechselwirken- den Faktoren.-Z. Chem., 26 (1986) 347. 5. Landmann M. Diss. Halle, 1988. Дополнительная литература Jones К. Optimization of Experimental Data by Plackett-Burman-Plan. Int. Lab. Nov. (1986) 32/35. Gluzmska M. Application of Statistical Methods of Experiment Planning to conclude from the Spectrographical Data. Chem. Anal. [Warszawa] 22 (1977) 733/738. Grossmann O., Miiller E. Anwendung der statistischen Versuchslanung zur Standardisie- rung der Mn-Bestimmung in verschiedenen Legierungen mittels AAS. Z. anal. Chem. 308 (1981) 327/331. Knorr F. J., Futrell J.-H. Separation of Mass-Spectra of Mixtures by Factor-Analysis. Anal. Chem. 51 (1979) 1236/1241. Nalimov V. V., Golikova T I., Mikeshma N. G. On Practical Use of the Concept of D-Optimality. Technometrics 12 (1970) 799/812. Налимов В. В., Чернова Н. А. Статистические методы планирования экстремаль- ного эксперимента. — М.: Наука, 1965. Parczewski A., Walas S. Application of the Theory of Design of Experiments in Examination and Elimination of the Matrix-Effects. Z. anal. Chem. 308 (1981) 332/338. Parczewski A., Koscielnik P. Experimental Examination of the Matrix-Effect in the Flame-Emission-Spectrometry. Z. anal. Chem. 297 (1979) 148/155. Wegscheider W, Knapp G., Spitzky H. Statistical Investigations of Interferences in Graphit Furnace AAS. Z. anal. Chem 283 (1977) 9/14; 97/103; 183/190. Wmdig W., Kistemaker P. G., Haverkamp J., Meuzelaar H. L. C. Factor Analysis of the Influence of Changes in Experimental Conditions in Pyrolysis Mass-Spectrometry. J. Anal. Appl. Pyrolysis 2 (1980) 7/18.
11 Оптимизация (С. Арпадян) Эффективность метода анализа часто определяется взаимодействием многих пе- ременных. Последние должны быть отрегулированы таким образом, чтобы ме- тод анализа показал наилучший возможный результат, например максималь- ный сигнал или минимальную случайную ошибку. Цель статистического метода оптимизации — отыскать эти оптимальные условия в необозримом море возмож- ностей взаимодействия множества факторов. 11.1. Общие сведения о методе [1] Задачу оптимизации удобно описывать шаг за шагом. 1. Надо выбрать отклик у, который должен иметь максимум или минимум. Этот отклик надо уметь измерять количественно, он должен иметь малую и независимую от своей абсолютной величины дисперсию sy. Он должен полно характеризовать цель исследования. При выборе из нескольких откликов надо предпочесть тот, что несет в себе наибольшую информацию (например, отноше- ние сигнал/шум вместо просто интенсивности сигнала). 2. Надо выявить все возможные влияющие факторы хи(и = А, В ... А). Это можно сделать, опираясь на известные закономерности, наблюдаемые в приро- де, причем важно принять во внимание также и такие факторы, о которых из предыдущего опыта известно, что они могут влиять на отклик. Эти факторы надо уметь измерять с высокой точностью (sx/х <С sy/y). 3. Из множества всех возможных факторов надо отобрать только те, которые статистически значимо влияют на отклик. Для этого применяют многофактор- ные планы Плаккетта — Бермана (см. разд. 10.2). 4. Известная (часто только эмпирически) зависимость между откликом у и факторами х описывается функцией у = /(хд, Хв • • • ®n). Графическое изо- бражение этой функции называют поверхностью отклика (response surface). В области, которая с точки зрения экспериментатора наиболее благоприятна, опы- ты проводят по плану первого порядка (см. разд. 10.1), причем число опытов должно быть как можно меньше (например, т = 4). На основании результатов опытов строят уравнение регрессии в виде полинома первого порядка, который позволяет найти направление к искомому оптимуму. В окрестности оптимума используют квадратичное приближение и из него находят координаты оптимума, что и дает искомые условия оптимизации. 11.2. Статистическая оптимизация [2] В целях статистической оптимизации отклика у варьируют N влияющих факто- ров (и = А, В ... А) на I = 2 уровнях. Задавшись основным уровнем х°, образуют
11.2. Статистическая оптимизация [2] 199 Таблица 11.1. Дробный факторный план первого по- рядка для п = 3 факторов [3] N» опыта Хй Хс у *=1 - - + Л 2 + - - Уг 3 + ~ Л 4 + + + Л верхний (ж+) и нижний {хи ) по формулам: ru = xu + Ри хй = хи — Ри (Ри — шаг варьирования) (11.1) Для плана преобразуют “натуральные факторы” хи в кодированные величины хи-. <1* Н" — 'У*~О х+ = и----« = +1 х- = и-------и = _J (Ц .2) Ри Ри (Часто пишут только знаки (+) и (—), см. разд. 10.2.) В подходящей области в соответствии с планом первого порядка проводят наименьшее возможное чи- сло опытов т. Для каждого опыта проводят одинаковое число параллельных определений (г = 1, 2 .. ,пл). Чтобы поддерживать на низком уровне затраты на эксперимент, используют дробные факторные планы (табл. 11.1), отказываясь от возможности оценивания взаимодействий высоких порядков. По результатам т опытов находят т средних арифметических по формуле 1 П1 (пз) П1 ,=1 Поверхность отклика аппроксимируют затем линейным полиномом вида у = b0 + ЬАхА + Ьв^в + • • • + b^XN (11.4) При этом । т (11-5) bu = Xkuyk/m (П-6) fc=i Регрессионный анализ следует применять только тогда, когда во всех т опы- тах наблюдается случайная ошибка примерно одинаковой величины. Для про- верки этого условия из одинакового числа параллельных определений п} рас- считывают т строчных дисперсий по формуле = Е(^-&)2ж -п (н.п
200 Глава 11. Оптимизация Однородность таких дисперсий проверяют с помощью G-критерия Кохрена [5]. Для этого находят отношение самой большой дисперсии s^(max) к сумме всех m отдельных дисперсий. Отсюда m G = s£(max)/]Tsit С11-8) 1 Неоднородность дисперсий признается при G > G[P\ Д = п3- — 1; /2 = m(nj — 1)] (см. табл. 11.2). Коэффициенты регрессии Ьо и 6и, вычисленные по уравнениям (11.5) и (11.6), представляют собой случайные величины. Поэтому их надо проверить на значи- мость отличия от нуля. Для этого образуем [(по аналогии с выражением (5.1а)] ТП 4 = (1L9) 1 и получаем отсюда дисперсию коэффициентов регрессии sl = sy/m (11.10) с f = m(n.j — 1) степенями свободы. Коэффициенты регрессии статистически значимы, когда J&oJ; = Ь* означает, что соответствующий фактор в исследуемой области не оказывает существенного влияния на отклик.) Уравнение регрессии у = /(гд, гц • • -хм) надо проверить на адекватность в области исследования. Для этого вычисляем и образуем меру адекватности В (см. разд. 9.1) по формуле В = ~ У2 (11.12) Е(п-^)2 где Yk — значения, вычисленные по уравнению регрессии. Модель регрессии можно считать адекватной при В > 0, 90. Если это так, то можно предсказать отклик у для любых значений факторов Хи с помощью Уравнения регрессии. Наконец, надо выявить влияние на отклик отдельных факторов. Для этого образуют п произведений Wu = buPu (11.13) Доминирующее влияние на отклик оказывает тот фактор ru, который в ра- венстве (11.13) дает максимальное (а также минимальное) значение. Описанное линейное приближение поверхности отклика надо повторить в но- вой области исследования. Координаты [равенство (11.2)] этой новой области определяются по доминирующему фактору предыдущего опыта. Этот фактор
Таблица 11.2. Критические значения G-критерия Кохрена при числах степеней свободы /1 и /2 Л Л = 1 2 3 4 5 6 7 8 9 10 16 00 а) Р = 0,95 2 0,99 0,97 0,94 0,90 0,88 0,85 0,83 0,82 0,80 0,79 0,73 3 0,97 0,87 0,80 0,75 0,70 0,68 0,65 0,63 0,62 0,60 0,55 0,33 4 0,91 0,77' 0,68 0,62 0,59 0,56 0,54 0,52 0,50 0,49 0,44 0,25 5 0,84 0,68 0,60 0,54 0,51 0,48 0,46 0,44 0,42 0,41 0,36 0,20 6 0,78 0,62 0,53 0,48 0,44 0,42 0,40 0,38 0,37 0,36 0,31 0,17 7 0,73 0,56 0,48 0,43 0,40 0,37 0,35 0,34 0,33 0,31 0,28 0,14 8 0,68 0,52 0,44 0,39 0,36 0,34 0,32 0,30 0,29 0,28 0,25 0,12 9 0,64 0,48 0,40 0,36 0,33 0,31 0,30 0,29 0,28 0,25 0,20 0,16 10 0,60 0,44 0,37 0,33 0,30 0,28 0,27 0,25 0,24 0,23 0,20 0,10 12 0,54 0,39 0,33 0,29 0,26 0,24 0,23 0,22 0,21 0,20 0,17 0,08 15 0,47 0,33 0,28 0,24 0,22 0,20 0,19 0,18 0,17 0,16 0,14 0,07 20 0,39 0,27 0,22 0,19 0,17 0,16 0,15 0,14 0,14 0,13 0,11 0,05 30 0,29 0,20 0,16 0,14 0,12 0,11 0Д1 0,10 0,10 0,09 0,07 0,03 б) Р = 0,99 2 1.0 0,99 0,98 0,96 0,94 0,92 0,90 0,88 0,87 0,85 0,79 0,50 3 0,99 0,94 0,88 0,83 0,79 0,76 0,73 0,71 0,69 0,67 0,61 0,33 4 0,97 0,86 0,78 0,72 0,68 0,64 0,61 0,59 0,57 0,55 0,49 0,25 5 0,93 0,79 0,70 0,63 0,59 0,55 0,53 0,50 0,48 0,47 0,41 0,20 6 0,88 0,72 0,63 0,56 0,52 0,49 0,46 0,44 0,42 0,41 0,35 0,18 7 0,84 0,66 0,57 0,51 0,47 0,43 0,41 0,39 0,37 0,36 0,31 0,14 8 0,79 0,61 0,52 0,46 0,42 0,39 0,36 0,34 0,32 0,31 0,29 0,12 9 0,75 0,57 0,48 0,42 0,39 0,36 0,34 0,32 0,31 0,29 0,28 0,10 10 0,72 0,54 0,45 0,39 0,36 0,33 0,31 0,29 0,28 0,27 0,23 0,10 12 0,65 0,47 0,39 0,33 0,31 0,28 0,27 0,25 0,24 0,23 0,20 0,08 15 0,57 0,41 0,33 0,29 0,26 0,24 0,22 0,21 0,20 0,19 0,16 0,07 20 0,48 0,33 0,26 0,22 0,20 0,19 0,17 0,16 0,16 0,15 0,12 0,05 30 0,36 0,24 0,19 0,16 0,14 0,13 0,12 0,11 0,11 0,10 0,09 0,03
202 Глава 11. Оптимизация xu (в натуральных координатах) повышается в новом эксперименте на один шаг варьирования ри, т. е х° (новый) = (старый) + Ри (11.14) Если bu — коэффициент регрессии доминирующего компонента, то изменя- ется основной уровень всех прочих факторов по формуле: , РЕ (новый) = х° (старый) + (11.15) “и где — эффект фактора и [выражение (11.13)]. Для верхнего (х+) и нижнего (х~) уровней остается исходный шаг варьиро- вания ри. Новые натуральные переменные снова кодируют [выражение (11.2)] и повторяют эксперимент по аналогии с первым этапом. Такое линейное прибли- жение повторяется до тех пор, пока не получат В > 0, 90 и пока коэффициенты регрессии не поменяют знаки. В < 0, 9 означает, что слишком искривленная по- верхность отклика не поддается больше описанию с помощью линейного прибли- жения. Изменение знака одного из коэффициентов регрессии свидетельствует о переходе через оптимум. Слишком острый пик оптимума можно локализовать одним только изменением знака, так что при известных условиях остальные этапы просто не нужны. Если оптимум выявлен еще не достаточно хорошо, то строят приближение поверхности отклика с помощью полинома второго поряд- ка: п п п У 4* "Г ] Ъиихи 4" ] buyXuxv u=A u=A u^v (11.16) Коэффициенты регрессии рассчитываются из плана эксперимента второго по- рядка по Боксу и Бенкену (табл 11.3). Для случая п = 3 факторов (и = А, В, С) и, следовательно, тп = 15 опытов (к = 1... 15) получают 60 - 1 1 = 3(2/13 + 2/14 4- уц>) =- У] Уо (11.17) и—А ьи -- 1 1 Д - a(^ul?/l + Ац2?/2 + • + XU15J/is) = - У2 XufcJ/fc (11.18) б б fc=l 15 /15 15 15 \ Ku - ~ g У2 ^икУк ~ 0’ 020 8 1 У2 ^AJcУк + У2 Ук + • • + У2 ^СкУк 1 ~ ° t=l \fc=l k = l k = l / ДЕ» ' (11Л9) 1Л = - У] ХикХькУк при и / V и и = А, В, С (11.20) * fc=i
11.2. Статистическая оптимизация [2] 203 Таблица 11,3. План эксперимента Бокса — Бенкена [4] для п = 3 фак- торов и m = 15 опытов № опыта Хс У 1 -1 -1 0 У1 2 + 1 -1 0 У2 3 -1 + 1 0 У> 4 + 1 +1 0 У4 5 -1 0 -1 У! 6 + 1 0 -1 Уе 7 -1 0 +1 У1 8 + 1 0 +1 Ув 9 0 -1 -1 У» 10 0 -1 +1 Ую 11 0 +1 -1 Ун 12 0 + 1 +1 У12 13 0 0 0 Ув 14 0 0 0 У14 15 0 0 0 У15 Дисперсии для проверки статистической значимости коэффициентов регрес- сии находят из выражений 1 m s2 = — £s2 [уравнение (11.9)] равными: m ' ~~ s2(60) = 0,333s2 s2(bu) = 0,083 3s2 (11.21) s2(feuu) = 0,865s2 s2(M = 0,25s2 Для поиска оптимума вычисляют частные производные квадратного много- члена по всем трем переменным Хд, Х&, Хс- Координаты оптимума находят как обычно, решением такой системы уравнений. [11.1] Для спектрометрического анализа со стабилизированной дугой постоянного тока [2] искали условия, максимизирующие отношение сигнал/шум. Из предшеству- ющих опытов по плану Плаккетта — Бермана (разд. 10.2) в качестве статистически значимых факторов выбрали- - силу тока дуги, — ширину полосы монохроматора, — положение переключателя напряжения динода (вторичноэлектронного катода ФЭУ (фотоэлектронного умножителя). На основании ориентировочных измерений для начала статистической оптимизаци» были взяты следующие условия:
204 Глава 11. Оптимизация Фактор хи Ток дуги, А Г А Ширина полосы, мм ^в Напряжение ФЭУ (положение переключателя) Основной уровень 7 0,015 3 Шаг варьирования ри 1 0,005 1 Верхний уровень 8 0,020 4 Нижний уровень хй 6 0,010 2 Натуральные переменные были закодированны в соответствии с равенством (11.2). По дробному плану (табл. 11.1) с п3 = 2 параллельными определениями (у'к и ук изме- рены в делениях шкалы) получились следующие результаты. х* опыта Натуральные переменные Кодированные переменные Результаты *а *в *с Ха Хс Ук Ук У к=1 6 0,01 4 -1 -1 + 1 21 20 20,5 1 2 8 0,01 2 + 1 -1 -1 3 3 3,0 0 3 6 0,02 2 -1 + 1 -1 7 8 7,5 1 4 8 0,02 4 + 1 + 1 + 1 29 31 30,0 2 По разности ly'k — у/| можно предполагать, что ошибки опыта однородны по всем 4 вариантам. Вычисляем коэффициенты регрессии [уравнения (11.5) и (11.6)]: 6о = |[20, 5 + 3, 0 + 7, 5 + 30, 0] = 15, 25 Ьд = |[(-1 • 20, 5) + (+1 3, 0) + (-1 7, 5) + (+1 30, 0)] = 1, 25 6в=+3,50; Ьс = +10,00 Для проверки значимости из у'к — ук получают по аналогии с выражением (5.2) общую дисперсию [уравнение (11.9)] ~ Уi')2/2т = 6/8 = 0, 75 и отсюда [уравнение (11.10)] sf = 0,75/4 = 0,19 зь = 0,433 с f = 4 степенями свободы Следовательно, Ь = 2, 78 0,375 = 1,20. Так как Ьи > Ь, все коэффициенты регрессии значимо отличаются от нуля, и для этого первого этапа выпишем уравнение регрессии у(1) = 15, 25 + 1, 25Ха + 3, 50Хв + 10,00Хс Для проверки адекватности вычисляем m = 4 значения У* и получаем У1 = 15, 25 + (1,25 • (-1)) + (3,50 (-1)) + (10, 00 • (+1)) = 20,5 У2 = 3, 0 Уз = 7, 5, У4 = 30, 0
11.2. Статистическая оптимизация [2] 205 При У = 15,25 имеем [уравнение (11.11)] ^(Ук ~ ®)2 = 1146,86 и ^](У* - У)2 = 1 146,86. Отсюда получаем [уравнение (11.12)] В = 1,00. Уравнение регрессии адекват- но описывает поверхность отклика в области исследования. Все три коэффициента регрессии Ьд, Ьв и Ьс имеют одинаковый положительный знак, т. е. двигаясь дальше в направлении координат хй —► xt, будем приближаться к искомому оптимуму. Так как Wc = 10,00 > 1Уд = 1, 25 > РУц = 0,0175 [уравнение (11.13)], напряжение ФЭУ получается доминирующим фактором1). На следующем, втором, этапе эксперимента для доминирующего фактора С в соот- ветствии с выражением (11.11) основной уровень х°с повышается на один шаг варьиро- вания- х ’(новый) = х ’(старый) 4-1=4. Для основного уровня факторов А и В получают при Ьс = Ъ = 10, 00 [уравнение (11.15)]: Тд (новый) = 7 4- = L 125 ~ 7 тв(новый) = 0, 015 4- = 0, 0168 я 0,017 Таким образом во втором эксперименте без изменений остались ток дуги и ширина полосы. Следовательно, имеем такие условия опытов: Факторы хи Ток дуги, А Тд Ширина полосы, мм яв Напряжение ФЭУ (положение переключателя) хс Основной уровень т° 7 0,015 4 Шаг варьирования ри 1 0,005 1 Верхний уровень 8 0,020 5 Нижний уровень хй 6 0,010 3 Результаты измерений t/k приводят к полиному: 3/(2) = 31,0 4- 1,1ХА 4- 4, 2ХВ + 14, ОХс (В = 0,93) Коэффициенты регрессии имеют те же самые одинаковые знаки; это означает, что оптимум еще не достигнут (или уже превышен). Меньшая по сравнению с первым экспериментом мера адекватности — знак того, что поверхность отклика искривлена сильнее1^. И снова доминирующий эффект — положение переключателя ФЭУ хс- В третьем эксперименте заново, по аналогии с этапом 2, выбираются координаты. При этом (новый) = 44-1 = 5. Основной уровень и ig, а также шаг ри остаются х) Рассуждения о проверке адекватности в данном примере — результат недоразумения. Эта ошибка вообще широко распространена в практических приложениях. Дело в том, что если число различных (т. е без учета параллельных) опытов совпадает с числом коэффициентов в уравнении, как в данном примере, где число опытов равно 4, как и число коэффициентов, то проверка адекватности становится невозможной, поскольку все вычисленные значения откли- ка совпадают с экспериментальными (с точностью до ошибок округления). Так, если мы через две точки проведем прямую, то никаких “отклонений” от этой прямой мы по этим точкам не обнаружим. В таких случаях говорят, что число степеней свободы для проверки адекватности равно нулю. — Прим. ред.
206 Глава 11. Оптимизация без изменения. Получилось следующее уравнение регрессии: у(3) = 43, 0 - 1,1ХА + 6, 5Хв - 8, 5 Ас (В = 0, 78) Изменение знаков Ьд и io — указание на то, что оптимум превышен. В < 0,9 означает, что в этой сильно искривленной области поверхности отклика линейное при- ближение больше не адекватно. По трем этапам оптимизации в данном случае удалось вполне удовлетворительно локализовать оптимум. В качестве наилучших рабочих условий было выбрано: Сила тока дуги 7 А Ширина полосы 0,015 мм Положение переключателя ФЭУ 4 Квадратичное приближение [уравнение (11.16)], следовательно, не требуется1). Эксперименты по оптимизации в принципе можно проводить по описанному алгоритму, однако их практическая реализация требует от экспериментатора критического мышления. Особенно важно обратить внимание на то, что каждый эксперимент по оптимизации справедлив только для выбранного отклика, поэто- му последний должен быть точно известен. Не всегда поверхность отклика будет иметь один единственный оптимум. В таких случаях нужно использовать греб- невый анализ, описанный Херлом [6], чтобы однозначно отыскать глобальный оптимум2\ Литература 1. Arpadijan S., Doerffel К., Holland-Lettz К., Much Н., Раппаск М. Statistische Optimie- rung analytisch-chemischer Aufgabenstellungen.-Z. anal. Chem., 270 (1974) 257/262. 2. Arpadjan S. Diss. Merseburg, 1973 3. Box G. E. P., Wilson К. B. On the Experimental Attainment of Optimum Conditions. Roy. Stat. Soc., 13 (1951) 1. 4. Box G. E. P., Behnken D. W. Technometrics, 2 (1960) 455. 5. Cochran W. G., Cox G. M. Experimental Designs. 2-nd Ed. New York, 1957. 6. Hoerl A. E. Chem. Eng. Progr., 55 (1959) 69. Дополнительная литература Гинберг A. M., Грановский Ю. В., Федотова Н.Я., Калмуцкий В. С. Оптимизация технологических процессов в гальванотехнике. — М.: Машиностроение, 1972. Doerffel К., Eckschlager К , Henrton G. Chemometrische Strategien in der Analytik. Leipzig: Deutscher Verlag fur Grundstoffindustrie 1990. D Хотя все, что говорится об адекватности в этом примере, ошибочно, сам результат, как ни странно, вполне разумен. — Прим. ред. 2) Метод, кратко описанный в данной главе, часто называют методом Бокса или методом крутого восхождения. Его более подробное описание см., например: Адлер Ю. П. Введение в планирование эксперимента. — М.: Металлургия, 1969; Адлер Ю. П., Маркова Е. В., Гранов- ский Ю. В. Планирование эксперимента при поиске оптимальных условий. — М.: Наука, 1971 (2-е изд., 1976). — Прим. ред.
12 Дискретные временные ряды Под временным рядом понимают набор данных, которые наблюдаются во вре- менной последовательности. Этими данными могут быть результаты анализа х, (например, процентные содержания) или обычные измерения у, (например экстинкции) или также (для простоты сравнения) относительные величины (на- пример, xt/x). Эти временные ряды называют дискретными, если наблюдения происходят только в определенные моменты. Обычно выбирают эквидистантные (равноотстоящие) интервалы. Временные ряды такого типа часто встречаются в контроле качества, при описании технологических процессов или при мони- торинге данных из области охраны окружающей среды. Но временные ряды возникают также в любой лаборатории при контроле работы аналитического метода (например, при наблюдении за величинами и знаками разностей парал- лельных определений или при сравнении фактических и ожидаемых значений). В большинстве случаев временные ряды демонстрируют случайные флуктуа- ции — “шум”, параметр которого нужно вычислить и оценить. Кроме того, во временных рядах могут содержаться также вполне детерминированные компо- ненты (скачкй, смещения, периодичности). Их надо выделить из шума и со- ответствующим образом интерпретировать. Более того, часто требуется прогноз будущих значений. Подобное прогнозирование с определенной вероятностью воз- можно благодаря внутренним связям временного ряда. Закономерности, применяемые для анализа временных рядов, в одинаковой степени справедливы и для других зависимостей (например, пространственной зависимости z(r) при анализе распределений). 12.1. Описание стохастических временных рядов Первый шаг при обработке временных рядов — всегда графическое предста- вление данных £,(/). Благодаря этому получают наглядное представление об основных свойствах этого ряда, а также о возможных грубых ошибках. Для этой цели отдельные значения х, наносят на график, сохраняя вре- менную последовательность По этим данным складывается кривая, характер которой и рассеяние позволяют сделать выводы, например, о качестве продукции или производственного процесса. Для оценки данных и принятия решений надс на предварительном этапе найти среднюю линию по п — 20 ... 100 значениям: ^(7)= 1 \>,(/) (12.1а) и среднее квадратичное х2(/) = — ” ж(0]2 (12-16,
208 /лава 12. Дискретные временные ряды Средняя линия соответствует среднему качеству продукции, а следователь- но, параметру р распределения. Если ошибкой метода анализа «а пренебречь, то среднее квадратичное ах как рассеяние отклика х, обусловленное производ- ством, соответствует параметру <тх определенного распределения. Для после- дующей оценки доверительного интервала надо проверить полученные данные на нормальность, т. е. на соответствие гауссову распределению. Это делают обычно графически (см. разд. 3.1) или с помощью вычислений (см. разд. 7.8). Представления такого типа, когда данные постоянно накапливаются, называ- ются контрольными картами. При наличии нормальности распределения пред- полагают, что значения качества (и, следовательно, лежащий в их основе про- цесс) находятся в управляемом состоянии, пока значения x,(i) рассеиваются внутри границ р ± 3<т(Р — 0,997) (или р ± 2,58<т и соответственно Р — 0,99). Появление значений выше или ниже этих контрольных пределов означает, что соответствующие данные с вероятностью Р больше не принадлежат генеральной совокупности с этими р и ст. Многократное появление значений выше или ниже контрольного предела в каком-либо одном направлении дает повод к проверке стабильности производственного процесса. Подозрение о наличии систематиче- ских изменений возникает также тогда, когда: из 7 последовательных значений 7, из 11 последовательных значений 10, из 14 последовательных значений 12, из 17 последовательных значений 14, из 20 последовательных значений 16 оказываются по одну сторону (выше или ниже) от средней линии. Особое пре- имущество такого метода контрольных карт заключается в том, что он позволяет обнаружить медленно накапливающиеся изменения еще до того, как они отри- цательно скажутся на процессе. Некоторые типичные структуры контрольных карт показаны на рис. 12.1. Фальсификации, возможные при ведении контрольных карт, часто очень лег- ко обнаруживаются. Если точки, которые должны были бы лежать за преде- лами контрольных границ, искусственно переносятся внутрь этих границ, то получаются скопления точек около контрольной границы. Тогда рядом с мак- симумом у средней линии часто получается еще один максимум как раз около границы. В описанном методе контрольных карт предполагается значимость стандарт- ного отклонения временного ряда, т. е. флуктуации внутри временного ряда должны быть в основном обусловлены стандартным отклонением <тх (напри- мер, флуктуации показателей качества). Относительно <тх ошибка анализа «д (с /д степенями свободы) должна быть пренебрежимо мала. В предположении SA < <?х проверяют в соответствии с неравенством (7.36) гипотезы: d < х2(1-Л/а) /а При выполнении этого неравенства можно считать с вероятностью Р, что ошибка анализа «д относительно ах пренебрежимо мала. Если вместо ах из- вестна только ее оценка sx (с fx степенями свободы), проводят проверку по F = (sx/sb)'2 и сравнивают с F = (Р = 0,99;/т;/д) [уравнение (7.1)]. Толь-
12.1. Описание стохастических временных рядов 209 Средняя линия Верхняя конт- рольная граница Нижняя конт- рольная граница Процесс управляем Процесс искусственно “укорачивается”, хотя он неуправляем Медленный временной дрейф Процесс неуправляем Разрыв Подозрение на большее чем случайное изменение Рис. 12.1. Типичные рисунки контрольных карт. Периодичность ко в том случае, если ошибкой анализа «д можно пренебречь, контрольные карты можно вести в соответствии с рис. 12.1, в противном случае к каждой точке нужно указывать доверительный интервал (Р = 0,95), рассчитанный из «д (т. е. вместо простой точки • вносить в контрольную карту f). Выход за пределы контрольных границ вверх или вниз достигается только тогда, когда соответствующая точка, включая ее доверительный интервал, лежит вне этой границы. В предположении, что процесс протекает без смещения, по п измерениям вре- менного ряда Xift) можно прогнозировать будущее (еще не измеренное) значение
210 Клава 12. Дискретные временные ряды 4+1(0- А именно [13]: 4+1(0 = К (k = 0,1,2,...nG) (12.2) i=n — к = Kxn(t) + К(1 - K)xn^(t) + К(1 - K)2xn_2(t) + +А(1-А)4„-з(0--- При этом скользящее среднее К взвешивает отдельные значения временного ря- да для прогнозируемого значения ®„+1(0- Эти веса уменьшаются по экспоненте с “возрастом” значения. Поэтому такой тип распределения весов называют экс- поненциальным сглаживанием. Ожидаемое значение, производное от экспонен- циально сглаженных данных, соответствует ожидаемому (предсказываемому) результату наблюдений. Дисперсию экспоненциального среднего получают из дисперсии процесса [уравнение (12.16)] в виде /</(2 — К)<г2. Оценка текущего среднего А' зависит от длины интервала сглаживания (пс-число измерений) по формуле: К = 2/(nG + 1) (12.3) Длина интервала сглаживания оказывает решающее влияние на прогнозиру- емое значение. Большой интервал сглаживания уравновешивает флуктуации во временном ряду для прогноза, а прогнозируемое значение будет близко к средней линии временного ряда при меньшей дисперсии прогноза. При коротком интер- вале сглаживания прогнозируемое значение быстрее реагирует на флуктуации значений временного ряда при безусловно более высокой дисперсии прогноза. Подходящий интервал сглаживания целесообразно подбирать эксперименталь- ным путем в ходе предварительного исследования (наиболее часто встречающе- еся стартовое значение nG = 20). [12.1] В одном процессе полимеризации с интервалом в 4 часа были измерены я = 10 Выходов (в %): 10-8-11-12-13-9-8-7-11-10. Отсюда для интервала сглаживания яс = 9 (и соответственно К = 0,2) получи- лось следующее прогнозируемое значение для одиннадцатого результата (из равенства (12.2): in = 0, 2[10 + 0, 8 11 + 0, 82 • 7 + 0,83 • 8 + 0, 84 • 9 + +0,85 • 13 + 0,86 12 + 0,87 • 11 + 0,88 • 8] = 8,42 При интервале сглаживания па = 3 (А' = 0, 5) получается близкий прогноз (ф = 8, 38). Оба прогнозируемых значения хорошо подтвердились в последующем измерении (хи = 9%). После измерения 1ц была введена в процесс активирующая добавка, что привело к более высоким выходам. Прогнозируемые значения, вычисленные с ng = 9 и яс = 3, а также измеренные выходы дают следующую картину: i = 12 13 14 15 Предварительно вычислено при пс = 9 8,40 8,39 8,67 8,90 по = 3 8,00 9,50 9,13 9,50 Впоследствии измерено 12 10 14 10
12.2. Выделение детерминированных компонентов 211 Значения, которые были вычислены при «с = 9, не учитывают тенденцию увели- чения выхода более чем на 4%. А прогноз при па = 3 уже приспособился к новой ситуации по последним измерениям, но имеет большой разброс. Описанная здесь модель ограничена процессами без дрейфов. Однако прогноз возможен также и для процессов с дрейфами. Для этого надо обратиться к дополнительной литературе (см. в конце главы). 12.2. Выделение детерминированных компонентов Во временном ряду могут содержаться в качестве детерминированных компо- нентов скачкй, периодичности или дрейфы. Скачки выявляют с помощью t- критерия (см. разд. 7.3). При этом проверяется разность между двумя средними значениями по формуле t = ki(<) ~ Дг(*)| / тцп2 Sx у 711 -р 712 (12-4) где sx — рассеяние процесса, ni + — число измерений, относящихся к обоим периодам. Периодичности во временном ряду можно определить с помощью критерия знаков (см. разд. 7.5). Центрированный временной ряд делят на два отрезка, по возможности одинаковой длины (ni ss пц ss п/2). Оба этих отрезка упоря- дочивают таким образом, чтобы положения максимумов и минимумов коррели- ровали как можно лучше. Для каждой отдельной пары значений ^(t) и составляют выражение знак (Щх1^) • 2ГП(1)], г = 1, 2,... ss п/2 (12.5) Значимый перевес положительных знаков [выражение (7.20)] может служить указателем периодичности. В коротких временных рядах можно определить периодичность с помощью критерия серий Вальда-Вольфовица (см. разд. 7.5). Для обнаружения дрейфа (тренда) во временном ряду используют критерий на дрейф Нойманна. При этом в качестве нуль-гипотезы проверяют, зависимы ли результаты измерений в предыдущем временном ряду друг от друга, т. е. есть ли временной дрейф. Для этого строят: s2(n - 1) П £?=1 X? - (Е xi? (12-6) и сравнивают с D(P;n) (см. табл. 12.1). В отличие от только что описанного критерия (ср. гл. 7) нуль-гипотеза отклоняется, если D лежит ниже D(P-, п) [т. е. D < D(P; п)]. Отклонение нуль-гипотезы подтверждает наличие дрейфа во временном ряду. В качестве приближения в области 10 < п < 30 можно использовать: D(P = 0,95; п) я» 0,02п + 0,88 D(P = 0,99; п) « 0,035п + 0,11 [12.2] Для внутреннего контроля в аналитической лаборатории ежедневно по два раза вводили контрольную пробу известного содержания. В течение одной декады
212 Глава 12. Дискретные временные ряды Таблица 12.1. Кри- тические значения для критерия дрейфа Ной- манна Л Р = 0,95 Р = 0,99 4 0,78 0,59 5 0,82 0,42 6 0,89 0,36 8 0,98 0,40 10 1,06 0,48 12 1ДЗ 0,56 14 1,18 0,62 16 1,23 0,68 18 1,27 0,74 20 1,30 0,79 25 1,37 0,88 30 1,41 0,96 35 1,49 1,08 получились следующие разности (в % Си) между найденными значениями и заданной величиной: -0,002 -0,003 4-0,001 ±0 -0,002 ±0 4-0,001 4-0,001 4-0,003 4-0,004 Из рассмотрения графика возникает подозрение о тенденции к положительным зна- чениям, а следовательно, и о наличии положительной систематической ошибки. Про- верка дрейфа [уравнение (12.6)] дает п—1 У^(т - т,+1)2 = 3,2 • 10~5 1 3 = 2, 21-Ю-3 D = 3, 2 • 10~6/(9 • 4,88 • 10~6) = 0, 73 Это значит (см. табл. 12.1) Г>(Р = 0, 95, п = 10) = 1,06 > D = 0, 73 > £>(Р = 0,99, п = 10) = 0,48 По правилам из разд. 7.1 надо признать, что подозрение о систематической поло- жительной ошибке (а следовательно, и о снижении качества аналитической работы) имеет основание. С помощью эмпирического приближения D(P = 0,95; п) « 0,02п 4- 0,88, дан- ного в табл. 12.1, уравнение (12.6) можно преобразовать в = - 1)]{0,02п + 0,88) aVw При этом Cd > 1(±0, 03) означает, что во временном ряду надо ожидать наличия тренда (дрейфа). Такая оценка в области 10 < п < 30 не требует использования таблицы.
12.2. Выделение детерминированных компонентов 213 Быстрее всего обнаружить дрейф позволяет критерий знаков (разд. 7.5). Вре- менной ряд (тп значений) делят пополам и вычитают соответствующие значения первой половины из второй. Проверяют, нет ли среди знаков разностей d, пе- ревеса каких-либо одних знаков. Тогда можно говорить о восходящей или нис- ходящей тенденции во временном ряду. Эту проверку выполняют по = п/2 разностям. Поэтому значения временного ряда используются с меньшей эффек- тивностью. Следовательно, этот метод проверки лучше использовать при длин- ных рядах измерений. Здесь благодаря своей простоте он оказывается особенно выгодным. Детерминированные компоненты во временных рядах можно особенно на- глядно и эффективно выделить с помощью метода кумулятивных карт (метода “ку-сумм”, или “cu-sum”) [1]. Для последующей оценки временного ряда обра- зуют разности со средней линией d,(t) = x,(Z) — x(Z) (12-7) При текущей оценке временного ряда вместо средней линии берут требуемое число х*: dt(t) = xt(t) — х* (12.7а) Эти разности постоянно суммируются с учетом знака. Затем полученная от начала наблюдений (t = 0) до соответствующего момента времени (t = Z,) сумма разностей D наносится на график, т. е. t=t, г>(0 = £^М (12.8) t=o Пока отдельные разности d,(t) случайно рассеиваются под влиянием только <тг, кумулятивная сумма остается постоянной во времени. Если в показателях качества появляются отклонения от среднего или заданного значения, они дей- ствуют на кумулятивную сумму £)(<) и вызывают ее отклонение от постоянного значения в Ту или другую сторону. При правильном выборе масштаба в изобра- жении “ку-сумм” даже небольшие смещения — где-то в пределах ±<тг — можно распознать уже через несколько точек. Контрольные карты для таких куму- лятивных сумм разностей (метод “ку-сумм”) целесообразно строить так, чтобы величина 2(7^ на оси ординат и временной отрезок между двумя измерениями на оси абсцисс имели одинаковый масштаб. При таком выборе случайные коле- бания проявятся так, что небольшие смещения ку-сумм в пределах ±2(7^. дадут линию под углом 45° относительно горизонтали. Характер прямой линии посто- янно проверяется при каждой новой точке на графике с помощью V-образной маски. Для предложенного здесь масштаба по осям абсцисс и ординат угол маски составляет 14°, а последняя, подлежащая проверке, точка находится на расстоянии п = 8 единиц времени от вершины угла. (Для выбора п см. [15].) [12.3] Для содержания воды в целлюлозе граница допуска х* = 1, 80%. В серии из- мерений получилось Ti = 1,80%, х? = 1,75%, хз = 1,68%... изо = 1,60%. Отсюда найдено стандартное отклонение производства: <тх — 0,07%НзО. Графическое предста- вление результатов анализа (см. рис. 12.2,а) показывает беспорядочные колебания в пределах границ 3<тх. Кажется, что процесс управляем. Для карты ку-сумм сначала вычисляют разности отдельных результатов и задан- ного значения т* = 1,80% и получают di = 0,00, = —0,05; ds = —0,12... Отсю- да получают значения для нанесения на карту “ку-сумм”: Di = 0,00; D2 = —0,05;
214 Глава 12. Дискретные временные ряды Рис. 12.2. Метод контрольных карт, а) х — s-карта; б) карта ку-сумм с V-образной проверочной маской. £>з = —0,14... Из нее видно, что сначала (рис. 12.2,6) изготовлялся продукт, качество которого стабильно соответствовало требуемой норме. Проверка, например, десятого измеренного значения показывает, что все точки рассеиваются внутри наложенной мас- ки. Однако смещение, которое возникает в конце периода наблюдений, уже ясно различимо после четырех результатов измерений в отличие от карты индивидуальных значений. Эта графическая форма методики “ку-сумм” особенно эффективна при изу- чении неу стан овившихся явлений. Четко могут быть выявлены для — смещение в диапазоне 2а х после четырех измерений, — смещение в диапазоне ах после восьми измерений, - смещение в диапазоне <тг/2 после 12 измерений. В линии карты ку-сумм иногда возникают локальные экстремумы Dextr- Они свидетельствуют о том, что во временном ряду изменилось среднее. Напри- мер, максимум Ощах указывает на то, что произошла замена x,(t) > x(t) на x,(t) < x(t). Такие экстремальные значения нужно проверять на статистиче- скую значимость относительно рассеяния значений ку-сумм. Сначала вычисля- ют локальные стандартные отклонения по всем значениям ку-сумм (12-9) и образуют [2] А _ |AOextr| (12.10) si при AOextr = Dextr — 0 для проверки относительно x(t) = 0, а также AOextr = Алах — Omm Для проверки разности двух экстремумов.
12.2. Выделение детерминированных компонентов 215 Таблица 12.2. Числовые значения для Д(Р;п) Л Р = 0,95 Р = 0,99 5 2,5 3,3 6 2,7 3,6 7 2,9 4,0 8 3,1 4,3 9 3,3 4,6 10 3,6 4,9 12 4,0 5,3 15 4,5 5,8 20 5,3 6,6 25 6,0 7,3 30 6,7 8,0 40 8,0 9,3 50 9,1 10,4 60 10,0 п,з 70 10,8 12,2 80 11,5 12,9 90 12,2 13,7 100 12,8 14,3 В качестве эмпирического приближения в диапазоне 5 < п < 30 можно при- менять: D(P = 0, 95; п) и 0,165п + 1,71. Нуль-гипотеза (“не возникает никаких изменений в среднем процесса”) отбра- сывается при А > А(Р, п) (см. табл. 12.2). С помощью приближения, данного в табл. 12.2, А(Р = 0, 95; п) « 0,165п +1,71 можно преобразовать уравнение (12.10) •к виду = ж:й) При этом Сд > 1(±0,05) указывает, что £)extr больше, чем если бы оно было случайным. Детерминированные компоненты во временном ряду x(t) можно узнать по типичным структурам на графике ку-сумм (рис. 12.3). Скачки, т. е. резкий переход временного ряда из одного состояния в другое над или под x(t), приводят к линейному росту величины п*. Средняя величина такого короткого скачка определяется как — _ — _ -0(<нач) ~ 1<1\ а — * — . 1 z. 1 л/ j 71 ^нач ^кон Линейно возрастающие или ниспадающие изменения (дрейфы) дают на гра- фике ку-сумм параболическую кривую. Периодичности во временном ряду про- являются в периодичности, смещенной по фазе относительно временного ряда на
216 Глава 12. Дискретные временные ряды х-s - Карты X Процесс управляем Разрыв X Дрейф X Периодичность Рис. 12.3. Типичные структуры на контрольных картах и соответствующие картинки ку-сумм. графике ку-сумм. Графическое представление интервалов а; (t) особенно нагляд- но показывает периоды во временных рядах при ж,(<) < ж(<), а также xt(t) > x(t). В таком представлении первое значение соответствует первому значению ряда ку-сумм, т. е. а(Н) = Этот метод ку-сумм, первоначально предложенный для анализа временных рядов, можно с тем же успехом использовать и для оценки других зависимостей [например, пространственных рядов в анализе распределений или при проверке линейности (с. 169)] [12.4] На топоре эпохи бронзового века методом лазерного микроспектрального ана- лиза было определено следующее распределение элементов Sn и Fe вдоль режущей кромки [3]-
12.2. Выделение детерминированных компонентов 217 N’ п/п Концентрация Sn Концентрация Fe % Sn ку-суммы %Fe ку-суммы 1 0,83 0,06 0,42 0 2 0,86 0,15 0,40 -0,02 3 0,88 0,26 0,51 +0,07 4 0,84 0,33 0,48 0,13 5 0,79 0,35 0,39 0,10 6 0,75 0,33 0,48 0,16 7 0,72 0,28 0,38 0,12 8 0,73 0,24 0,45 0,15 9 0,68 0,15 0,43 0,16 10 0,74 0,12 0,39 0,13 И 0,78 0,13 0,42 0,13 12 0,76 0,12 0,36 0,07 13 0,73 0,08 0,39 0,04 14 0,77 0,08 0,47 0,09 15 0,72 0,03 0,35 +0,02 16 0,75 0,01 0,38 -0,02 х(г) = 0,77% х(г) = 0,42% Пространственный ряд олова (рис. 12.4,а) показывает явно меньшее рассеяние, чем ряд железа (лучшая однородность легирования сплава). Карта ку-сумм (рис. 12.4,6) дает для обоих элементов значение, которое лежит немного выше среднего х(т). Про- верка значимости экстремальных значений приводит к: Sn Fe si = 0,044 st =0,110 Umax — 0, 35 Umax = 0, 16 A = 7, 95 Д = 1,45 A(P = 0, 95; n = 16) = 4,6 A(P = 0, 99; n = 16) = 5,9 Неоднородное распределение можно констатировать только в случае с оловом в соответствии с выражением (12.12) (рис. 12.4,в): a(ri) = D(ri) = 0, 06 ап = 0,35 - 0, 12 5-10 и -0,05 аш = 0,12 - 0,01 10 - 16 и 0 Соответствующие отклонения в случае железа незначимы. Следовательно, надо предположить для олова неоднородное, а для железа однородное распределение в ма- трице — меди.
218 Глава 12. Дискретные временные ряды ОД) 1 1 - 1 I —1 1 1 । ‘ 1 Рис. 12.4. Оценка распределения анализов, а — пространственный ряд по данным лазерного микроспектрального анализа; б — представление ку-суммы; в — периоды распределения элементов Q2 О Для временных рядов — особенно длинных — нужна проверка качества ана- лизов, подтверждающих временные ряды. В качестве контрольной величины для проверки постоянства воспроизводи- мости используют размах дублирующих определений Rt = х' — х" по величине и знаку с ожидаемым значением R =0. Знак R, может при известных услови- ях дать представление о систематической ошибке (например, не постоянная во времени окраска при фотометрическом анализе) или даже о работе двух парал- лельно работающих лаборантов Правильность значения для временных рядов проверяют по анализам случайно расположенных контрольных проб известного состава х* Для каждого из этих контрольных анализов х, вычисляют разности d, = х, — х* и сравнивают отдельные значения dt с ожидаемым значением d = 0. Точно так же можно подвергнуть проверке на правильность доли возвратов на повторный анализ [уравнение (9 50)] при ожидаемом значении b = 1,000. В случае анализа следов дополнительно проверяют по измерениям проб холостого опыта постоянство предела обнаружения Для оценки этих контрольных измерений целесообразно применять метод кумулятивных сумм Таким образом можно легко определить тенденции. Для проверки постоянства воспроизводимости вычисляют кумулятивную сумму от- дельных Rt при R , для проверки правильности в основу карты кумулятивных
12.2. Выделение детерминированных компонентов 219 сумм кладут значения dt при d = 0 [уравнение (12.7а)]. Несмотря на большой шум (рис. 12.5) или кажущиеся правильными колебания (рис. 12.6,а), карта ку- сумм и представление периодов с ее помощью позволяют сделать заключения о недостаточной воспроизводимости и неправильности значений в определенные промежутки времени (на рис. 12.5 и 12.6 обозначено знаком !). Часто временные ряды синхронно измеряются в тп различных местах (на- пример, при контроле вредных веществ в воздухе). Тогда получают тп рядоЕ х,(<,г;), которые описывают концентрацию (или содержание) анализируемогс вещества х в наблюдаемом месте j в зависимости от времени. В таком слу- чае изыскиваются возможности описать концентрации компонентов в отдель- ных областях пространства, хотя бы приближенно. Но выводы, однако, чаете невозможно сделать из-за очень сильных колебаний данных. Поэтому тогда вычисляют среднюю линию [уравнение (12.1)] для всех тп-n - N значений в качестве общей исходной основы и получают x(t, г). С помощьк этого общего среднего образуют для каждого отдельного временного ряда тп со
220 Глава 12. Дискретные временные ряды Периоды —»- Т -4- Рис. 12.6. Проверка правильности определения креатинина в моче (распечатка [14]). а -— разности d, — х, — х*; б— представление ку-сумм; в — выявление периодов. ответствующий ряд кумулятивных сумм [уравнение (12.8)] и отсюда [уравнение (12.12)] периоды а, для x(t,rj) > x(t, г), а также х(1,гу) < x(t,r). Полученные тп рядов периодов удобно представить в аксонометрии. На таком графике со- единяют прямой значения а,(1, г;), относящиеся к одному и тому же моменту времени (“изохрона”). Точки пересечения этой прямой плоскостью общего сред- него значения x(t, г) образуют границы для областей х,(<,г) > x(t,r), а также г, (1,г) < x(t, г). Эти области можно показать на карте местности. Для этого можно разбить интервалы между подъемами и спадами в соответствии с концен- трацией компонентов на слои (а сами слои сделать более наглядными с помощью соответствующей окраски).
12.3. Корреляция внутри временного ряда. 221 [12.5] Запыленность территории синхронно регистрировали в m = 3 различных местах в течение 36 месяцев (рис. 12.7,а). Из сильно колеблющихся 108 результа- тов получилась общая средняя линия i(i,r) и производный от нее ряд кумулятивных сумм для каждого из 3 временных рядов, а также графическое представление пери- одов (рис. 12.7,6). Например, для 3-го места получается сплошная линия на уровне x,(t, гз) < x(t, г), для 1-го — чередование i,(i, п) < i(i, г) и х,(/, n) > x(t, г). Площади, полученные в результате соединения временных точек (например, от февраля 1985 до января 1986) пересекают плоскость x(i,r). Сечения ограничивают область повышен- ной запыленности. В соответствии с высотой этой запыленности на графике получится “карта местности” с различной окраской (рис. 12.7,в). Можно сделать выводы о рас- пространении запыленности по площади и мере ее роста. Лежащее в основе этой модели предположение о линейных зависимостях при- водит к значительному упрощению. Поэтому такая модель особенно применима для определения тенденций. В целом же она применима для интерпретации двумерных значений (например, распределение элементов на поверхности, см. дополнительную литературу). 12.3. Корреляция внутри временного ряда Между п значениями временного ряда, полученными через равные промежут- ки времени, существует более или менее выраженная зависимость. Ее можно описать как зависимость от сдвига во времени к At значений (к = 0,1,2...) функцией автокорреляции (ФАК). Для вычисления ФАК сначала центрируют временной ряд по формуле x,(t) - x(t) = x2,(Z) (12.13) где xzt(t) — центрированные значения временного ряда, x(t) — средняя линия [уравнение (12.1)] для к <С п(к = 0,1,2,...), и вычисляют функцию автоковари- ации (ФАС) [5] по формуле - п — к Ф~(*) = ^к £ (12-14) i=i ФАС соответствует ковариации [уравнение (92)] для у = xl+i и х = у = 0. Значение функции ^хх(к — 0) — дисперсия процесса <т^ [уравнение (3.26)]. Из ФАС получают функцию автокорреляции по формуле: />„(*) = Vxx(k)/*xx(k = 0) (12.15) В приближении (12-W) ФАК соответствует коэффициенту корреляции [уравнение (9.6)] для у = х = у — Ohsx = sy. ФАК — четная функция с максимумом при рхх(к = 0) = 1. Обычно рассматривают только часть при к > 0. С ростом сдвига к (= увеличение расстояния между измеренными значениями во временном ряду) уменьшается рхх(к). Сдвиг, необходимый для затухания до значения функции
222 Глава 12. Дискретные временные ряды t, мес — Рис. 12.7,а,б. (Продолжение см. на с. 223.)
12.3. Корреляция внутри временного ряда. 223 © 1984 1985 1986 1987 Рис. 12.7. Анализ распределений из временных рядов, a — временные ряды для определения запыленности в трех разных местах; б — периоды содержаний; в — изо- бражение в виде “географической карты”. 1/е, обозначается как постоянная времени кс, а соответствующее время — как период (интервал) корреляции Тс. Итак, Тс = fccAt (12.17) Два измеренных значения x(t) и z,+i(t), отстоящие во времени дальше, чем At > Тс, считаются некоррелированными. Поэтому во временном ряду должно .быть At = ТС. Граница доверительного интервала ФАК определяется [6] как ApXI:(fc) = и(Р)\/дисп.р1,1,(1:) (12.18) при дисп./>„(£) 1 Г1 + ^(1-р2*)-2*р2* п 1 — р- 1(АВ-С) (12.19) -l/te (12.20) причем р = е Значения (АВ — С) для малых к дает табл. 12.3. Значения функции рхх(к) внутри доверительного интервала (для двух- или односторонних ограничений!) не считаются значимыми. Вид ФАК прямо зависит от характеристики временного ряда. ФАК стохасти- ческого ряда экспоненциально падает до значения, равного нулю. В простейшем случае такую характеристику можно описать в виде: p„(fc) = е"*/*» (12.21)
224 Глава 12. Дискретные временное ряды Таблица 12.3. Значения ^/дисп.р1Х(А:) к кс = 0,5 *с = 1 *< = 2 кс = 3 0 0 0 0 0 0 0,5 0,872 7 0,6798 0,4949 0,4064 0,315 7 1 0,9908 0,9299 0,795 1 0,6976 0,5742 2 1,0176 1,1026 1,1531 1,1117 0,9963 3 1,0185 1,137 9 1,3257 1,3702 1,3166 4 1,0185 1,1445 1,4063 1,5292 1,5583 5 1,0185 1,145 7 1,4429 1,625 6 1,7400 6 1,0185 1,145 8 1,4591 1,683 3 1,875 7 В случае независимых измерений во временном ряду (“чисто случайный про- цесс” ) ФАК падает до нуля уже при k < 1 (кс < к) и затем случайно колеблется вокруг этого значения (рис. 12.8,а). Если соседние значения зависят друг от друга (рис. 12.8,6), то между экстремальными значениями временного ряда по- являются еще другие промежуточные значения (“процессы с памятью”). Это ведет к ФАК с кс > к (а также Тс > At). Постоянная кс растет по мере роста числа точек между экстремумами, т е по мере замедления флуктуирования значений временного ряда. Интервал корреляции Тс таким образом служит ме- рой динамики временного ряда. Во временных рядах с дрейфом (рис. 12.8,в) значение функции для кс устанавливается только за очень долгое время, поэто- му не удается получить оцениваемых ФАК. Периодичности (или периодические прыжки) во временном ряду (см. рис. 12,8,в) приводят к периодической ФАК с идентичным периодом и к временному ряду с соответствующей амплитудой (например, х = sint —* рхх = acost;x = 2sint —► рхх — C2.acx>&t'). Из сильно возрастающего периодического временного ряда получают невозрастающую пе- риодическую ФАК. Для вычисления ФАК требуется достаточно большое число значений (п > 150). При центрировании необработанных данных надо заодно корректировать возможно имеющийся дрейф (“нестационарный процесс”). Для этого временной ряд x't линеаризуют [уравнение (9.16)]' х^)-а + Ь, (12.22а) и центрируют в соответствии с o:z,(t) = x[(t) — а — 6, (12.226) Для временных рядов со скачками точно так же центрируют каждый отдель- ный сегмент и затем объединяют отдельные отрезки. После этого динамика внутри временного ряда должна стать постоянной. Возможные различия в распределении частот в двух половинах ведут к измене- ниям числа qt значений, расположенных между экстремумами. Подсчитывают эти значения в обеих половинах (]Г qti и q,?). При точном делении на две по- ловины временного ряда (—♦ щ = пц значений) проверяют по уравнению (7.22): U = и(Р) (12.23) V / . + /2 9>2
12.3. Корреляция внутри временного ряда 225 Рис. 12.8. Временные ряды x(t) и соответствующие функции автокорреляции, a — независимые измерения т(<); б — зависимые измерения т(<); в — временной ряд с дрейфом; г — зашумленная периодическая функция. При этом не должно быть никакой значимой разницы [и < и(Р = 0,95)]. В случае значимой разницы между и (а также в случае нелинейности самого ряда) надо применять соответствующие фильтры [7, 8]. [12.6] Для дистилляционной колонки с интервалом Д< = 3 ч определяли содержание ароматических веществ в головной фракции. Из 240 значений, полученных в течение месяца, ниже приводятся первые тридцать (% суммы ароматических веществ) 7, 12 - 7, 24 - 6, 86 - 6, 88 - 6, 70 - 7, 02 - 7.24 - 7, 46 - 8, 08 - 7, 90- 7, 32 - 7, 14 - 7, 06 - 7, 48 - 7, 60 - 7, 82 - 7, 24 - 7,46 - 7,18 - 7, 00- 6, 92 - 6, 84 - 7, 36 - 7, 68 - 7, 60 - 7, 32 - 7, 84 - 8, 06 - 8, 28 - 8,10 По этим данным надо найти интервал корреляции Тс процесса дистилляции. 1. Центрирование и корректировка дрейфа Линейная регрессия по уравнениям (9.16) и (9.17) ведет к x,(t) — 7, 00 + 0, 02».
226 Глава 12. Дискретные временные ряды После этого измерения центрируются и проводится корректировка дрейфа [уравне- ние (12.22)]: x„(t) = x,(t) - 0,02i-7,00 Получились следующие значения: +0,1 + 0,2 -0,2 -0,2 -0,4 -0,1 +0,1 +0,3 +0,9 +0,7 + 0,1 -0,1 -0,2 +0,2 +0,3 +0,5 -0,1 +0,1 -0,2 -0,4 - 0,5 -0,6 -0,1 +0,2 +0,1 -0,2 +0,3 +0,5 +0,7 +0,5 Для упрощения последующих вычислений проводим преобразование x„(t) = iox„(t) 2. Вычисление ФАК Вычисление рхх(к) происходит в соответствии с уравнениями (12.14) — (12.16). к п - к Тхж(к) (ур.(12.14)] <?х> (ур.(12.15)] 0 415 30 13,3833 1,0000 1 264 29 9,1034 0,6581 2 90 28 3,214 3 0,2402 3 -51 27 -1,8888 -0,1411 4 -83 26 -3,1923 -0,238 5 5 -54 25 -2,1600 -0,1614 6 -48 24 -1,9167 -0,1432 Из графического представления (рис. 12.9) получается кс = 1,67 и, следовательно, интервал корреляции [уравнение (12.17)] равен Тс = 1, 67 • 3 = 5 ч. 3. Доверительный интервал (Р = 0,95) Сначала вычисляют p = e-i/i,667 _0;5488 = 1,8619) (= А) [уравнение (12.20) [уравнение (12.19)] Дальнейшие вычисления проводятся в соответствии со следующей схемой: к р» 1 -рп (’ в) АВ 2*р2‘ (’С) /(АВ-О 1165 V 30 0 Р° 0 0 0 0 1 Р2 0,6981 1,3019 0,603 8 0,2517 2 Р* 0,908 8 1,6950 0,3646 0,3475 3 Р* 0,9725 1,8137 0,1651 0,3860 4 Р1 0,9917 1,8495 0,0665 0,4023 5 Pw 0,997 5 1,8603 0,0251 0,4081 6 Рп 0,9992 1,8636 0,0091 0,4102 Графическое представление Дрхх(к) (рис. 12.9) показывает, что значение функции Рхх(кс) лежит вне границы обнаружения (Р = 0,95). Интервал корреляции кс, рав- ный Тс = 5 ч, нельзя поэтому использовать в качестве показателя динамики процесса дистилляции. Рис. 12.9 демонстрирует далее сильную зависимость Архх(к) от числа
12.3, Корреляция внутри временного ряда 227 Рис. 12.9. Функция автокор- реляции и доверительный ин- тервал (п = 20 и п = 240) к примеру [12.6]. значений (а значит, часто затрудненный вывод функции автокорреляции из временного ряда с малым числом измерений). При нахождении ФАК измеренные значения должны лежать достаточно близко друг к другу, так чтобы выполнялось неравенство Дt < То. С помощью предварительного исследования можно проверить на 20-30 значениях, удовле- творяется ли это требование. Может случиться так, что между р экстремальны- ми значениями временного ряда находятся в среднем q = 2 ... 4 дополнительных значения [10]. Если q лежит ниже этого значения, то предварительное исследо- вание надо повторить с меньшим интервалом между измерениями At. В случае если q > 5, для сокращения химико-аналитической работы надо увеличить про- межуток между измерениями при определении корреляционной функции. Чи- сло значений q, расположенных между р экстремальными значениями, можно получить при п измерениях по формуле g = (п - р)/р (12.24) [12.7] На рис. 12.8,б временной ряд образован из п = 17 значений, он содержит р = 6 экстремальных значений. Следовательно, g = (17 — 6)/6 = 1,83 и 2. Промежуток времени между измерениями, предусмотренный для оценки корреляционной функции, пока нельзя рассматривать как достаточный. Для временного ряда из рис. 12.8,а точно таким же образом получается g = 0,15. (Первое значение не учтено, так как его невозможно однозначно упорядочить относи- тельно экстремального значения.) Низкое значение g указывает на то, что временной ряд состоит из независимых значений. Корреляция значений внутри временного ряда позволяет сделать прогноз о будущем (еще не измеренном) значении z,+i(t) на основании измеренного значе- ния Xi(t). Зная интервал корреляции Тс, можно указать пределы обнаружения в зависимости от к (к = 1,2...), внутри которых значение Xi+k(t) следует ожидать с вероятностью Р. В случае центрированных значений [уравнение (12.13)] справедливо (Р = 0,95): яг(,+ь)(0 = akXzi(t) ± 1,96<тг\/1 - а2к (12.25) а = е~^/Тс (12.26) где <тх — рассеяние процесса.
228 Глава 12. Дискретные временные ряды Вообще размах доверительного интервала увеличивается с ростом к (растет интервал предсказания), а также с ростом отношения длины интервала наблю- дений к интервалу корреляции Тс (рис. 12.10). Прогноз можно сделать тем более надежно, чем короче требуемый промежуток времени, чем меньше расстояние между измерениями во временном ряду. При прогнозе xit(i) / 0 из хг(,+*,)(<) всегда можно наблюдать тенденцию fc)(i) —► 0. Прогноз возможен также и на основании исходных, нецентрированных дан- ных. Тогда справедливо равенство *г(,+*)(<) = (1 - ak)x(t) + akxt(t) ± 1,96(7^1 - а2* (12.27) Предсказание по уравнению (12.25) или (12.27) позволяет сказать, когда но- вое измерение показателя качества грозит приблизиться к заданному пределу настолько, что станет реальной угроза выхода за него. Точно так же можно предсказать, когда потребуется следующий анализ для включения во временной ряд [9]. Если пределы обнаружения, относящиеся к предсказанному значению o:,+1(t), не касаются допуска на продукцию, то (г + 1)-й анализ можно опустить без всякой опасности для обеспечения качества. Закономерности описания временных рядов можно перенести на данные в за- висимости от других величин, например от места расположения z(r) или от по- рядкового номера х(п). Для х(г) при Тг (интервал корреляции) можно сделать выводы об однородности твердого тела или определить периодичности, напри- мер, распределений элементов (см. список дополнительной литературы в конце главы). [12.8] Распределение содержания бария вдоль “экватора” океанического отложе- ния МпСЬ (рис. 12.11,а), определенное методом лазерного микроспектрального анализа [11], выглядит как сильно рассеянные точки (рис. 12 11,6). Функция автокорреляции (рис. 12.11,в) показывает довольно четко периодичности, предполагаемые на основа- нии генезиса данного отложения. При этом, как и ожидалось, совершенно отсутствует шум
12.4. Корреляция между двумя временными рядами 229 Рис. 12.11. Анализ распределения бария в залежи MnOj. a— принципиальная схема расположения линии; б — преобразованные значения почернения в упорядоченном (по месту расположения) ряду; в — функция автокорреляции (штриховая линия — доверительные границы Р = 0,95). При модулировании сигнала измерения возникает временной ряд с периоди- ческим полезным сигналом и наложенной случайной ошибкой (шумы). Соот- ветствующая функция автокорреляции относится к полезному сигналу, освобо- жденному от шума. Поэтому удается оценить с помощью функции автокорреля- ции модулированного сигнала (функция синуса и прямоугольника) сигналы ана- лиза, лежащие намного ниже обычных границ обнаружения [уравнение (6.12)] (см. список дополнительной литературы в конце главы). 12.4. Корреляция между двумя временными рядами Имеются два временных ряда x(t) и y(t). Оба получены одновременно с одинако- выми интервалами между измерениями = Д<у). Надо проверить корреля- цию между этими двумя рядами, а также возможные общие детерминированные компоненты. Ответ на это чаще всего легко получить из графика ку-сумм Dix (Z) И Diy(t) [уравнение (12.8)]. Даже при больших дисперсиях процессов и <ту это графи- ческое представление позволяет распознать одинаковые или противоположные тенденции. Вполне объективное суждение можно составить, сравнив периоды качества ах и ау [уравнение (12.12)]. Вычисляем знак (i)[ari(t) -ay,(t)] (i=l,2...n) (12.28) Полученные значения упорядочиваем по убыванию и проверяем с помощью критерия знаков [уравнения (7.2)) и (7.21)]. Значимый перевес положительных знаков указывает на положительную корреляцию (и наоборот). Периодическое поведение можно обнаружить по порядку следования знаков в обоих рядах, на- пример, с помощью критерия серий Вальда — Вольфовица (см. разд. 7.5).
230 Глава 12. Дискретные временные ряды знак Оу,- + + + +----4- + + + ++ + + + + Н-----1- + + + + ++ + + + знак [aXj °у>]+ + + — ++ + + + + + + + + + ++ — + 4-------+ + + + + -F г) Рис. 12.12. Обработка данных о технологическом процессе, а — временные ряды для сырого x(t) и очищенного y(t) перхлорэтилена; б— представление ку-сумм; в — периоды качества; г — анализ знаков для периодов качества. [12.9] При переработке смесей хлорированных углеводородов после грубой и после тонкой дистилляции определяли в головном продукте колонны методом газовой хро- матографии содержание перхлорэтилена. Для проведения процесса дистилляции надо было проверить корреляцию между этими двумя показателями качества продукции. Временные ряды для сырого продукта x(t) и для очищенного y(t) (рис. 12.12,а) дают возможность предполагать однонаправленные тенденции; они четко прослежи- ваются как на графике ку-сумм (рис. 12.12,6), так и на графике периодов качества (рис. 12.12,в). Из порядка следования знаков выражения 0^,(1) • av>(t) (выражение
12.4. Корреляция между двумя временными рядами 231 (12.28)] получаем (рис. 12.12,г) п = 30; к+ = 24; к~ = 6 Критерий знаков [уравнение (7.20)] дает F = -2£- = 3,43 6 + 1 /1 = 2(fc+ + 1) = 50 f2 = 2к~ = 12 F(P = 0, 95; Л = 50; /2 = 12) = 2,40 Так как F > F(P = 0,95; /1; /2), можно полагать, что корреляция между обоими временными рядами z(t) и y(t) существует. Обнаружить корреляцию между двумя временными рядами можно также с помощью вычисления коэффициентов корреляции [уравнение (9.6)] по центриро- ванным и скорректированным на дрейф парам значений хгцуг1, (хг(:+1); y,(t+i)) [уравнение (12.22)]. Вычисленный коэффициент корреляции надо, как обычно, проверить на статистическую значимость [равенство (9.8)]. Корреляция может существовать также и между сдвинутыми во времени данными одного временного ряда x(t) и y(t). Такие корреляционные связи в зависимости от временного интервала измерений k&t (fc = 0,1,2 ...) описывает кросс-ковариационная функция ККФ (не совсем точно называемая также кросс- корреляционной функцией). ККФ имеет вид . п—к Ф^ = ^Е*.(01Л+*Ю (12-29) Для к = 0 ККФ — просто ковариация [уравнение (9.2)]. Для —<• zt+* ККФ переходит в функцию автоковариации [уравнение (12.14)]. Статистическое сходство между z(t) и j/(t) приводит к экстремальному значе- нию ККФ. (Максимум: положительная корреляция; минимум: отрицательная корреляция.) Для двух случайных функций ККФ становится просто констан- той. Вообще — ККФ есть произведение отдельных значений средних x(t) и у(<). В случае когда одно из средних значений проходит через нуль (центрированный временной ряд), общее значение ККФ тоже обращается в нуль. Если есть две периодические временные функции, ККФ соответствует общим для обоих частот- ным компонентам. При этом амплитуда кросс-ковариационной функции будет произведением амплитуд x(t) и y(t). В ККФ устраняется шум периодических исходных временных рядов. Поэтому ККФ имеет определенные преимущества при обработке периодических временных рядов с малой амплитудой и высоким уровнем шума: — в периодических ККФ не возникает шума. - благодаря использованию исходной функции y(t) с большей амплитудой воз- можно усиление слабого полезного сигнала во временном ряду x(t). - экстремальное значение ККФ можно рассматривать как величину, аналогич- ную концентрации. [12.10] При спектрометрическом определении ТОС в водах были зарегистрированы сильно зашумленные пики прямоугольной формы (рис. 12.13,а). Оценка этих сигналов
232 Глава 12. Дискретные временные ряды Рис. 12.13. Спектрометрическое определение ТОС (пример [12.10]). а — зашумлен- ный прямоугольный сигнал x(t); б — исходный сигнал, равный по времени y(t); в — функция кросс-ковариации. (1 инъекции проб.) показала предел обнаружения 1,8 млн-1 С. Для исключения шума была проведена тщательная корректировка прямоугольного пика [= x,(t)] с помощью кросс-корреляции с незашумленным прямоугольным пиком той же временной длительности и постоян- ной высотой [= у,(<)], рис. 12.13,6). Из полученных 70 значений выбраны 13 с номерами 1, 6,11,... 61 (обозначенные i = 1, 2,... 13). Эталонный пик образован последовательно- стью двоичных чисел ...00111111100.... Для упрощения кросс-кореляции [уравнение (12.29)] была найдена только сумма произведений Ф^,Й(А:) = £2" z>(^)j/(i±*)(^)- Для сканирования линии 2 млн-1 получилась следующая схема: i = 1 2 3 4 5 ' 6 7 8 9 10 11 12 13 1 К#)1 x.(t) 1 2 -3 2 3 2 5 2 4 -2 2 -1 0 1 1 МО для 1 1 к=~4 1 1 1 1 1 1 0 0 0 0 0 0 0 1 12 | -3 1 1 1 1 1 1 1 0 0 0 0 0 0 1 13 1 -2 0 1 1 1 1 1 1 1 0 0 0 0 0 1 15 I -1 0 0 1 1 1 1 1 1 1 0 0 0 0 1 16 1 0 0 0 0 1 1 1 1 1 1 1 0 0 0 1 18 1 + 1 0 0 0 0 1 1 1 1 1 1 1 0 0 1 16 1 +2 0 0 0 0 0 1 1 1 1 1 1 1 0 13 +3 0 0 0 0 0 0 1 1 1 1 1 1 1 11 +4 0 0 0 0 0 0 0 1 1 1 1 1 1 1 6 ' L 1
12.5. Снижение затрат на контроль 233 10 О г б) 2614 1628 1662 2204 1739 Рис. 12.14. Обнаружение радионуклидов [12]. а — 7-спектр; б — функция кросс- ковариации спектра и перемещающегося эталонного пика. Величина ^ху(к) имеет явно выраженный максимум при к = 0. Функции для 4 млн 1 и 6 млн-1, рассчитанные аналогичным образом, ведут себя точно так же. Значения при к = 0 можно интерпретировать как величины, пропорциональные содержанию (рис. 12.13,в). В функциях Ух1/(к) полностью подавляется шум исходных сигналов измерения. По- этому предел обнаружения можно снизить до величины около 0,83 млн-1С. ККФ можно уточнить, если вместо прямоугольного пика использовать тре- угольный (например, ...00123432100...) или пик с профилем, полученным из преобразования Лорренца. Особенно в этом варианте ККФ — подходящее вспо- могательное средство для выделения сигналов пиков на сильном шумовом поле. В качестве эталонного сигнала даже для многокомпонентного анализа может служить весь спектр чистой компоненты. Таким образом можно использовать для определения всю информацию, содержащуюся в спектре этой компоненты (см. список дополнительной литературы в конце главы). Вообще ККФ дает преимущества при оценке сильно зашумленных линий, снятых без повторных сканирований (рис. 12.14). Кросс-корреляция между двумя несмещенными временными рядами x(t) и y(t) может оказаться мнимой, если внутри этих временных рядов есть авто- корреляция. Поэтому перед вычислением ККФ надо убедиться в том, что нет автокорреляции проверкой на Тс < St. (В противном случае нужно применять специальные фильтрующие алгоритмы, см. [7].) 12.5. Снижение затрат на контроль Контроль качества продукции в химической промышленности чаще всего бывает стопроцентным, т. е. анализу подвергается каждая загрузка, каждая цистерна и т. д. Это требует больших, а часто огромных затрат на контроль, а из результа- тов анализа часто извлекается лишь формальный вывод. Для рационализации аналитической работы нужно стремиться исключить излишние затраты на кон- троль без ущерба для надежности управления качеством.
234 Глава 12. Дискретные временные ряды Для автокоррелированных временных рядов было возможно, исходя из про- гнозируемого результата, определить потребность в следующем анализе и время его проведения [уравнение (12.27)]. Но и для чисто случайных процессов (Д< = Тс рис. 12.8,а) тоже можно снизить плотность проб. Однако надо застраховаться, чтобы риск ошибочной, не охваченной анализом пробы оставался минимальным и чтобы были известны точные границы, внутри которых могут возникать слу- чайные колебания качества. Для выборочного контроля поэтому важно соблю- дать условие, что среднее у и стандартное отклонение а известны из достаточно большого числа анализов. Другое важное условие для выборочного контроля — стабильный ход производства и отсутствие грубых отклонений от требуемого ка- чества. Если качество продукта в течение долгого времени стабильно укладывается в границы допуска, можно применять метод выборочного контроля, описанный Феликсом и Лемари [4]. При этом методе наблюдения делают через выбранные одинаковые промежутки времени, отбирая упаковку, вагон-цистерну и т. п. и анализируя продукт. Такой контроль поддерживается на одном уровне до тех пор, пока анализируемый показатель качества не выйдет за границы допуска. Если какая-то выборка покажет, что требования не соблюдаются, сразу же пе- реходят на стопроцентный контроль. Он сохраняется до тех пор, пока снова для контроля качества не станет достаточно заданного числа выборок. Зная стандартное отклонение а и среднее у. временного ряда (должны быть учтены все случайности процесса производства, включая возможные сезонные колебания), а также при отсутствии достаточно частых грубых ошибок можно указать вероятность Р того, что отдельный результат измерения показателя качества Т превысит, скажем, верхнюю границу То допуска. Из уравнения (3.9) получается, что —= и(Р) (12.30) (Т'р Соответствующую вероятность Р для односторонней гипотезы можно найти в табл. А.2 (см. приложение). При переходе от 100%-ного контроля к выборочному из п проб в выборку попадает одна, а остальные п — 1 изделий остаются непроверенными. Следова- тельно, контролю подвергается 100/n =- k% всех изделий. При таком выборочном контроле, естественно, существует риск, что среди (100—k)% непроверенных проб попадутся бракованные. Этот риск тем ниже, чем чаще отбираются пробы для выборки. Для ^-процентного выборочного контроля можно вычислить риск появления бракованных изделий по формуле ^ = (1-Р"-1) (12.31) где п — 1 — число изделий, которые не проверяются в каждой выборке. Достаточная надежность вывода достигается только тогда, когда риск а ста- новится очень малым. Если, например, а* =0,003, зто равнозначно тому, что самое большое в трех случаях из тысячи бракованный продукт не попадает в число контролируемых1^. Для практических целей это можно считать вполне достаточным. И Это не совсем точно. Такое утверждение верно лишь в среднем. — Прим. ред.
12.5. Снижение затрат на контроль 235 В соответствии с вышеприведенными правилами проведения выборочного контроля отдельные показатели качества принадлежат генеральной совокупно- сти со средним рт и стандартным отклонением оу. Это условие выполняется с вероятностью Р, пока показатели качества беспорядочно рассеиваются внутри пределов рт i и(Р)<тт (12.32) Эти пределы называют верхней и нижней границами допуска. Для их опре- деления целесообразно брать в таких случаях Р = 0,95. Текущая проверка условия, заданного выражением (12.32), ведется графически. Показатели каче- ства, полученные на основе выборок, наносят на график, контрольную карту, в том порядке, в каком они возникают во времени. Таким образом получают последовательность точек, на основании которой можно сделать выводы о ста- бильности производственного процесса, а также об обоснованности выборочного контроля. Пока точки беспорядочно рассеиваются внутри контрольных границ (см. рис. 12.1), выполняется условие (12.32) и можно продолжать выборочный контроль. Один-единственный выход за контрольную границу означает, что по- лученный результат с вероятностью Р больше не принадлежит генеральной со- вокупности со средним рт и стандартным отклонением cry. Исчезает основание для проведения выборочного контроля, поэтому нужно переходить на 100%-ную проверку и искать причину появления результата, выходящего за контрольную границу. Этот 100%-ный контроль проводится до тех пор, пока отдельные точ- ки не будут рассеиваться в течение длительного времени внутри контрольных границ. [12.11] Наблюдение за содержанием железа в технической соляной кислоте про- водится с помощью десятипроцентного выборочного контроля с риском «ю = 0, 002 (Феликс и Лемари [4]). Результаты 420 анализов, проведенных для предварительной оценки, следуют гауссову распределению с рт = 0,01716%Fe и ат = 0,003 98%Fe. До- пуск по чистоте разрешает максимальное содержание То = 0, 03%Fe. По уравнению (12.30) получаем 0,030 00 - 0,01716 “(Р) = -----0?00398------ = 3,22 Из табл. А.2 находим Y(x = 3, 22) = 0, 999359, откуда следует, что риск десятипроцент- ного выборочного контроля ёГю по уравнению (12.31) равен а10 = 1 - (0,999 359)э = 0,005 754 Этот риск больше, чем допустимый. Поэтому следует выбрать большую частоту отбора. Для 33%-ного выборочного контроля получается о3з = 1 - (0, 999 359)2 = 0, 001 282 Так как теперь аь достаточно мало, для текущей проверки чистоты, следовательно, будем проверять каждую третью пробу. Контрольные границы для контрольных карт вычислим по формуле (12.32): р ± и(Р = 0, 95)<тг = 0, 016 94 ± 1, 96 • 0, 003 98 Отсюда получается для верхней контрольной границы 0,024 8%, а для нижней 0,009 14% Fe. Пока выборки беспорядочно рассеиваются внутри этих границ, можно проводить 33%-ный выборочный контроль. Такой тип выборочного контроля, описанный Феликсом и Ламари, хорошо зарекомендовал себя на практике в течение 20 лет. Контрольные лаборатории
236 Глава 12. Дискретные временные ряды крупных предприятий теперь могут справиться с постоянно растущими требо- ваниями, которые предъявляются к анализируемым пробам именно благодаря проведению такого типа выборочного контроля. С помощью выборочного кон- троля удалось высвободить рабочие мощности для дополнительной характери- стики продукции (например, обширное определение следов микроэлементов в комбикормах). Выборочный контроль, таким образом, означает переход к зна- чительно более широкой характеристике качества. Опыт, накопленный в течение многих лет, также показывает, что после перехода к выборочному контролю не отмечалось роста числа рекламаций. С этой точки зрения квалифицированное и ответственное применение выборочного контроля можно считать эффективным средством рационализации аналитических работ. Часто вследствие общности производственных процессов или исходных ком- понентов разные параметры качества самого продукта коррелируют. Эти вза- имосвязи можно использовать для контроля аналитической работы так, чтобы отношение Q = Xl(t)/yt(t) (12.33) удерживалось в границах Q ± u(P)<tq. Взаимосвязи между двумя временными рядами дают возможность также сократить затраты на аналитические измере- ния, определяя только одну, более доступную величину ж(£) и вычисляя трудно- доступную величину y(t). Для надежности можно определять у(Г) выборочно, через определенные промежутки времени. Зависимость между x(t) и y(t) дает уравнение регрессии [уравнения (9.16) и (9.17)] вида y(t) — а + bx(t) (12.34) Доверительный интервал для у, вычисленного из уравнения (12.34), опреде- ляется по уравнению (9.23). Orf всегда шире, чем у у, определяемого прямым экс- периментом. Благодаря использованию корреляции между двумя временными рядами можно (и часто довольно значительно) сократить затраты времени и тру- да, однако ценой ухудшения точности предсказанного значения и одновременно, следовательно, загрубления пределов обнаружения. [12.12]. Для контроля чистоты NaOH определяли микроэлементы А1(<т = 0,12 млн-1) и Si(<r = 0,23 млн-1). Содержания обоих элементов явно меняются син- хронно (см. рис. 12.15). Поэтому было заманчиво заменить дорогостоящее эксперимен- тальное определение Si вычислением его значения на основании определения А1. Проверка на дрейф [уравнение (12.6)] по 20 значениям дает Dai; Dst > D(P = 0,95; n = 20). Следовательно, в обоих временных рядах не обнаруживается ника- кого дрейфа. Коэффициент корреляции, рассчитанный из обоих временных рядов, т = 0,93 > т(Р = 0, 99, f = 18), может поэтому считаться действительным (и не вслед- ствие дрейфа). Из п = 20 значений получилось уравнение регрессии [уравнения (9.16) и (9.17)], где z=Al и j/=Si. у = 0,233 4 ± 1,585 6а; so = 0, 738 8 Эта зависимость позволяет рассчитать содержание Si на основе полученного экспе- риментально содержания А1. Доверительный интервал (Р = 0,95) для этого значения Si получается по уравнению (9.23): ДУт = ±0,35 млн-1 в середине области ДУо.и = ±0,65 млн-1 на концах области измерений
Литература 237 Рис. 12.15. Синхронное поведение содержаний алюминия и кремния в пробах гидро- ксида натрия. Он явно больше, чем при непосредственном определении Si (±0,58 млн-1 для п} = 1). С помощью вычисления можно обнаружить содержания Si > 0,65 млн_184(=О, 26%А1) (Р = 0,98). Предел обнаружения также дальше от нуля, чем при экспериментальном определении. При вычислении регрессии исходят их того, что значения х близки к безоши- бочным (с. 167). Для данной постановки вопроса это не подходит. Поэтому «о вычисляется с завышением. При оценке ошибки на основе связанного с этим значением доверительного интервала ДУ существует поэтому достаточная на- дежность. Ясно, что применять такие коррелированные величины-заменители надо с определенной осторожностью. И здесь должна соблюдаться основная заповедь, что надежность обеспечения качества не должна страдать из-за со- кращения затрат на проведение анализов. Литература 1. Marshall R. A. Cu-sum-Technique.-Anal. Chem., 49 (1979) 2193/2195. 2. Caulcutt R Statistics in Research and Development. London/New York: Chapman and Hall, 1983, S. Ill ff. 3. Landmann M. Diss. Halle, 1986. 4. Felix M., Lemane M. Die Anwendung statistischer Methoden im analytischen Laboratorium.-Chem. Techn., 16 (1964) 359/363. 5. Chatfield C. Analyse von Zeitreihen. Leipzig: BSB B.G. Teubner Verlagsgesellschaft, 1986. 6. Bartlett M. S. J. Roy. Stat. Soc. 8 (1948) (B) 27. 7. Adeberg V. Diss.Merseburg, 1989. 8. Adeberg V., Doerffel K. Ermittlung der Probenfrequenz aus nichtidealen diskontinuierli- chen Prozesssignalen.-Z. anal. Chem., 327 (1987) 128/131. 9. Miiskens P. J. W. M., Rateman G. Sampling of internally correlated lots. The reproducibility of gross samples as a function of sample size, lot size and number of samples.-Anal. Chem. Acta, 103 (1978) 1/9.
238 Глава. 12. Дискретные временные ряды 10. Doerffel К., Lorenz G , Tagle I Ermittlung der Probenfrequenz zur Prozessanalytik.- Anal. Chim. Acta, 112 (1979) 313/317. 11. Adeberg V., Brugmann L , Doerffel K., Moenke L Nachweis von Periodizitaten in einem stark verrauschten Linienscan.-Z. anal. Chem., 333 (1989) 143. 12. Doerffel K., Wundrack A., Menzel M. Verbesserung des Nachweisvermogens von 7- Spektren durch Kreuzkorrelation.-Z. anal. Chem., 332 (1988) 58/59. 13. Cermbrowskt G. S., Westgard J. O., u.a. Trend Detection in Control Data.-Clin.Chem., 21 (1975) 1396/1405. 14. Doerffel K., Wendlandt E , Liebick V. Detecting Tendencies in Time-Series by Cu-sum.- Z. anal. Chem (im Druck). 15. Woodward R. H., Goldsmith P. L. Cumulative sum Techniques. London: Oliver and Boyd, 1964. Дополнительная литература Doerffel К., Wundrack A Korrelationsfunktionen in der Analytik. In: Analytiker Taschenbuch. Bd. 6, S. 37/63. Berlin/Heidelberg/New York/Tokyo: Springer-Verlag, 1986. Kateman G. Chemometrics, Sampling-strategies Topics in Current Chemistry (Chemo- metrics and Species Identification) Vol. 141 (1987) 41/63: Berlin.Akademie-Verlag. Lorenz G. Storgrossenanalyse Berlin: Verlag Technik, 1985. Krause B., Metzler P. Angewandte Statistik — Lehr- und Arbeitsbuch fur Psychologen, Mediziner, Biologen und Padagogen. Berlin: Deutscher Verlag der Wissenschaften, 1988, Кар. 8. Iserman R. Identifikation dynamischer Systeme.Bd.I. Berlin/Heidelberg/New York/To- kyo: Springer-Verlag, 1988. Arnold B. F. Minimax-Priifplane fur die Prozesskontrolle. Berlin/Heidelberg/New York/Tokyo: Springer-Verlag, 1987. Mertens P.: Prognoserechnung. Wiirzburg/Wien:Physica-Verlag, 1978. Doerffel K., Kiichler L., Meyer N. Evaluation of Noisy Data from Distribution Analysis Using Time-Series-Models.-Z.anal. Chem. (in Druck). Doerffel K. Anwendung der Cu-sum-Technik in der Prozessanalytik. Wiss. Z. TH Leuna- Merseburg (in Druck). Doerffel K., Kreher U. Evaluation of vague infrared-spectra using crosscovariance- function.-Z.anal.Chem. (in Druck). Ntedtner R. Diss. Merseburg (in Vorbereitung). Lesche K. Diss. Merseburg (in Vorbereitung). Juran J. M., Gryna F. M. Juran’s Quality Controll Handbook. 14th Ed. New York: McGraw-Hill Book Comp., 1988.
Приложение
N3 О Таблица АЛ. Значения ординат нормального (гауссова) распределения (взято из работы Циммерманнаа^) U 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,39894 0,39892 0,39886 0,398 76 0,39862 0,39844 0,39822 0,39797 0,39767 0,39733 0,1 0,39695 0,396 54 0,39608 0,395 59 0,39505 0,394 48 0,393 87 0,393 22 0,392 53 0,39181 0,2 0,39104 0,39024 0,38940 0,388 53 0,38762 0,38667 0,38568 0,38466 0,383 61 0,382 51 о,3 0,38139 0,38023 0,37903 0,37780 0,376 54 0,375 24 0,373 91 0,372 55 0,37115 0,369 73 0,4 0,36827 0,366 78 0,365 26 0,363 71 0,362 13 0,36053 0,358 89 0,35723 0,355 53 0,353 81 0,5 0,35207 0,35029 0,34849 0,34667 0,34482 0,342 94 0,34105 0,33912 0,33718 0,33521 0,6 0,333 22 0,33121 0,32918 0,327 13 0,325 06 0,322 97 0,32086 0,318 74 0,316 59 0,31443 0,7 0,312 25 0,31006 0,307 85 0,305 63 0,303 39 0,30114 0,298 87 0,296 59 0,294 31 0,29200 0,8 0,28969 0,287 37 0,285 04 0,282 69 0,280 34 0,27787 0,275 62 0,273 24 0,270 86 0,268 48 0,9 0,26609 0,26369 0,26129 0,258 88 0,25647 0,25406 0,25164 0,24923 . 0,246 81 0,244 39 1,0 0,24197 0,23955 0,23713 0,234 71 0,232 30 0,229 88 0,22747 0,225 06 0,22265 0,22025 1,1 0,21785 0,21546 0,213 07 0,21069 0,208 31 0,205 94 0,203 57 0,20121 0,19886 0,19652 1,2 0,19419 0,19186 0,18954 0,18724 0,184 94 0,182 65 0,180 37 0,178 10 0,175 85 0,17360 1,3 0,17137 0,16915 0,166 94 0,164 74 0,162 56 0,160 38 0,15822 0,156 08 0,153 95 0,15183 1,4 0,149 37 0,14764 0,145 56 0,143 50 0,14146 0,139 43 0,13742 0,135 42 0,133 44 0,13147 1,5 0,129 52 0,127 58 0,12566 0,123 76 0,12188 0,120 51 0,11816 0,11632 0,11450 0,112 70 1,6 0,11092 0,10915 0,10741 0,105 67 0,103 96 0,102*26 0,100 59 0,098 92 0,09728 0,09566 1,7 0,09405 0,092 46 0,090 89 0,08933 0,08780 0,08628 0,084 78 0,083 29 0,08183 0,08038 1,8 0,078 95 0,077 54 0,07614 0,074 77 0,073 41 0,072 06 0,070 74 0,06943 0,06814 0,066 87 1,9 0,06562 0,06438 0,063 16 0,06195 0,060 77 0,05959 0,058 44 0,05730 0,056 18 0,05508 2,0 0,05399 0,05292 0,05186 0,050 82 0,04980 0,048 79 0,047 80 0,046 32 0,04586 0,04491 2,1 0,043 98 0,04307 0,042 17 0,04128 0,040 41 0,039 55 0,038 71 0,037 88 0,03706 0,03626 2,2 0,035 47 0,034 70 0,033 94 0,03319 0,032 46 0,03174 0,03103 0,030 34 0,02965 0,028 98 2,3 0,028 33 0,02768 0,02705 0,02643 0,025 82 0,02522 0,02463 0,02406 0,02349 0,022 94 Приложение
Таблица А.1 (продолжение) u 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 2,4 0,02239 0,02186 0,02134 0,02083 0,02033 0,01984 0,01936 0,01889 0,01842 0,01797 2,5 0,01753 0,01709 0,01667 0,01625 0,01585 0,01545 0,01506 0,01468 0,01431 0,013 94 2,6 0,013 58 0,013 23 0,012 89 0,01256 0,01223 0,01191 0,01160 0,01130 0,01100 0,01071 2,7 0,01042 0,01014 0,00987 0,00961 0,00935 0,00909 0,00885 0,00861 0,00837 0,00814 2,8 0,00792 0,00770 0,00748 0,00727 0,00707 0,00687 0,00668 0,00649 0,00631 0,00613 2,9 0,00595 0,00578 0,00562 0,00545 0,00530 0,00514 0,00499 0,00485 0,00471 0,00457 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 3,0 0,00443 0,00327 0,00238 0,00172 0,00123 0,00087 0,00061 0,00042 0,00029 0,00020 Приложение а) Указаны значения для гауссовой кривой (см. рисунок). По данным Zimmermann К. F. Formein und Fachausdrucke zur Varriationsstatistik. Berlin: Deutscher Verlag der Wisswnschaften, 1963.
Таблица А.2. Интеграл Гаусса. [Площадь F под нормированной кривой Гаусса в пределах —оо... и. Пересчет на площадь F' в пределах —и ... + и идет по F' = 2(Г — 0, 5)]. и 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,500000 0,503 989 0,507 978 0,511966 0,515 953 0,519938 0,523922 0,527903 0,531881 0,535 856 0,1 0,539828 0,543 795 0,547758 0,551717 0,555670 0,559618 0,563 560 0,567495 0,571424 0,575 345 од 0,579260 0,583166 0,587064 0,590954 0,594835 0,598 706 0,602 568 0,606420 0,610261 0,614092 0,3 0,617911 0,621720 0,625616 0,629300 0,633072 0,636831 0,640576 0,644309 0,648027 0,651732 0,4 0,655422 0,659097 0,662 757 0,666402 0,670031 0,673645 0,677242 0,680822 0,684386 0,687933 0,5 0,691462 0,694974 0,698 468 0,702 944 0,705402 0,708840 0,712260 0,715661 0,719043 0,722 405 0,6 0,725747 0,729069 0,732 371 0,735653 0,738914 0,742 154 0,745 373 0,748 571 0,751748 0,754 903 0,7 0,758036 0,761148 0,764238 0,767 305 0,770350 0,773 373 0,776373 0,779350 0,782 305 0,785236 0,8 0,788145 0,791030 0,793 892 0,796731 0,799546 0,802 338 0,805106 0,807850 0,810570 0,813267 0,9 0,815940 0,818589 0,821214 0,823 814 0,826 391 0,828 944 0,831472 0,833977 0,836457 0,838 913 1,0 0,841345 0,843752 0,846136 0,848 495 0,850830 0,853141 0,855428 0,857690 0,859 929 0,862 143 1Д 0,864334 0,866500 0,868643 0,870762 0,872 857 0,874 928 0,876976 0,879000 0,881000 0,882 977 1,2 0,884930 0,886861 0,888 768 0,890651 0,892 512 0,894 350 0,896165 0,897958 0,899727 0,901475 1,3 0,903200 0,904 902 0,906582 0,908241 0,909877 0,911492 0,913085 0,914656 0,916207 0,917736 1,4 0,919243 0,920 730 0,922 196 0,923 642 0,925066 0,926471 0,927855 0,929 219 0,930563 0,931889 1,5 0,933 193 0,934478 0,935744 0,936 992 0,938220 0,939429 0,940620 0,941 792 0,942947 0,944083 1,6 0,945201 0,946 301 0,947 384 0,948 449 0,949497 0,950 528 0,951543 0,952540 0,953 521 0,954486 1,7 0,955434 0,956367 0,957284 0,958 185 0,959185 0,959941 0,960796 0,961636 0,962462 0,963273 1,8 0,964070 0,964 852 0,965620 0,966 375 0,967116 0,967843 0,968 557 0,969258 0,969946 0,970621 1,9 0,971283 0,972 933 0,971571 0,973 197 0,973 810 0,974412 0,975002 0,975 581 0,976148 0,976704 2,0 0,977250 0,977784 0,978 308 0,978 822 0,979325 0,979818 0,980301 0,980774 0,981237 0,981691 2,1 0,982136 0,982571 0,982 997 0,983 414 0,983 823 0,984222 0,984 614 0,984997 0,985 371 0,985 738 £ § о 8 3 S
Таблица А.2 (продолжение) U 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 2,2 0,986097 0,986447 0,986791 0,987126 0,987454 0,987776 0,988 089 0,988396 0,988696 0,988989 2,3 0,989276 0,989556 0,989830 0,990097 0,990358 0,990613 0,990862 0,991106 0,991344 0,991576 2,4 0,991802 0,992024 0,992 240 0,992 451 0,992 656 0,992 857 0,993053 0,993244 0,993431 0,993613 2,5 0,993 790 0,993 963 0,994132 0,994297 0,994457 0,994614 0,994 766 0,994915 0,995060 0,995201 2,6 0,995339 0,995 473 0,995 604 0,995731 0,995 855 0,995 975 0,996093 0,996207 0,996319 0,996427 2,7 0,996533 0,996636 0,996736 0,996833 0,996928 0,997020 0,997110 0,997197 0,997282 0,997 365 2,8 0,997445 0,997523 0,997599 0,997673 0,997744 0,997 814 0,997 882 0,997948 0,998012 0,998074 2,9 0,998134 0,998193 0,998250 0,998 305 0,998359 0,998411 0,998462 0,998 511 0,998 559 0,998605 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 3,0 0,998650 0,999032 0,999313 0,999517 0,999663 0,999767 0,999841 0,999892 0,999928 0,999952 и(Р) Р «(Р) Р 3,891 0,9999 5,32672 0,9999999 4,41717 0,99999 5,73073 0,99999999 4,89164 0,999999 6,10941 0,999999999 Площади под кривой Гаусса, данные в табл. А.2. Приложение 243
244 Приложение Таблица А.З. Процентные точки /-распределения в зависимости от вероятности Р (двусторонняя постановка задачи) и Р (односторонняя постановка задачи) и числа степеней свободы f (взято из книги Циммерманна, см. табл. А.1) / Р = 0,50 0,75 0,90 0,95 0,98 0,99 1 1,00 2,41 6,31 12,7 31,82 63,7 2 0,816 1,60 2,92 4,30 6,97 9,92 3 0,765 1,42 2,35 3,18 4,54 5,84 4 0,741 1,34 2,13 2,78 3,75 4,60 5 0,727 1,30 2,01 2,57 3,37 4,03 6 0,718 1,27 1,94 2,45 3,14 3,71 7 0,711 1,25 1,89 2,36 3,00 3,50 8 0,706 1,24 1,86 2,31 2,90 3,36 9 0,703 1,23 1,83 2,26 2,82 3,25 10 0,700 1,22 1,81 2,23 2,76 3,17 11 0,697 1,21 1,80 2,20 2,72 3,11 12 0,695 1,21 1,78 2,18 2,68 3,05 13 0,694 1,20 1,77 2,16 2,65 3,01 14 0,692 1,20 1,76 2,14 2,62 2,98 15 0,691 1,20 1,75 2,13 2,60 2,95 16 0,690 1,19 1,75 2,12 2,58 2,92 17 0,689 1,19 1,74 2,11 2,57 2,90 18 0,688 1,19 1,73 2,10 2,55 2,88 19 0,688 1,19 1,73 2,09 2,54 2,86 20 0,687 1,18 1,73 2,09 2,53 2,85 25 0,684 1,18 1,71 2,06 2,49 2,79 30 0,683 1,17 1,70 2,04 2,46 2,75 40 0,681 1,17 1,68 2,02 2,42 2,70 60 0,679 1,16 1,67 2,00 2,39 2,66 СО 0,674 1,15 1,64 1,96 2,33 2,58 / Р = 0,75 0,875 0,95 0,975 0,99 0,995 1. Процентные точки /-распределения можно описать следующими многочленами [Кратч Т. (устное сообщение)]: /(Р = 0,95;/) = 1,958788 + 2,429953//+ 2,189 891//2 + 4,630189//3 + 1,398179//’, /(Р = 0,975;/) = 2,322 16 + 3,93068//+ 3,446 57//2 + 14,414 2//3 + 7,686 42//В * 10, /(Р = 0,99; /) = 2,563 8 + 5,490 59//+ 2,726 54//2 + 31,244 6//3 + 21,674 5//10. В качестве приближения для / = 4 можно применять /(Р = 0,90;/) *1,7+ 1,8//, /(Р = 0,95;/) *2,0+ 2,5//, /(Р = 0,99;/) *2,5+ 7,0//.
Приложение 245 Таблица А.4. Процентные точки ^-распределения в зависимости от вероятности Р и числа степеней свободы f f Р = 0,01 0,05 0,10 0,50 0,90 0,95 0,99 1 0,0315 7 0,0239 3 0,015 8 0,455 2,71 3,84 6,64 2 0,0201 0,103 0,211 1,39 4,61 5,99 9,21 3 0,115 0,352 0,584 2,37 6,25 7,81 11,3 4 0,297 0,711 1,06 3,36 7,78 9,49 13,3 5 0,554 1,15 1,61 4,35 9,24 11,1 15,1 6 0,872 1,64 2,20 5,35 10,6 12,6 16,8 7 1,24 2,17 2,83 6,35 12,0 14,1 18,5 8 1,65 2,73 3,49 7,34 13,4 15,5 20,1 9 2,09 3,33 4,17 8,34 14,7 16,9 21,7 10 2,56 3,94 4,87 9,34 16,0 18,3 23,2 11 3,05 4,57 5,58 10,3 17,3 19,7 24,7 12 3,57 5,23 6,30 11,3 18,5 21,0 26,2 13 4,11 5,89 7,04 12,3 19,8 22,4 27,7 14 4,66 6,57 7,79 13,3 21,1 23,7 29,1 15 5,23 7,26 8,55 14,3 22,3 25,0 30,6 16 5,81 7,96 9,31 15,3 23,5 26,3 32,0 17 6,41 8,67 10,1 16,3 24,8 27,6 33,4 18 7,01 9,39 10,9 17,3 26,0 28,9 34,8 19 7,63 10,1 11,7 18,3 27,2 30,1 36,2 20 8,26 10,9 12,4 19,3 28,4 31,4 37,6 21 8,90 11,6 13,2 20,3 29,6 32,7 38,9 22 9,54 12,3 14,0 21,3 30,8 33,9 40,3 23 10,2 13,1 14,8 22,3 32,0 35,2 41,6 24 10,9 13,8 15,7 23,3 33,2 36,4 43,0 25 11,5 14,6 16,5 24,3 34,4 37,7 44,3 Процентные точки ^-распределения в хорошем приближении можно описать следую- щими многочленами (1 < f < 30): Х2(Р = 0, 95) = 0,1726 + 0, 956 9/ + 2, 7115^7 Х2(Р = 0, 99) - 1, 9759 + 0, 952 1/ + 3, 7070^7 Для f > 30 справедливо приближение х2 = НЛ7^ + «(Р)]2
246 Приложение Таблица А.5. Процентные точки для /’-распределения в зависимости от чисел сте- пеней свободы /1 и /2 (взято из книги Циммерманна, см. табл. А.1). (О возможности интерполяции см. разд. 3.3.2) а) Для Р = 0, 95 Л /1 = 1 2 3 4 5 6 8 1 161 200 216 225 230 234 239 2 18,51 19,00 19,16 19,25 19,30 19,33 19,37 3 10,13 9,55 9,28 9,12 9,01 8,94 8,84 4 7,71 6,94 6,59 6,39 6,26 6,16 6,04 5 6,61 5,79 5,41 5,19 5,05 4,95 4,82 6 5,99 5,14 4,76 4,53 4,39 4,28 4,15 7 5,59 4,74 4,35 4,12 3,97 3,87 3,73 8 5,32 4,46 4,07 3,84 3,69 3,58 3,44 9 5,12 4,26 3,86 3,63 3,48 3,37 3,23 10 4,96 4,10 3,71 3,48 3,33 3,22 3,07 11 4,84 3,98 3,59 3,36 3,20 3,09 2,95 12 4,75 3,88 3,49 3,26 з,п 3,00 2,85 13 4,67 3,80 3,41 3,18 3,02 2,92 2,77 14 4,60 3,74 3,34 3,11 2,96 2,85 2,70 15 4,54 3,68 3,29 3,06 2,90 2,79 2,64 16 4,49 3,63 3,24 3,01 2,85 2,74 2,59 17 4,45 3,59 3,20 2,96 2,81 2,70 2,55 18 4,41 3,55 3,16 2,93 2,77 2,66 2,51 19 4,38 3,52 3,13 2,90 2,74 2,63 2,48 20 4,35 3,49 3,10 2,87 2,71 2,60 2,45 21 4,32 3,47 3,07 2,84 2,68 2,57 2,42 22 4,30 3,44 3,05 2,82 2,66 2,55 2,40 23 4,28 3,42 3,03 2,80 2,64 2,53 2,38 24 4,26 3,40 3,01 2,78 2,62 2,51 2,36 25 4,24 3,38 2,99 2,76 2,60 2,49 2,34 26 4,22 3,37 2,98 2,74 2,59 2,47 2,32 27 4,21 3,35 2,96 2,73 2,57 2,46 2,30 28 4,20 3,34 2,95 2,71 2,56 2,44 2,29 29 4,18 3,33 2,93 2,70 2,54 2,43 2,28 30 4,17 3,32 2,92 2,69 2,53 2,42 2,27 40 4,08 3,23 2,84 2,61 2,45 2,34 2,18 60 4,00 3,15 2,76 2,52 2,37 2,25 2,10 120 3,92 3,07 2,68 2,45 2,29 2,17 2,02 00 3,84 2,99 2,60 2,37 2,21 2,09 1,94 Л /1 = 1 2 3 4 5 6 8
Приложение 247 10 12 16 20 24 50 00 Л 242 244 246 248 249 252 254 1 19,39 19,41 19,43 19,44 19,45 19,47 19,50 2 8,78 8,74 8,69 8,66 8,64 8,58 8,53 3 5,96 5,91 5,84 5,80 5,77 5,70 5,63 4 4,74 4,68 4,60 4,56 4,53 4,44 4,36 5 4,06 4,00 3,92 3,87 3,84 3,75 3,67 6 3,63 3,57 3,49 3,44 3,41 3,32 3,23 7 3,34 3,28 3,20 3,15 3,12 3,03 2,93 8 3,13 3,07 2,98 2,93 2,90 2,80 2,71 9 2,97 2,91 2,82 2,77 2,74 2,64 2,54 10 2,86 2,79 2,70 2,65 2,61 2,50 2,40 11 2,76 2,69 2,60 2,54 2,50 2,40 2,30 12 2,67 2,60 2,51 2,46 2,42 2,32 2,21 13 2,60 2,53 2,44 2,39 2,35 2,24 2,13 14 2,55 2,48 2,39 2,33 2,29 2,18 2,07 15 2,49 2,42 2,33 2,28 2,24 2,13 2,01 16 2,45 2,38 2,29 2,23 2,19 2,08 1,96 17 2,41 2,34 2,25 2,19 2,15 2,04 1,92 18 2,38 2,31 2,21 2,15 2,11 2,00 1,88 19 2,35 2,28 2,18 2,12 2,08 1,96 1,84 20 2,32 2,25 2,15 2,09 2,05 1,93 1,81 21 2,30 2,23 2,13 2,07 2,03 1,91 1,78 22 2,28 2,20 2,10 2,05 2,00 1,88 1,76 23 2,26 2,18 2,09 2,02 1,98 1,86 1,73 24 2,24 2,16 2,06 2,00 1,96 1,84 1,71 25 2,22 2,15 2,05 1,99 1,95 1,82 1,69 26 2,20 2,13 2,03 1,97 1,93 1,80 1,67 27 2,19 2,12 2,02 1,96 1,91 1,78 1,65 28 2,18 2,10 2,00 1,94 1,90 1,77 1,64 29 2,16 2,09 1,99 1,93 1,89 1,76 1,62 30 2,07 2,00 1,90 1,84 1,79 1,66 1,51 40 1,99 1,92 1,81 1,75 1,70 1,60 1,39 60 1,90 1,83 1,72 1,65 1,61 1,45 1,25 120 1,83 1,75 1,63 1,57 1,52 1,35 1,00 00 10 12 16 20 24 50 00 л Для /1 = Л = / в области 4 < / < 50 выполняется: F(P = 0,95;/) = 1,402 3 12,6641// + 29,146 7//2. В качестве приближения в области 3 = / = 20 можно использовать F(P = 0,95;/) 115 -L 9 (7+П* + Л
248 Приложение Таблица А.5 (продолжение) б) для Р = 0, 99 fl /1=1 2 3 4 5 6 8 1 4052 4999 5403 5625 5 764 5 859 5 981 2 98,49 99,00 99,17 99,25 99,30 99,33 99,36 3 34,12 30,81 29,46 28,71 28,24 27,91 27,49 4 21,20 18,00 16,69 15,98 15,52 15,21 14,80 5 16,26 13,27 12,06 11,39 10,97 10,67 10,27 6 13,74 10,92 9,78 9,15 8,75 8,47 8,10 7 12,25 9,55 8,45 7,85 7,46 7,19 6,84 8 11,26 8,65 7,59 7,01 6,63 6,37 6,03 9 10,56 8,02 6,99 6,42 6,06 5,80 5,47 10 10,04 7,56 6,55 5,99 5,64 5,39 5,06 И 9,65 7,20 6,22 5,67 5,32 5,07 4,74 12 9,33 6,93 5,95 5,41 5,06 4,82 4,50 13 9,07 6,70 5,74 5,20 4,86 4,62 4,30 14 8,86 6,51 5,56 5,03 4,69 4,46 4,14 15 8,68 6,36 5,42 4,89 4,56 4,32 4,00 16 8,53 6,23 5,29 4,77 4,44 4,20 3,89 17 8,40 6,11 5,18 4,67 4,34 4,10 3,79 18 8,28 6,01 5,09 4,58 4,25 4,01 3,71 19 8,18 5,93 5,01 4,50 4,17 3,94 3,63 20 8,10 5,85 4,94 4,43 4,10 3,87 3,56 21 8,02 5,78 4,87 4,37 4,04 3,81 3,51 22 7,94 5,72 4,82 4,31 3,99 3,76 3,45 23 7,88 5,66 4,76 4,26 3,94 3,71 3,41 24 7,82 5,61 4,72 4,22 3,90 3,67 3,36 25 7,77 5,57 4,68 4,18 3,86 3,63 3,32 26 7,72 5,53 4,64 4,14 3,82 3,59 3,29 27 7,68 5,49 4,60 4,11 3,78 3,56 3,26 28 7,64 5,45 4,57 4,07 3,75 3,53 3,23 29 7,60 5,42 4,54 4,04 3,73 3,50 3,20 30 7,56 5,39 4,51 4,02 3,70 3,47 3,17 40 7,31 5,18 4,31 3,83 3,51 3,29 2,99 60 7,08 4,98 4,13 3,65 3,34 3,12 2,82 120 6,85 4,79 3,95 3,48 3,17 2,96 2,66 СО 6,64 4,60 3,78 3,32 3,02 2,80 2,51 fl Л = 1 2 3 4 5 6 8
Приложение 249 10 12 16 20 24 50 00 Л 6056 6106 6169 6208 6234 6 302 6 366 1 99,40 99,42 99,44 99,45 99,46 99,48 99,50 2 27,23 27,05 26,83 26,65 26,60 25,35 26,12 3 14,54 14,37 14,15 14,02 13,93 13,69 13,46 4 10,05 9,89 9,68 9,55 9,47 9,24 9,02 5 7,87 7,72 7,52 7,39 7,31 7,09 6,88 6 6,62 6,47 6,27 6,15 6,07 5,85 5,65 7. 5,82 5,67 5,48 5,36 5,38 5,06 4,86 8 5,26 5,11 4,92 4,80 4,73 4,51 4,31 9 4,85 4,71 4,52 4,41 4,33 4,12 3,91 10 4,54 4,40 4,21 4,10 4,02 3,80 3,60 11 4,30 4,16 3,98 3,86 3,78 3,56 3,36 12 4,10 3,96 3,78 3,67 3,59 3,37 3,16 13 3,94 3,80 3,62 3,51 3,43 3,21 3,00 14 3,80 3,67 3,48 3,36 3,29 3,07 2,87 15 3,69 3,55 3,37 3,25 3,18 2,96 2,75 16 3,59 3,45 3,27 3,16 3,08 2,86 2,65 17 3,51 3,37 3,19 3,07 3,00 2,78 2,57 18 3,43 3,30 3,12 3,00 2,92 2,70 2,49 19 3,37 3,23 3,05 2,94 2,86 2,63 2,42 20 3,31 3,17 2,99 2,88 2,80 2,58 2,36 21 3,26 3,12 2,94 2,83 2,75 2,53 2,31 22 3,21 3,07 2,89 2,78 2,70 2,48 2,26 23 3,17 3,03 2,85 2,74 2,66 2,44 2,21 24 3,13 2,99 2,81 2,70 2,62 2,40 2,17 25 3,09 2,96 2,77 2,66 2,58 2,36 2,13 26 3,06 2,93 2,74 2,63 2,55 2,33 2,10 27 3,03 2,90 2,71 2,60 2,52 2,30 2,06 28 3,00 2,87 2,68 2,57 2,49 2,27 2,03 29 2,98 2,84 2,66 2,55 2,47 2,24 2,01 30 2,80 2,66 2,49 2,37 2,29 2,05 1,80 40 2,63 2,50 2,32 2,20 2,12 1,87 1,60 60 2,47 2,34 2,15 2,03 1,95 1,68 1,38 120 2,23 2,18 1,99 1,87 1,79 1,52 1,00 СО 10 12 16 20 24 50 00 fl Для fi = f2 = f в области 4 < f < 50 справедливо: F(P = 0,99;/) = 1,9549 + 9,1007//+ 187, 998 l//2. В качестве приближения в области 4 < / < 20 можно использовать: F(Р = 0, 99; /) а: (Т+ГД-
Таблица А.6. Критические значения для критерия Дункана в зависимости от числа степеней свободы Д и рангового 250 порядка величины рь [Дункан а) для Р = 0, 95 см. разд. 8.3] Л Л = 2 3 4 5 6 7 8 9 10 12 14 16 18 20 1 18,8 18,0 18,0 18,0 18,0 18,0 18,0 18,0 18,0 18,0 18,0 18,0 18,0 18,0 2 6,09 6,09 6,09 6,09 6,09 6,09 6,09 6,09 6,09 6,09 6,09 6,09 6,09 6,09 3 4,50 4,50 4,50 4,50 4,50 4,50 4,50 4,50 4,50 4,50 4,50 4,50 4,50 4,50 4 3,93 4,01 4,02 4,02 4,02 4,02 4,02 4,02 4,02 4,02 4,02 4,02 4,02 4,02 5 3,64 3,74 3,79 3,83 3,83 3,83 3,83 3,83 3,83 3,83 3,83 3,83 3,83 3,83 6 3,46 3,58 3,64 3,68 3,68 3,68 3,68 3,68 3,68 3,68 3,68 3,68 3,68 3,68 7 3,35 3,47 3,54 3,58 3,60 3,61 3,61 3,61 3,61 3,61 3,61 3,61 3,61 3,61 8 3,26 3,39 3,47 3,52 3,55 3,56 3,56 3,56 3,56 3,56 3,56 3,56 3,56 3,56 9 3,20 3,34 3,41 3,47 3,50 3,52 3,52 3,52 3,52 3,52 3,52 3,52 3,52 3,52 10 3,15 3,30 3,37 3,43 3,46 3,47 3,47 3,47 3,47 3,47 3,47 3,47 3,47 3,48 11 3,11 3,27 3,35 3,39 3,43 3,44 3,45 3,46 3,46 3,46 3,46 3,46 3,47 3,48 12 3,08 3,23 3,33 3,36 3,40 3,42 3,44 3,44 3,46 3,46 3,46 3,46 3,47 3,48 13 3,06 3,21 3,30 3,35 3,38 3,41 3,42 3,44 3,45 3,46 3,46 3,46 3,47 3,47 14 3,03 3,18 3,27 3,33 3,37 3,39 3,41 3,43 3,44 3,45 3,46 3,46 3,47 3,47 15 3,01 3,16 3,25 3,31 3,36 3,38 3,40 3,42 3,43 3,44 3,45 3,46 3,47 3,47 16 3,00 3,15 3,23 3,30 3,34 3,37 3,39 3,41 3,43 3,44 3,45 3,46 3,47 3,47 17 2,98 3,13 3,22 3,28 3,33 3,36 3,38 3,40 3,42 3,44 3,45 3,46 3,47 3,47 18 2,97 3,12 3,21 3,27 3,32 3,35 3,37 3,39 3,41 3,43 3,45 3,46 3,47 3,47 19 2,96 3,11 3,19 3,26 3,31 3,35 3,37 3,39 3,41 3,43 3,44 3,46 3,47 3,47 20 2,95 3,10 3,18 3,25 3,30 3,34 3,36 3,38 3,40 3,43 3,44 3,46 3,46 3,47 22 2,93 3,08 3,17 3,24 3,29 3,32 3,35 3,37 3,39 3,42 3,44 3,45 3,46 3,47 24 2,92 3,07 3,15 3,22 3,28 3,31 3,34 3,37 3,38 3,41 3,44 3,45 3,46 3,47 26 2,91 3,06 3,14 3,21 3,27 3,30 3,34 3,36 3,38 3,41 3,43 3,45 3,46 3,47 28 2,90 3,04 3,13 3,20 3,26 3,30 3,33 3,35 3,37 3,40 3,43 3,45 3,46 3,47 30 2,89 3,04 3,12 3,20 3,25 3,29 3,32 3,35 3,37 3,40 3,43 3,44 3,46 3,47 Й 40 2,86 3,01 3,10 3,17 3,22 3,27 3,30 3,33 3,35 3,39 3,42 3,44 3,46 3,47 ъ йв 60 2,83 2,98 3,08 3,14 3,20 3,24 3,28 3,31 3,33 3,37 3,40 3,43 3,45 3,47 0 100 2,80 2,95 3,05 3,12 3,18 3,22 3,26 3,29 3,32 3,36 3,40 3,42 3,45 3,47 и сь 00 2,77 2,92 3,02 3,09 3,15 3,19 3,23 3,26 339 3,34 3,38 3,41 3,44 3,47 Й! S сь
Таблица А.6 (продолжение) б) для Р = 0,99 Л Pt = 2 3 4 5 6 7 8 9 10 12 14 16 18 20 1 90,0 90,0 90,0 90,0 90,0 90,0 90,0 90,0 90,0 90,0 90,0 90,0 90,0 90,0 2 14,0 14,0 14,0 14,0 14,0 14,0 14,0 14,0 14,0 14,0 14,0 14,0 14,0 14,0 3 8,26 8,5 8,6 8,7 8,8 8,9 8,9 9,0 9,0 9,0 92 9,2 9,3 9,3 4 7,51 6,8 6,9 7,0 7,1 7,1 7,2 12 7,3 7,3 7,4 7,4 7,5 7,5 5 6,70 5,96 6,11 6,18 6,26 6,33 6,40 6,44 6,5 6,6 6,6 6,7 6,7 6,8 6 5,24 5,51 5,65 5,73 5,81 5,88 5,95 6,00 6,0 6,1 6,2 6,2 6,3 6,3 7 4,95 5,22 5,37 5,45 5,53 5,61 5,69 5,73 5,8 5,8 5,9 5,9 6,0 6,0 8 4,74 5,00 5,14 5,23 5,32 5,40 5,47 5,51 5,5 5,6 5,7 5,7 5,8 5,8 9 4,60 4,86 4,99 5,08 5,17 5,25 5,32 5,36 5,4 5,5 5,5 5,6 5,7 5,7 10 4,48 4,73 4,88 4,96 5,06 5,13 5,20 5,24 5,28 5,36 5,42 5,48 5,54 5,55 11 4,39 4,63 4,77 4,86 4,94 5,01 5,06 5,12 5,15 5,24 5,28 4,34 5,38 5,39 12 4,32 4,55 4,68 4,76 4,84 4,92 4,96 5,02 5,07 5,13 5,17 5,22 5,24 5,26 13 4,26 4,48 4,62 4,69 4,74 4,84 4,88 4,94 4,98 5,04 5,08 5,13 5,14 5,15 14 4,21 4,42 4,55 4,63 4,70 4,78 4,83 4,87 4,91 4,96 5,00 5,04 5,06 5,07 15 4,17 4,37 4,50 4,58 4,64 4,72 4,77 4,81 4,84 4,90 4,94 4,97 4,99 5,00 16 4,13 4,34 4,45 4,54 4,60 4,67 4,72 4,76 4,79 4,84 4,88 4,91 4,93 4,94 17 4,10 4,30 4,41 4,50 4,56 4,63 4,68 4,72 4,75 4,80 4,83 4,86 4,88 4,89 18 4,07 4,27 4,38 4,46 4,53 4,59 4,64 4,68 4,71 4,76 4,79 4,82 4,84 4,85 19 4,05 4,24 4,35 4,43 4,50 4,56 4,61 4,64 4,67 4,72 4,76 4,79 4,81 4,82 20 4,02 4,22 4,33 4,40 4,47 4,53 4,58 4,61 4,65 4,69 4,73 4,76 4,78 4,79 22 3,99 4,17 4,28 4,36 4,42 4,48 4,53 4,57 4,60 4,65 4,68 4,71 4,74 4,75 24 3,96 4,14 4,24 4,33 4,39 4,44 4,49 4,53 4,57 4,62 4,64 4,67 4,70 4,72 26 3,93 4,11 4,21 4,30 4,36 4,41 4,46 4,50 4,53 4,58 4,62 4,65 4,67 4,69 28 3,91 4,08 4,18 4,28 4,34 4,39 4,43 4,47 4,51 4,56 4,60 4,62 4,65 4,67 30 3,89 4,06 4,16 4,22 4,32 4,36 4,41 4,45 4,48 4,54 4,58 4,61 4,63 4,65 40 3,82 3,99 4,10 4,17 4,24 4,30 4’34 4,37 4,41 4,46 4,51 4,54 4,57 4,59 80 3,76 3,92 4,03 4,12 4,17 4,23 4,27 4,31 4,34 4,39 4,44 4,47 4,50 4,53 100 3,71 3,86 3,98 4,06 4,11 4,17 4 Л 4,25 4,29 4,35 4,38 4,42 4,45 4,48 00 3,64 3,80 3,90 3,98 4,04 4,09 4,14 4,17 4,20 4,26 4,31 4,34 4,38 4,41 е1 § о а S &
Заключительные замечания Математическая статистика предлагает аналитику множество самых разно- образных методов для оценки результатов и методов анализа. Цель этой кни- ги — помочь ему сделать правильный выбор. В конце изложения следовало бы еще раз рассмотреть общий вопрос о возможностях и пределах описанных методов. В очень многих случаях аналитик прибегает к методам математической ста- тистики, если речь идет об ошибке метода или результатов анализа. Вообще у аналитиков все в возрастающей степени наблюдается тенденция не только “вы- рабатывать” данные, но и тщательно их интерпретировать. Эта интерпретация столь же важна, как и упорядоченный пробоотбор, ибо в, ходе дальнейших работ результатами анализов все чаще пользуются уже не химики-аналитики, а дру- гие специалисты. Методы математической статистики общеприняты, а их вы- воды общепризнаны. Введение этих методов облегчает также взаимопонимание между теми, кто выполняет анализ, и теми, для кого предназначены анализы, что помогает избегать ошибочных заключений и предотвращать недоразумения. Использование статистических методов для оценки ошибки и интерпретация ре- зультатов — это всего лишь одна из возможностей их применения. Оптимальные выводы на основании методов математической статистики можно сделать лишь тогда, когда оптимален сам эксперимент. И эта проблема— проблема оптималь- ного планирования эксперимента — также решается методами математической статистики. Это относится как к решению простейших вопросов, вроде того, сколько параллельных определений лучше всего взять для оценки среднего, так и к решению сложных задач, таких, как постановка межлабораторного опыта. Поэтому математическую статистику не следует понимать как некое вспомога- тельное средство для обработки результатов измерений, ее надо привлекать уже при планировании эксперимента, чтобы заранее определить, при каких условиях надо ожидать оптимального результата. Естественно, статистика также имеет свои границы. Она не способна гово- рить о результатах каждого конкретного случая, она делает утверждения лишь в среднем с заданной или оговоренной вероятностью и риском соответствующей ошибки. Никакая статистика не может дать надежный результат при ошибоч- ном анализе. Но там, где возможен осмысленный анализ, нужно осмысленно применять статистику. Методы математической статистики не могут заменить аналитику критический склад ума, но, вероятно, они могут оказать эффектив- ную помощь. Специальные теоретико-математические познания едва ли необходимы для применения статистики. Надо лишь понимать ход рассуждений, знать, как про- вести эксперимент, какие данные может дать статистика и где лежат границы ее применимости. При такой точке зрения настоящая книга могла бы побудить аналитика критически применять положения статистики к конкретным возни- кающим задачам для его собственного и для общего блага.
Словарь терминов Немецкий — английский — русский Abhangigkeit relationship Abnehmerrisiko consumer’s risk Abweichung deviation Alternative alternative Alternativhypothese alternative hypothesis Analyse analysis arithmetisches Mittel arithmetic mean Ausreisser outlying observation Blindwert blank X2-Verteilung chi-square distribution Charakteristik characteristics Datenreduktion data reduction Datenverarbeitung data processing durchschnittliche average deviation(mean Abweichung deviation) Eliminieren von Ausreissern rejection of outliers Empfindlichkeit sensitivity Exzess kurtosis, excess F-Verteilung F-distribution Fehler error Fehler erster, zweiter Art error of first, second kind Fehlertheorie theory of errors Folge runs Freiheitsgrad degree of freedom зависимость риск потребителя отклонение альтернатива альтернативная гипотеза анализ среднее арифметическое грубая ошибка, промах , результат холостого опыта х2-распределение характеристика, показатель свертка данных обработка данных среднее отклонение исключение (отбра- сывание) грубых ошибок чувствительность эксцесс F-распределение ошибка ошибка первого, второго рода теория ошибок последовательность, опыты, серии степень свободы
254 Словарь терминов. Немецкий — английский — русский Gang geometrisches Mittel graphisch Grenzwert grobe Fehler Grundgesamtheit Haufigkeit relative Haufigkeit Haufigkeitdiagramm Haufigkeitsverteilung Herstellerrisiko Hypothese indirekte Messung Information Interpolation Irrtumswahrscheinlichkeit Kalibrieren Kalibrierkurve Klasseneinteilung Kontrollgrenzen Kontrollkarten Korrektur Korrelationskoeffizient Kovarianz Median Merkmal Messung Mittelwert N achweisgrenze trend geometric mean graphical critical value mistake population frequency relative frequency frequency polygon frequency distribution producer’s risk hypothesis indirect measurement information interpolation error first kind probability, significance level calibration calibration curve grouping control limits control chart correction coefficient of correlation covariance median quality characteristics measurement mean value limit of detection дрейф, тренд, тендеция среднее геометрическое графический критическое значение грубая ошибка, промашка генеральная совокуп- ность, популяция частота относительная частота полигон частот, гистограмма распределение ча- стот, эмпирическое распределение риск производителя гипотеза косвенное измерение информация интерполяция уровень значимости, вероятность ошибки первого рода градуировка (калибровка) градуировочный график группировка контрольные пределы (границы); границы (пределы) допуска контрольная карта поправка коэффициент корреляции ковариация медиана признак, свойство, показатель качества, отклик измерение среднее (значение) граница (порог, предел) обнаружения
Словарь терминов. Немецкий — английский — русский 255 Naherung approximation приближение, аппроксимация nichtparametrische statistische Methoden nonparametric statistics непараметрическая статистика Nomogramm nomogram номограмма Normal verteilung normal distribution нормальное распределение Nullhypothese null-(zero)-hypothesis, hypothesis Ho нуль-гипотеза, гипотеза Но Parallelbestimmung parallel estimate параллельное определение Parameter parameter параметр Prazision precision точность, прецизионность, правильность Probenahme sampling пробоотбор, отбор проб Prozess in statistischer Kontrolle process in statistical control статистически управляе- мый процесс 100%-Priifung 100% percent inspection 100%-ный контроль Quadratsumme sum of squares сумма квадратов Qualitatskontrolle quality control контроль качества, управление каче Rangkorrelationskoeffizient rank correlation coefficient ранговый коэффициент корреляции Rangordnung rank order ранговый порядок rechnerisch numerical численный Rechenhilfsmit tel computer, computation aids (computer devices) вычислительная техника, средства вычислений Regression regression регрессия Regressionsgerade regression line линия регрессии, прямая регрессии Regressionskoeffizient coefficient of regression коэффициент регрессии relativ relative относительный Reproduzierbarkeit reproductibility воспроизводимость Resultat result результат Richtigkeit accuracy правильность, точность Risiko risk риск Schatzung estimate оценка Schiefe skewness асимметрия Sequential analyse sequential analysis секвенциальный (по- следовательный ) анализ Signifikanz significance значимость Spannweite range размах
256 Словарь терминов. Немецкий — английский — русский Standard Standardabweichung statistische Qualitatskontrolle statistische Sicherheit Stichprobe Stichprobenumfang Streudiagramm Strichliste Summenhaufigkeit Summenhaufigkeitsvertei- lung systematischer Fehler t-Verteilung Test Test der Anpassung Test der Unabhangigkeit Theorie Unabhangigkeit Untergrund Urliste Vari an z Varianzanalyse Variationskoeffizient Vergleichbarkeit Verteilung Verteilug, asymmetrische Verteilungsdichtefunktion Verteilungsfunktion Vertrauensinterval Vorlauf Wahrscheinlichkeit standart standard deviation statistical quality control level of significance sample sample size scatter diagram tally cumulative frequency cumulative frequency polygon systematic error, bias Student’s distribution significance test test for goodness of fitting test for independence theory independence background original list variance analysis of variance coefficient of variation reproducibility distribution distribution, unsymetrical density function distribution function confidence interval preliminary process estimate probability эталон, стандартный образец стандартное отклонение, средняя квадратичная ошибка статистический контроль качества уровень значимости выборка объем выборки диаграмма рассеяния контрольный листок (для гистограммы) накопленная частота полигон накопленной частоты систематическая ошибка, смещение t-распределение (Стьюдента) критерий значимости критерий согласия критерий независимости теория независимость фон исходный список дисперсия дисперсионный анализ коэффициент вариации межлабораторная воспроизводимость, сопоставимость распределение распределение, асимметричное функция плотности вероятности, плотность распределения функция распределения доверительный интервал предварительная оценка процесса вероятность
Словарь терминов Немецкий — английский — русский 257 Warngrenzen tightened control limits браковочные контрольные пределы Wert Wiederholbarkeit value значение, величина repeatability воспроизводимость, повторяемость zufalliges Ereignis Zufallsfehler Zufallsveranderliche Zuverlassigkeit random event случайное событие random error случайная ошибка random variable случайная величина reliability достоверность, надежность
Предметный указатель1) Абсолютное определение 27 Алгоритм Тейла 165 Анализ следов 21 Анализ 17 - корреляционный 159 - объемный 69 - регрессионный 17, 159 Априорная информация 6 Асимметрия 39 Базы данных 12 Байсовский подход 11 Банки данных 18 - - автоматизированные 18 Библиографический поиск 12 Библиотеки спектров 12 Бутстреп-процедура 11 Вероятностная бумага 52 - - логарифмическая 52 Вероятность 109 - браковки продукта 109 - обнаружения 111 Вес 175 Взаимодействие факторов 184 - - высокого порядка 199 Виды ошибок 24 Визуализация 9, 11 Возможность обнаружения 21 Воспроизводимость анализа 7-9, 18, 24 - - межлабораторная 8 Временные ряды 207 - - детерминированные компоненты 211 - - дискретные 207 - - корреляция внутри 221 - - корреляция между двумя рядами 229 - - стохастические 207 - - центрированные 211 Выборка 25 Выявление 23 - влияний факторов 23 - грубых ошибок 23 - корреляции 23 - линейной регрессии 23 - периодичности 23 - тренда 23 Газохроматографический анализ 92 Гауссова кривая 48 х Гауссов интеграл ошибок 50, 51 Генеральная совокупность 25 Гетероскедатическая система 175 Глобальный оптимум 206 Гравиметрия 27, 67, 95 - ошибки 67 Градуировка (калибровка) 7, 8, 172 Градуировочный график (градуиро- вочная зависимость) 7, 8 - - вид функций 21 - - границы применимости 21 - - логарифмический 21 - - многофакторный 8 - - нелинейный 8 Границы 56 - двухсторонние 56 - доверительные 8 - односторонние 56 - охвата 112 Гребневый анализ 206 Греко-латинские квадраты 6 ДЕНДРАЛ 13 Дисперсионный анализ 8, 22 - - двухвходовый 126 - - двухфакторный 126 - - однофакторный 138 - - простой 126 Дисперсия 36 - выборочная 36 - коэффициентов регрессии 168, 203 Доверительные границы 8 Предметный указатель составлен Ю. В. Грановским.
Предметный указатель 259 Доверительный интервал 21-23 - - вычисление 97 - - среднего значения 56 Доказательство правильности 21 Достоверность 18 Дрейф (тренд) 11, 22, 211 - проверка 22 - регулярный 11 Зависимость двух переменных 159 --стохастическая (вероятностная) 159 Закон сложения ошибок 64 Затраты на контроль 233 Изохрона 220 Инвайронметрия 13 Индекс воспроизводимости 9 Интеграл Гаусса 53 Интенсивность сигнала 198 Интервал варьирования 185 Информативность 175 Искусственный интеллект 13 - - применение в химии 18 Калориметрический анализ 94 Карта ку-сумм 213 - - с V-образной маской 214 Квадратичное приближение 198, 206 Кластерный анализ 11 Ковариация 160 Комбинаторные схемы 6. Комбинаторный перебор 6 Компьютерная химия 12 Контроль качества 9 - - в аналитической химии 18 - - продукции 9 - - с более доступными косвенными измерениями 23 - - 100% 234 - - с помощью ПК 17 - - химического анализа 16 Контрольные карты 8, 9, 16, 22, 208 Контрольные пробы 22 Константы 164 - определение 164 Корреляция 11 - во времени 11 - в пространстве 11 - ложная 163 - показателей 22 - результатов 11 Коэффициент 94 - вариации 94 - весовой 175 - детерминации 161 - корректирующий 180 - корреляции 161 Коэффициент регрессии 164 - - дисперсия 200 - - значимость 200, 203 Критерий 7 - Бартлетта 119 - дрейфа Нойманна 211 - Дункана 147 - знаков 126 - Колмогорова — Смирнова 134 - Кохрена 200 - непараметрический 116, 127 - однородности дисперсий 200 - односторонний 126 - оптимизации 7 - параметрический 116 - расширенный 125 - серий Вальда — Вольфовица 170 - t-критерий 121 - Уэлча 123, 155 Кэмпа — Майделла условие 55 Лазерный микроспектральный ана- лиз 191, 216 Латинские квадраты 6 Линейно меняющаяся ошибка 26 Логарифмическое распределение 21 - - результатов анализа 21 Ложная тревога ИЗ Математико-статистический анализ 16 - - в коксохимии 16 Математическое моделирование 16 Медиана (срединное значение) 35, 166 Межлабораторные опыты 22, 151
260 Предметный указатель Мера адекватности 200 Метод(ы) - Бокса — Уилсона (крутое восхо- ждение) 7 - выборочного контроля 234 - главных компонент 17 - кумулятивных карт (ку-сумм) 213 - линейной регрессии 8 многофакторной 8 -однофакторной 8 - логико-комбинаторные 14 - наименьших квадратов 166 - планирования эксперимента 12 - поиска экстремума 7 - последовательной симплексной оптимизации 7 - симплексных решеток 18 - статистические 5 Методы анализа 21 - - дискретные 77 - - косвенные 74 - - ошибка 90 - - постоянного числа импульсов 77 - - постоянного времени 77 - - принципиальные границы 104 - - селективность 195 - - специфичность 194 - - счетные 77 - - точность 90 - - характеристика 21 Метрология 7 - химическая 15 Многокомпонентная система 13 Многомерная классификация 6 Многоступенчатые (иерархические) опыты 146 Модель Юдена 167 Модулирование сигнала 228 Мониторинг 13 Накопленные частоты 58 4 Непараметрическая статистика 11 - - методы 17 Непараметрические методы 11 - - проверки гипотез 23 Номограмма 118 Неполноблочные схемы 6 Нормальное (гауссово) распределе- ние 10, 47 - - двумерное 49 - - одномерное 49 Обеспечение качества 22 Обработка результатов 21 - - холостого опыта 21 Объемный анализ 69 Односторонние границы 56 Оптимизация 198 - статистическая 198 Отклик 184 - дублированный 185 Относительная (процентная) ошиб- ка 26 Относительное измерение 27 Отношение сигнал — шум 198 Отсеивающий эксперимент 6 Оценка качества 107 - - статистическая 107 Ошибка 26 - абсолютная 26 - взвешивания 65 - второго рода 115 - грубая 130 - - выявление 130 - критерия 152 - линейно меняющаяся 26 - относительная 26 - первого рода 115 - переменная 26 - постоянная 26 - протоотбора 82 - процентная 26 - систематическая 7, 21, 24, 25 - - отсутствие 21 - - текущий контроль 21 - случайная 21, 25 - - влияние рабочих условий 21 - - зависимость от содержания 21 - - метода анализа 24 Параллельные определения 9 Параметрические методы контроля 23 Период (интервал) корреляции 223
Предметный указатель 261 Пламеннофотометрический анализ 95 План(ы) эксперимента 13 - - взвешивания 8, 16 - - второго порядка 202 ----Бокса — Бенкена 202 - выборок 23 - - комбинаторные 15 - - линейные 16 ----с целочисленными уровнями 16 - - Плакетта — Бермана 189 - - пробоотбора 8 - - сбалансированный 139 - - факторный 184 ----дробный 189 ----плоный 184 Планирование эксперимента 7, 14- 17 - - в промышленности 15 - - в условиях неоднородностей 14 - - многофакторное 15 - - при поиске оптимальных условий 15 - - при построении диаграмм со- став — свойство 18 - - факторное 15 - - экстремальное 7 Поверхность отклика 14, 198 Повторяемость (воспроизводимость межлабораторная) 101 Поиск экстремума, метод 7 Показатель качества 7 Полином первого порядка 198 ----линейный 199 Порог обнаружения 8 Постоянная времени 223 Потенциометрический анализ 94 Правильность анализа 7, 24 - - геологических проб 16 Предел 105 - обнаружения 105 - принятия решений 105 - чувствительности 21 ПредПланирование эксперимента 17 Представление аналитических дан- ных 21 Преобразование Лоренца 233 Прецизионность анализа 7, 24 Принцип дуальности 9 Принятие решений 6 - - в многокритериальной ситуации 6 - - статистическая теория 6 - - формализованные процедуры 6 Проба 8 - воспроизводимость 8 - однородность 8 Пробоотбор 8, 25 - возможность обнаружения ошибки 22 - возможность работы с выборками 22 - ошибки 79-82 - частота 22 - число 22 Проверка гипотез 114 - - статистические методы 114 Прогноз 210 - дисперсия 210 Процесс 224 - нестационарный 224 - с памятью 224 Процентиль 39 Процентные точки 129 Прямая 165 - сглаживающая 165 Разброс 139 - внутри групп 139 - между группами 139 - общий 139 Различие 114 - в высшей степени значимое 115 - значимое 114 - недостоверное 114 - незначимое 114 - очень значимое 115 - симптоматическое 115 - статистически-достоверное 114 - чисто случайное 114 Разложение ошибок 140 Размах 38, 39 - выборочный 38, 124 - интерквартильный 39
262 Предметный указатель Рандомизация 8, 10 Распознавание образов 6, 14 Распределение(я) 30 - Гаусса 47 - двумерное 40 - логарифмически-нормальное 53 - нормальное 47 - одномерное 30 - Пуассона 58 - с двумя максимумами 54 - специальные 60 - /-распределение 60 - теоретическое 47 - F-распределение 60 - ^-распределение 61 - частот 30 - эмпирическое 30 Регрессионный анализ (регрессия) 37 - - прикладной 37 Регрессия 175 - взвешенная 175 - невзвешенная 175 - обратная 8 Риск 22 - потребителя 22, 107 - производителя 22, 107 Робастные методы 11 Свертка 9 Селективность 21 Сертификат качества 9, 155 Система стандартов 10 - в области охраны природы 18 - ИСО 9000 10 Скриннинг-процедура 6 Случайный баланс 6, 7, 15 Смешивание 192 Смещение 209 Сопоставимость (воспроизводимость межлабораторная) 101, 102 Спектральный анализ 42 - эмиссионный 42 Спектроскопия 5 Сравнение 23 - более чем двух средних 23, 146 - двух серий анализов 125 - двух средних 23, 121 - двух стандартных отклонений 23 - лабораторий 22 - рядов измерений 23 - среднего с номиналом 23 - частот 23, 129 Среднее 34 - арифметическое 34 - взвешенное 210 - геометрическое 34 - скользящее 210 - текущее 210 - экспоненциальное 210 Стандартное отклонение 23 - - воспроизводимости 138 - - выборочное 36 - - межлабораторное 139 - - расчет - - сравнение 23 --двух 116 --нескольких 119 Стандартные образцы 7, 16 Статистика прямых линий 159 Статистическая достоверность (зна- чимость) 114 Статистическая гипотеза 9, 114 - - отбрасывание 115 - - принятие 115 - - проверка 9 Статистическая надежность 54 Статистическая независимость ре- зультатов 11 Статистическая теория принятия ре- шений 6 Статистические исследования в про- изводстве 16 Статистические критерии 23 Статистические методы 14 - - анализа экспертных оценок 15 - - в аналитической химии 17 - - в имитационном моделировании 15 - - контроля в аналитической химии 14 - - контроля качества в аналитиче- ской химии 18
Предметный указатель 263 - - повышения качества 16 Статистические пакеты 12 Статистические показатели 34 Статистический анализ 11 - - многомерный 11 - - нетрадиционные методы 17 Степени свободы 37 Стратификация 8 Схемы 6 - неполноблочные 6 - полноблочные 6 Теория планирования эксперимента 6 Титрование 74 - йодометрическое 95 - обратное 74 - потенциометрическое 95 Точность (прецизионность) анализа 7 - - геологических проб 16 Точность измерений 15 Точность метода 24 Управление качеством 16 - - продукции 16 Управление с обратной связью 10 Уравнение регрессии 166 - - адекватность 200 Фактор 184 - кодированный 199 - натуральный 199 - уровень 184 Факторный анализ 11 Факторный план 184 - - первого порядка 184 Фиктивная переменная 189 Фильтр 225 Фотометрия 71, 75 - ошибки 72 Функция - автоковариации (ФАС) 221 - автокорреляции (ФАК) 221 - кросс-ковариации (ККФ) 231 - кросс-корреляции 232 Функция анализа 172 Функция распределения 50 - - выбор 23 - - нормированная 50 - - эмпирическая 23 - - - проверка 23 Характеристика зависимостей 164 Хемометрия (хемометрика) 10, 12, 17 Холостой опыт 21, 105 Хроматография 5 Целевой показатель 184 Чебышева равенство 55 Чувствительность метода анализа 172 Экономия времени 23 Экспертные методы 6 - - оценки качества промышленной продукции 15 Экспертные системы 12, 18 Эксцесс 39, 40 Электролитический анализ 95 Эталон 7 Эффект фактора 184 - взаимодействия 187 - главный 187 Эффективность эксперимента 11 - - потери И
Оглавление Предисловие редактора перевода 5 Знак качества 5 1 Роль статистических методов на разных этапах анализа 5 2 Проблемы, трудности, новые горизонты 10 3 Проблемы внедрения 13 Литература 14 Предисловие 19 Использованные обозначения 20 Стандартные задачи 21 Характеристика методов анализа 21 Представление аналитических данных 21 Анализ следов 21 Обеспечение качества 22 Отбор проб (пробоотбор) 22 Межлабораторные работы 22 Экономия времени 23 Статистические критерии 23 Функции распределения 23 1 Виды ошибок в аналитической химии 24 Литература 28 Дополнительная литература 28 2 Эмпирические распределения частот 30 2 1 Обсуждение эмпирических распределений 30 2 2 Статистические показатели 34 2 2 1 Средние (значения) 34 2 2 2 Мера рассеяния (разброса) 36 2 2 3 Асимметрия и эксцесс 39 2 3 Двумерные распределения 40 Литература 45 Дополнительная литература 46
Оглавление 265 3 Теоретические распределения 47 3.1. Гауссово (или нормальное) распределение.................. 47 3.2. Распределение Пуассона .................................. 57 3.3. Специальные распределения................................ 60 3.3.1. /-распределение.................................... 60 3.3.2. F-распределение.................................... 60 3.3.3. у2-распределение................................... 61 3.4. Связь между отдельными распределениями................... 62 Литература.................................................. 63 Дополнительная литература..................................... 63 4 Закон сложения ошибок 64 4.1. Общие закономерности..................................... 64 4.2. Аналитические операции................................... 65 4.3. Гравиметрия ............................................. 67 4.4. Объемный анализ.......................................... 69 4.5. Фотометрия .............................................. 71 4.6. Косвенные методы ........................................ 74 4.7. Дискретные (счетные) методы.............................. 77 4.8. Пробоотбор............................................... 79 Литература.................................................... 83 Дополнительная литература..................................... 84 5 Случайные ошибки методов анализа 85 5.1. Вычисление стандартного отклонения....................... 85 5.2. Обсуждение............................................... 90 Литература.................................................... 96 Дополнительная литература..................................... 96 6 Характеристика данных анализа 97 6.1. Вычисление и обсуждение доверительного интервала......... 97 6.2. Принципиальные границы методов анализа ................. 104 6.3. Статистическая оценка качества............................ 107 Литература................................................... 113 Дополнительная литература...................................... 113 7 Статистические методы проверки гипотез 114 7.1. Принцип работы............................................ 114 7 2. Сравнение двух стандартных отклонений (F-критерий)... 116 7.3. Сравнение нескольких стандартных отклонений (Критерий Барт- летта) ...................................................... 119 7.4. Сравнение двух средних (/-критерий)..................... 121 7.5. Сравнение двух серий анализов..........,................ 125 7.6. Сравнение частот........................................ 129
266 Оглавление 7.7. Выявление грубых ошибок................................ 130 7.8. Проверка эмпирических распределений.................... 132 Литература.................................................. 136 Дополнительная литература................................... 137 8 Неоднородный числовой материал. Простой дисперсионный анализ 138 8.1. Случайная ошибка, возникшая вследствие более чем одной причи- ны ......................................................... 138 8.2. Разложение ошибок на составляющие...................... 140 8.3. Сравнение нескольких средних .......................... 146 8.4. Межлабораторные опыты.................................. 151 Литература.................................................. 157 Дополнительная литература................................... 157 9 Статистика прямых линий (Корреляционный и регрессионный анализ) 159 9.1. Проверка взаимозависимости двух переменных (Корреляционный анализ)..................................................... 159 9.2. Характеристика зависимостей (Регрессионный анализ) .... 164 9.2.1. Определение констант .......................... 164 9.2.2. Метод проверки................................... 169 9.2.3. Градуировка...................................... 172 9.2.4. Определение систематических ошибок............... 177 Литература.................................................. 182 Дополнительная литература................................... 183 10 Влияние нескольких переменных (Факторные эксперименты) 184 10.1. Полные факторные планы................................ 184 10.2. Дробные факторные планы Плаккетта и Бермана........... 189 10.3. Специфичность и селективность методов анализа......... 194 Литература.................................................. 197 Дополнительная литература................................... 197 11 Оптимизация (С. Арпадян) 198 11.1. Общие сведения о методе [1] .......................... 198 11.2. Статистическая оптимизация [2]........................ 198 Литература.................................................. 206 Дополнительная литература................................... 206 12 Дискретные временные ряды 207 12.1. Описание стохастических временных рядов............... 207 12.2. Выделение детерминированных компонентов............... 211 12.3. Корреляция внутри временного ряда................... 221
Оглавление 267 12.4. Корреляция между двумя временными рядами......... 229 12.5. Снижение затрат на контроль...................... 233 Литература............................................. 237 Дополнительная литература.............................. 238 Заключительные замечания 239 Приложение 240 Словарь терминов. Немецкий — английский — русский 253 Предметный указатель 258
Учебное издание Клаус Дёрффель Статистика в аналитической химии Заведующий редакцией академик О. А. Реутов Зам. зав. редакцией канд. хим. наук Т. И. Почкаева Ведущий редактор И. С. Беленькая Художник М. Н. Кузьмина Художественный редактор Н. В. Зотова Технический редактор О. Г. Лапко Корректор С.,А. Денисова Оригинал-макет подготовлен И. В. Терешкиной в пакете lATgK с использованием кириллических шрифтов, разработанных в редакции АИП издательства «Мир» ИБ № 8149 Лицензия Л.Р № 010174 от 22.01.92 Подписано к печати 29.07.94. Формат 70 х 100/16. Бумага офсетная. Печать офсетная. Объем 8,50 бум. л. Усл.-печ. л. 22,10. Усл. кр.-отт. 22,75. Уч.-изд. л. 19,40. Изд. Л- 3/9193. Тираж 5000 экз. Заказ 2318. С040 Издательство «Мир» Комитета Российской Федерации по печати. 129820, Москва, 1-й Рижский пер., 2. Московская типография № 5 Комитета Российской Федерации по печати. 129243, Мос