Текст
                    ★ МАТЕМАТИЧЕСКАЯ СТАТИСТИКА ДЛЯ ЭКОНОМИСТОВ *
Ю. Г. Королев
МЕТОД
НАИМЕНЬШИХ КВАДРАТОВ
В СОЦИАЛЬНО-
ЭКОНОМИЧЕСКИХ
ИССЛЕДОВАНИЯХ

♦МАТЕМАТИЧЕСКАЯ СТАТИСТИКА ДЛЯ ЭКОНОМИСТОВ# Ю.Г.Королев МЕТОД НАИМЕНЬШИХ КВАДРАТОВ В СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ИССЛЕДОВАНИЯХ МОСКВА «СТАТИСТИКА» 1980
ББК 22.172 К68 Редколлегия серии «Математическая статистика для экономистов»: А. Я. Боярский, И. Г. Венецкий, Н. К- Дружинин, А. М. Дубров, Ю, Н. Тюрин Королев Ю. Г. К68 Метод наименьших квадратов в социально-эко- номических исследованиях. — М.: Статистика, 1980. — 112 с., ил. — (Мат. статистика для эконо- мистов) . 60 к. Показываются особенности применения метода наименьших квад- ратов для обработки данных наблюдений в исследовании социально- экономических явлений. Многочисленными примерами иллюстрирует- ся использование этого метода для решения парных и множествен- ных уравнений регрессии при обработке одномерных и многомерных динамических рядов. Для экономистов, статистиков,, научных и практи- ческих работников, преподавателей и аспирантов. 10805—138 К ------------25—80 1702060000 008(01)—80 ББК 22.172 517.8 Изддтел&ство «Статистика», 1989
ОГЛАВЛЕНИЕ ВВЕДЕНИЕ ........................................... ГЛАВА 1. Условия применения метода наименьших квадратов к обработке социально-экономической ин- формации............................../.............. 1.1. Общие замечания........................... 1.2. Качественное описание совокупности данных . . . 1.3. Количественное описание совокупности данных 1.4. Метод наименьших квадратов как вычислительный прием.......................................... ГЛАВА 2. Метод наименьших квадратов как способ об- работки уравнений регрессии.......................... 2.1. Обработка методом наименьших квадратов пар- ной регрессии.................................. 2.2. Метод наименьших квадратов и полиномы Чебы- шева .......................................... 2.3. Обработка методом наименьших квадратов мно- жественной регрессии .......................... 2.4. Метод наименьших квадратов и матричные мето- ды анализа регрессии........................... 2.5. Анализ регрессионных моделей большой размер- ности ......................................... ГЛАВА 3. Метод наименьших квадратов в обработке рядов динамики....................................... 3.1. Обработка одномерных динамических рядов ме- тодом наименьших квадратов..................... 3.2. Применение метода наименьших квадратов при обработке связанных рядов динамики............. ГЛАВА 4. Корреляционный анализ (измерение тесноты связи)............................................... 4.1. Общие замечания........................... 4.2. Собственно-кор реляционные методы измерения тесноты связи ................................. 4.3. Непараметрические методы оценки тесноты связи 4.4. Измерение тесноты связи между рядами дина- мики .......................................... ЛИТЕРАТУРА ......................................... 4 6 6 7 13 20 26 26 32 37 46 61 70 70 82 107 111
ВВЕДЕНИЕ Социально-экономическая статистика, изучающая коли- чественную сторону массовых общественных явлений в не- разрывной связи с их качественной стороной, занимает в системе наук особое положение. Это объясняется тем, что, с одной стороны, статистические методы исследования используются многими другими науками (политической экономией, социологией и т. д.), а с другой — статистика сама выступает как потребитель по отношению к ряду об- щественных и естественных наук (марксистско-ленинская философия, теория вероятностей, математическая. стати- стика и т. д.). Такое положение можно объяснить необы- чайной широтой области познания социально-экономиче- ской статистики, которая наряду с изучением обществен- ной деятельности людей изучает естественное движение на- селения, влияние на человечество окружающей среды и природных ресурсов, а также обратное влияние человече- ской деятельности на природу и последствия этого. Мето- дом изучения взаимосвязей между явлениями является кор- реляционный и регрессионный анализ, в основе которого лежит метод наименьших квадратов. Метод наименьших квадратов, разработанный Гауссом и Лежандром в начале прошлого столетия, с успехом при- меняется в настоящее время для обработки эксперимен- тальных данных в самых различных отраслях знаний, в том числе и для обработки результатов наблюдений в социально- экономической статистике. Основная идея метода наимень- ших квадратов заключается в «минимизации убытка» от за- мены опытных (эмпирических) данных теоретическими, т. е. данными, полученными в результате решения урав- нения. Необходимость прибегать к такого рода замене появляется в силу того, что, как бы тщательно ни проводи- лись измерения, в них неизбежно будут присутствовать ошибки [1, 14]. Если нанести множество опытных данных (точек) на график, то линия, наиболее полно отражающая закономер- ность этого множества данных, может быть построена по 4
методу наименьших квадратов и будет называться линией регрессии. Эта линия обладает тем свойством, что откло- нения опытных данных от данных, полученных по методу наименьших квадратов, минимальны. Метод наименьших квадратов известен как способ оп- ределения параметров уравнений регрессии, в результате применения которого минимизируется сумма квадратов отклонений величин, полученных по данным наблюдения, от соответствующих оценок, полученных по уравнению связи. Методу наименьших квадратов и его применению к об- работке результатов наблюдений посвящены фундаменталь- ные работы [14, 21, 27]. В них рассмотрены теоретические основы метода, его математико-вероятностная сущность, возможности и условия использования для обработки ре- зультатов наблюдений в различных областях знаний. Воп- росам практики применения метода наименьших квадратов для решения уравнений регрессии отведены большие раз- делы в монографиях [10, 25, 28]. В предлагаемой читателю работе освещаются особен- ности применения метода наименьших квадратов для об- работки данных статистического наблюдения в социально- экономическик исследованиях. Работа иллюстрирована боль- шим количеством примеров, характеризующих использо- вание метода наименьших квадратов для решения парных и множественных' уравнений регрессии, применение этого метода к обработке одномерных и многомерных динамиче- ских рядов; показана связь метода наименьших квадратов и корреляции — измерения тесноты связей между социаль- но-экономическими явлениями; подчеркнуто значение пред- Кварительного анализа исследуемой статистической совокуп- ности и основных предпосылок, определяющих теоретиче- скую обоснованность применения метода в исследованиях. Указывая на значение метода наименьших квадратов, автор одновременно показывает, что применение метода приводит к потере некоторой части исходной информации, связанной с исключёнием коллинеарно-связанных и мало- значимых факторов, последнее приводит к построению регрессионных уравнений, неадекватно отражающих связи между исследуемыми явлениями. В связи с этим в работе рассматриваются элементы компонентного анализа и кано- нической корреляции, расширяющих область применения метода наименьших квадратов без потери какой-либо части исходной информации.
Г лава 1 УСЛОВИЯ ПРИМЕНЕНИЯ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ К ОБРАБОТКЕ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОЙ ИНФОРМАЦИИ 1.1. ОБЩИЕ ЗАМЕЧАНИЯ Среди множества методов, созданных стати- стикой для обработки различных экспериментальных дан- ных, наибольшее распространение получил метод наимень- ших квадратов в силу сравнительной простоты вычисли- тельных процедур, реализуемых с помощью ЭВМ. В соци- - ально-экономической статистике в основном используются официальные данные государственной статистики, данные министерств и ведомств, характеризующие развитие народ- ного хозяйства, его отраслей, культуры, здравоохранения и т. д. Иногда считают, что полученные статистические данные несут в себе неточности, связанные с методологией исчисления синтетических показателей, таких, как произ- водительность труда, рентабельность и т. д. Но эти неточ- ности никоим образом не отражаются на результатах, по- скольку методология исчисления этих показателей является общепринятой. Эти неточности можно назвать ошибками упрощения. Возникают они как следствие таких причин: 1. Мысленной остановки непрерывного процесса про- изводства, его формализации в дискретные моменты вре- мени. В. И. Ленин писал: «Мы не можем представить, выразить, смерить, изобразить движения, не прервав не- прерывного, не упростив, угрубив, не разделив, не омерт- вив живого. Изображение движения мыслью есть всегда огрубление, омертвление, — и не только мыслью, но и ощу- щением, и не только движения, но и всякого понятия»1. % Неполноты охвата, потому что иногда часть единиц изучаемой совокупности по тем или иным причинам не мо- 1 Л е и и н В. И. Поли. собр. соч., т. 29, с. 233. 6
жет быть включена в исследование. Например, при анализе работы предприятий часто исключаются предприятия, про- работавшие неполный год, использующие импортное обо- рудование и т. д. 3. Неполноты учета факторов, воздействующих на то или иное социально-экономическое явление. Эти ошибки возникают потому, что ни в одно уравнение, ни в одну модель нельзя включить бесконечное число факторных признаков; обычно отбирается только часть их, причем практически отбор носит чисто субъективный характер. 4. В силу характера выбранного уравнения связи. Как бы хорошо уравнение ни было обосновано, как бы теорети- чески адекватно ни описывало исследуемое явление, оно не может был» его точным аналогом. Любую статистическую совокупность, полученную в ре- зультате наблюдения, сплошного или выборочного, прежде чем обработать методом наименьших квадратов, необ- ходимо предварительно теоретически проанализировать. Предварительный теоретический анализ представляет ис- следование исходных данных и должен раскрыть внутри- системное содержание совокупности. Такой внутрисистем- ный анализ включает качественное и количественное опи- сание совокупности. Экономист или социолог, который использует метод наименьших квадратов для анализа социально-экономи- ческих явлений и процессов, должен учитывать, что при- меняет этот метод для исследования реальных статистиче- ских данных, т. е. реальных качественно-определенных по- казателей, выражающих реальные объемы производства, реализации, затрат и т. д., а следовательно, ирреально существующие пропорции и связи. Таким образом, применяя метод наименьших квадратов для обработки данных социально-экономической стати- стики, всегда следует помнить о двух сторонах, выража- ющих сущность статистических показателей: качественной и количественной. 1.2. КАЧЕСТВЕННОЕ ОПИСАНИЕ СОВОКУПНОСТИ ДАННЫХ Если обработке подвергается совокупность ста- тистических данных, полученных без участия исследова- теля, то в отдельных случаях необходима их критическая оценка. Критическая оценка начинается с выяснения, кем 7
и когда получены исходные данные, какие материалы пред- ставлены: первичные или вторичные, расчетные, обобщаю- щие? Самыми надежными являются данные государствен- ной статистики, публикуемые в статистических сборниках, в периодической печати (об итогах выполнения государст- венных планов социального и экономического развития, по результатам различных единовременных учетов, переписей и др.). Данные многочисленных социологических исследований необходимо проверять особенно тщательно. Если в иссле- довании используются данные буржуазной статистики, то они должны подвергаться обязательно критической оценке, при этом необходимо, если это возможно, выяснить полноту охвата, качество, достоверность, пригодность их для целей исследования, детально проанализировать весь процесс получения исходных данных, т. е. ознакомиться с програм- мой наблюдения, организацией, видом и способом наблюде- ния, установить репрезентативность данных, определить величину ошибки и т. д. Критическая оценка исходных данных включает также оценку каждого элемента совокупности с точки зрения соответствия его понятию единицы наблюдения. Большое значение для последующей успешной обработки данных имеет установление однородности, однотипности единиц, входящих в исследуемую совокупность. Состав исходной совокупности может быть гомогенным, т. е. содержать однотипные единицы, и гетерогенным, т. е. содержать разнотипные единицы. Понятие однородность означает близость основного свойства, качества единиц со- вокупности, их типичность. В. И. Ленин неоднократно подчеркивал, что сравнению могут подлежать лишь одно- родные величины, принадлежащие одной, качественно- определенной совокупности явлений. Критикуя земских статистиков за то, что в их работах сравнивались разно- родные типы крестьянских хозяйств, В. И. Ленин писал: «... главной причиной путаницы было то, что сравнивались хозяйства неоднородные, поставленные в различные обще- ственные условия, отличающиеся по самому типу ведения хозяйства; сравнивались, напр., хозяйства, в 'которых доход извлекается посредством производства сельскохозяй- ственных продуктов, с хозяйствами, в которых доход из- влекается эксплуатацией нужды других хозяйств в земле...»1. 1 Л е н и.н В. И. Поли. собр. соч., т. 1, с. 25. 8
Однородность единиц формируется под воздей- ствием внутренних причин и условий. Одинаковые для всех единиц совокупности причины и условия су- ществования создают то общее, что объединяет еди- ницы совокупности, но эти же причины и условия формулируют их сущ- ность, т. е. то, что от- личает, одну единицу со- вокупности- от другой. Обязательным условием Таблица 1.1 Урожайность риса, ц с га Число участков До 20 2 20—30 14 30—35 14 35—40 20 40—45 23 45—50 15 50 и выше 12 Итого 100 существования статистической совокупности является наличие вариации признака у еди- ниц совокупности. Вариация — это количественное из- менение признака. Вариация появляется под воздействием случайных, прежде всего внешних причин. Это, например, колебания размера и веса деталей при обработке на станке, колебания уровня урожайности сельскохозяйственных куль- тур на отдельных участках (см., например, табл. 1.1). Причины, порождающие вариацию социально-эконо- мических явлений, очень сложны и многообразны. Они лежат в коренных особенностях исследуемого явления, в его сущности, в его социально-экономической принад- лежности. Целесообразная деятельность людей, объеди- ненных в коллективы, под влиянием самых разнообразных факторов создает вариацию уровня дохода, рентабельности производства продукции и т. п. в этих коллективах. Для примера приведем группировку колхозов по размеру валового дохода на ТОО га пашни в 1976 г. (табл. 1.2) и группировку промышленных предприятий по объему ва- ловой продукции 'за 1975 г. (табл. 1.3). Социально-экономические явления, как правило, об- ладают большой вариацией. Это, например, численность работающих на предприятиях в пределах отрасли, поголовье скота в пределах совхозов одного направления. Если исследуются результаты целенаправленной чело- веческой деятельности, то вариация будет отражать вме- шательство многочисленных нарушающих факторов, при- роду которых в отдельных случаях невозможно установить. Например, в распределении городов СССР по числу жителей на январь 1973 г. (см. табл. 1.4) вариация скла- 9
Таблица 1.2 Число колхозов, в процентах к итогу Всего колхозов из них колхозов, имеющих валовой доход в расчете на 100 га пашни: до 1 тыс. руб. свыше 1 до 5 тыс. руб. свыше 5 до 10 тыс. руб. свыше 10 до 15 тыс. руб. свыше 15 до 20 тыс. руб. свыше 20 до 30 тыс. руб. свыше 30 до 40 тыс. руб. свыше 40 тыс. руб. 100 1,0 4,2 12,9 13,5 12.0 19,3 12,7 24,4 Таблица 1.3 Предприятия, состоящие на самостоятельном балансе (без электростанций, электросетей и теплосетей) в том числе с объемом валовой продукции, тыс. руб.: до 100 101—500 501—1 000 1 001—5000 5001—10000 10 001—50 000 50001—100000 100001 и более Число предприятий, в процентах к итогу 100 6,0 13,1 12,5 36,8 12,9 14,5 2,3 1,9 дывается под влиянием большого числа факторов: исто- рических, географических, экономических, социальных й множества других, сущность которых не всегда удается вы- явить. Однако во всех случаях вариацию следует изучать и из- мерять, поскольку показатели вариации дают не менее важ- ную информацию, чем другие показатели, в частности сред- няя величина. Показатели вариации показывают, как груп- пируются значения признака вокруг средней. Они исполь- зуются для характеристики упорядоченных статистических совокупностей: группировок, классификаций, рядов рас- пределений. К показателям вариации относятся размах вариации, среднее квадратическое отклонение, коэффициент вариации. Они являются одновременно и мерами однородности сово- купности. Однако социально-экономические явления об- 10
Таблица 1.4 Число жителей, Число тыс. чел. городов До 10 410 10—20 561 20—50 564 50—100 207 100—500 201 500 и более 35 Итого 1978 ладают большей колебле- мостью, чем явления фи- зические, биологические, и поэтому для первых ве- личина показателей вариа- ции не всегда может ха- рактеризовать степень од- нородности. Так, при по- строении отраслевых ста- тистических моделей одно- родными могут' считаться предприятия по таким ка- чественным признакам, как единство подчиненности, единство технологических про- цессов, однотипность выпускаемой продукции, хотя ко- личественно вариация других признаков может оказаться весьма высокой. Формирование однородной совокупности социально-эко- номических явлений — сложный. и трудоемкий процесс. Исследуя такие явления, необходимо опираться на те от- расли знаний, предметом изучения которых являются различные стороны общественной жизни: исторический материализм, политическая экономия, социология, эко- номика отраслей народного хозяйства и т. д. Знание конкретной отрасли исследования позволяет сформировать систему показателей, выявить основные из них, вскрыть взаимосвязи между отдельными явлениями, факторами. Основой качественного анализа является выяв- ление причинно-следственных связей, оценка силы воздей- ствия отдельных факторов на результаты хозяйственной деятельности. Коэффициенты корреляции, которые харак- теризуют силу воздействия, даже будучи весьма близкими к единице, еще не дают ответа о наличии связей. Эти связи могут оказаться ложными вследствие допущенных логи- ческих ошибок при формировании рядов исходных данных. Изучением проблемы ложной корреляции занимались такие известные советские статистики, как Б. С. Ястрем- ский, Н. С. Четвериков и др. Хотя теория ложной корре- ляции еще достаточно не разработана, но основные причины, способствующие появлению ложной корреляции, обосно- ваны [38]. Связи могут оказаться ложными когда: 1) обрабатываемые статистические ряды построены на данных, взятых из совокупностей с разными законами рас- пределения; 11
2) обрабатываются динамические ряды, имеющие ярко выраженные тенденции; 3) статистические ряды построены на данных, взятых из разнородных совокупностей; 4) обрабатываются ряды относительных величин, при- чем все относительные величины получены, как отношения к одной и той же величине; 5) обрабатываются статистические ряды, содержащие ошибки наблюдения, т. е. в случях, когда исходные данные не были критически оценены. Проведению действенной качественной оценки исследу- емой совокупности способствует овладение навыками аб- страктно-логического мышления,-ибо, как писал К. Маркс: «... при анализе экономических форм нельзя пользоваться ни микроскопом, ни химическими реактивами. То и другое должна заменить сила абстракции» Всякая абстракция отражает конкретное только в глав- ном, основном, существенном, т. е. теми свойствами, ко- торые показывают качественную определенность явлений. Метод восхождения от абстрактного к конкретному от- крывает общее направление исследования. Другие методы познания в той или иной степени используют методологию восхождения от абстрактного к конкретному на определен- ных стадиях исследования. Метод наименьших квадратов, применяемый для исследования социально-экономических явлений, опирается на способ абстракции уже на первой своей стадии—наблюдении. Включение в программу вопро- сов, ответы на которые раскрывают существенные свойства единиц наблюдения, уже приводит к абстрагированию от многих малозначащих признаков с точки зрения постав- ленной задачи исследования. Абстракция возрастает на последующих Стадиях и особенно на стадии обработки мо- Хделей методом наименьших квадратов. Использование ме- тода абстракции в конечном итоге приводит к выявлению реально существующих связей и взаимозависимостей между социально-экономическими явлениями. Особенно широко следует применять различные приемы и методы, выработанные экономической наукой с целью выявления резервов для перевыполнения народнохозяй- ственных планов. Так, при анализе экономических показа- телей, характеризующих итоги работы определенной отрас- ли, необходимо сравнивать эти показатели с плановыми, ‘Маркс К., Энгельс Ф. Соч., т. 23, с. 6. 12
показатели работы передовых предприятий с показателями отстающих, обязательно проводить сопоставления с итогами за прошлые периоды времени. Указывая на важность таких сравнений, В. И. Ленин писал: «Все помещаемые стати- стические данные гораздо строже, т. е. заботливее, тща- тельнее систематизировать, всегда добиваясь данных для сравнения, всегда приводя данные за прошлые годы (ме- сяцы и т. п.), всегда подбирая материал для анализа, для объяснения причин неуспеха, для выделения тех или иных успевающих или хотя бы опережающих осталь- ные предприятия и т. д.»1. 1.3. КОЛИЧЕСТВЕННОЕ ОПИСАНИЕ СОВОКУПНОСТИ ДАННЫХ Количественное описание социально-экономи- ческих явлений основано на широком использовании таких статистических методов, как метод группировок, метод относительных и средних величин, индексный метод. » Наиболее действенным методом количественного опи- сания социально-экономических явлений являются ста- тистические группировки, т. е. расчленение явления по какому-либо существенному признаку. В исследовании социально-экономических явлений применяются три вида статистических группировок: типологические, структур- ные и аналитические. С помощью типологических группировок выявляются социально-экономические типы и однородные по существен- ному признаку группы. Научная ценность типологических группировок определяется тем, насколько правильно вы- бран группироврчный признак. Если группировочный признак выбран правильно, то группировка может выразить социально-экономическую сущность явления. С помощью структурных группировок может быть вы- явлена структура изучаемого явления. Так, в экономических исследованиях широко применяются структурные группи- ровки предприятий по степени выполнения плана, по раз- меру основных производственных фондов, численности работающих и т. д. С помощью аналитических группировок выявляется характеристика взаимосвязей между явлениями. Анали- тические группировки в сочетании с относительными и х Л е н и н В. И-. Поли. собр. соч., т. 44, с. 113. 13
средними величинами помогают раскрыть степень влияния одних факторов на другие. Недостатком метода группировок является то обстоя- тельство, что при анализе сложных социально-экономиче- ских явлений строятся весьма сложные комбинированные таблицы, а это приводит к тому, что действительные зако- номерности затушевываются. Относительные величины являются простейшими обоб- щающими показателями, которые характеризуют числовую меру соотношений двух сопоставляемых величин. С по- мощью относительных величин можно характеризовать вы- полнение народнохозяйственных планов, определять тем- пы развития социально-экономических явлений во времени, структуру явлений и т. д. Средние величины являются обобщающей характери- стикой массовых, качественно однородных социально-эко- номических явлений. Наиболее употребительные средние величины: арифметическая, гармоническая, геометрическая. Средние величины, вычисленные за ряд периодов времени^ показывают закономерности развития явлений, выявляют устойчивость изучаемых явлений. Правильное применение средних величин возможно только в сочетании с методом группировок. Недостаток средних величин как обобщающих показа- телей заключается в том, что в них сглаживаются количест- венные различия изучаемых социально-экономических яв- лений, на основании средней величины нельзя судить о характере распределения значений признака в совокуп- ности. • Индексы широко применяются в практике статистиче- 'ских исследований социально-экономических явлений для изучения степени влияния факторов, структуры и струк- турных сдвигов, для характеристики соотношений сред- них уровней и т. д. Вышеперечисленные методы носят название описатель- ных (дискрептивных) и наряду с качественным анализом помогают устанавливать и выявлять причинно-следствен- ные связи между социально-экономическими явлениями. Однако применение только этих методов не может полностью решить задачу исчерпывающего познания сложных про- цессов и явлений в силу особенностей этих явлений. Эти особенности заключаются в том, что тенденции и за- кономерности социально-экономических явлений и про- цессов могут проявляться только в массовых данных. Им 14
свойственна некоторая неопределенность, случайность, ко- торая объясняется тем, что каждое явление зависит от боль- шого числа факторов как прямых, так и косвенных. Со- циально-экономические явления связаны со многими други- ми явлениями: как социальными, так и природными, био- логическими, механическими и т. д., с их многогранными переплетениями. Все это создает некоторую неопределен- ность, случайность проявления социально-экономических явлений. Специфика статистических методов исследования, в ос- нове которых лежит метод наименьших квадратов (регрес- сионного, дисперсионного, факторного), состоит в том, что обнаруженные связи и зависимости обосновываются не как жестко детерминированные, а устойчивые только на оп- ределенный момент времени и при определенных условиях с той или иной степенью вероятности. Анализируя много- численные статистические данные о явлениях и процессах общественной жизни, можно обнаружить связь между характеристиками социально-экономической статистики и понятиями вероятностными [24, 36]: понятию относительной частоты (частости) — 1), широко исполь- зуемому в социально-экономической статистике, соответ- ствует понятие вероятности Pt (2Pt — 1), понятию средней арифметической ~х — —понятие математического ожи-. Дания Мх и др. Связь эта находит свое выражение в законе больших чисел. Практика показывает, что многие социаль- но-экономические явления и процессы проявляются на ос- новании закона больших чисел. Под законом больших чисел в социально-экономической статистике понимают форму проявления общей закономерности массовых об- щественных явлений. Предельные теоремы закона боль- ших чисел объясняют формирование и некоторых законов распределения, в том числе нормального. При строго нормальном распределении для некоторой величины х ее плотность распределения определяется урав- нением: “ . “ -(х-аУ I f (х) dx =------ I е 2а* dx = J <т /2ii J 1 а У 2л 00____ (е 2 dx = 1. —со 15
Если учесть, что значения величины х могут находиться в пределах от — t до t, то lim Р • л->оо , е 2 <й = Ф(Л, /2^ ' где п — число всех случайных величин; 1 « — 2 Х( — средняя арифметическая всех случайных ве- " 1=1 личин; — 2 at — средняя арифметическая их математических п ожиданий. Эта теорема, доказанная А. М. Ляпуновым в 1900 г., наиболее полно, в обобщенной форме, выражает основную идею закона больших чисел. Следовательно, количественное описание статистической совокупности в зависимости от целей и задач исследования может включать определение вероятности события или его частоты, группировку исходных данных и на ее основании расчет статистических характеристик: относительных и средних величин. Группировка позволяет установить нали- чие связей, а также характер и направление их, а расчет средних величин и показателей вариации дает возмож- ность оценить репрезентативность данных. Наиболее сложной и важной задачей количественного описания совокупности является проверка закона распре- деления признака в ней. В зависимости от этого в дальней- шем для обработки результатов наблюдения применяется тот или иной математико-статистический метод. Проверка закона распределения должна заключаться в самом тщательном анализе условий получения исходной информации [23, 24]. В социально-экономической стати- стике обычно проверяют, подчиняются ли исходные данные нормальному закону распределения (проверяют основную гипотезу), причем начинают с проверки закона распре- деления каждого показателя. В качестве оцениваемых параметров используются центральные моменты третьего и четвертого порядков, показатели асимметрии и эксцесса. 16
Таблица 1.5 Занятость женщин до- машним хо- зяйством, часов в неде- лю Число женщин fi Центр интервала xi Xi~ 2 XI-ti xi *fi 8—10 49 9 —3 —147 441 10—12 106 11 —2 —212 424 12—14 183 13 —1 —183 183 14—16 261 15 0 0 0 16—18 227 17 1 227 227 18—20 119 19 2 238 476 20—22 17 21 3 51 153 22—24 38 23 4 152 608 Итого 1000 126 2 512 Если распределение нормально, то р,8 *= О, = Зо4, а показатели асимметрии А = = 0 и эксцесса Е = -^—3. Суждение о нормальности распределения можно вы- нести и на основании дисперсий показателей асимметрии и эксцесса. При | А | 3 V& (Л) и |Е| 5 J/D (Е) нормаль- ность распределения подтверждается. При большом объеме данных близость к нормальному распределению определяется с помощью критериев согла- сия. Рассмотрим на примере применение критерия Пир- сона х2 (хи-квадрат). Этот критерий может применяться в случае, когда количество наблюдений в каждой выделен- ной группе не менее пяти (ft 5). Если для исходного распределения не известны основ- ные параметры х и оа, их определяют по результатам вы- борки, и в этом случае число степеней свободы уменьшают на количество вычисленных параметров. Критическая область для х2-критерия является односторонней и при уровне зна- чимости, равном а, определяется следующим выражением: где f — частоты эмпирического (исходного) распределения; — теоретические частоты. Пример. При выборочном обследовании занятости женщин домашним хозяйством было получено следующее распределение (табл. 1.5). 17
Выдвигается гипотеза Но о том, что распределение данного признака подчиняется нормальному закону распре- деления. _ По данным распределения рассчитаем х, о8, о (исполь- зуя упрощенные методы расчета): *=7^-2+15~15’3;i о2 = 4 Г251L _ (о, 126)2] « 9,736; L 1 ооо * 4 ' J а = 3,1. Вычисляем теоретические частоты fi (табл. 1.6). Опре- деляем рритерий %2 (табл. 1.7).J Таблица 1.6 Занятости женщин до- машним х >- зяйствоу. часов в неделю а—Ь Число женщин ? i . а—15,3 3.1 t ^6-15»3 ’ 3,1 ф«») ф«») 2 2 X1I 8—10 49 —2.40 —1,70 0.0371 38 10—12 106 —1,70 —1,06 0,1000 100 12—14 183 —1,06 —0,42 0,1937 194 14—16 261 —0,42 0,23 0,2549 255 16—18 227 0,23 0,90 0,2264 227 18—20 119 0,90 1,52 0,1213 122 20—22 17 1,52 2,16 0,0491 50 22—24 38 2,16 2,80 0,0130 14 1000 Итого 1 000 Таблица 1.7 h fZ fi-fZ GHZ)2 U-fZ)2 fi 49 38 11 121 3,18 106 100 6 36 0,36 183 194 —11 121 0,61 261 255 6 36 0,14 227 227 0 0 0 119 122 — 3 9 0,07 17 50 —33 1089 21,1 38 14 24 576 41,1 66,56 Итого 1 000 18
Табличное значение Ха в 13,46. Так как X* > Ха (66,56 > 13,46) гипотеза Но о нормальности распределения частот отвергается. Следует отметить, что исходное распределение частот в данной задаче по внешнему виду вполне соответствовало распределению частот при нормальном законе распреде- ления. Однако известное утверждение о том, что в различ- ных областях знаний законы распределений частот прояв- ляются по-разному, в данном исследовании подтвердилось. Наконец, при проверке закона распределения исходных данных можно воспользоваться критерием х (каппа), который вычисляется на основании показателей асиммет- рии и эксцесса: = Л(Е+3)» 4(4Е— ЗЛ)(2Е — ЗА — 6) ’ По величине критерия % определяют, к какому типу кривых Пирсона относится данное распределение. Каждый из семи типов кривых может при непрерывном изменении параметров перейти в нормальную кривую. Следовательно, если распределение признаков в изучаемой совокупности относится к первым семи типам кривых Пирсона, то с не- которыми оговорками возможны те же приемы их анализа, что и при нормальном распределении. Иногда на практике, при проверке основной гипотезы используют свойства нормального распределения. Извест- но, что нормальное распределение является симметричным, и с помощью таблицы функции распределения можно опре- делить, что интервалу1 ta соответствуют вероятности: Р = 50% при t 0,7; Р — 68% при t = 1; Р 95% при t »= 2; Р = 99,7% при I = 3. Следовательно, всякий раз, когда эмпирические распре- деления будут относительно симметричными и содержать в интервале х + ta доли наблюдений, близкие к теорети- ческим, можно делать предположение о нормальности за- кона распределения. 1 Величина t показывает, сколько среднеквадратических от- клонений отделяет величину от ее среднего значения. 19
При многомерных распределениях проверяется гипо- теза о нормальности частных распределений. Если частные распределения нормальны, то многомерная функция + агх* + ••• + ОпХп также будет распределена по нормальному закону со средним значением арл + + + ... + ОпХп и дисперсией arf + а2ст| 4- ... + апОп- Однако распределение признаков, характеризующих социально-экономические явления и процессы, не всегда бывает нормальным, и в этом случае последующее при- менение статистических приемов обработки, в том числе и метода наименьших квадратов, становится затруднитель- ным или вообще невозможным. В ряде случаев исходные распределения можно нормализовать [15, 24]. Одним из способов нормализации является замена исходных величин их логарифмами. В этом случае распределение будет на- зываться логарифмически-нормальным. Положим, и = In х (или х — е“), тогда плотность распределения -(и-ик)а f(u) =-------е 2а“ ; аиУ2л -(In *-цц)2 ха и У 2л, Получив с помощью формул логарифмически-нормаль- ного распределения все необходимые результаты для 1пх, можно затем вернуться к исходным величинам. Предварительный анализ, включающий две стадии опи- сания совокупности, подкрепляет теоретическую обосно- ванность применения метода наименьших квадратов, поз- воляет в дальнейшем при использовании методологии кор- реляций и регрессий углубиться в сущность изучаемых связей и во многих случаях приводит к выявлению ранее неизвестных соотношений между исследуемыми явлениями. 1.4. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ КАК ВЫЧИСЛИТЕЛЬНЫЙ ПРИЕМ Основной принцип метода наименьших квадратов рассмотрим на следующем примере [1,311: будем считать, что две величины (два показателя) х и у взаимосвязаны. Причем у находится в некоторой зависимости от х. Сле- довательно, у будет зависимой, а х — независимой величи- 20
ной. Пусть связь между ними криволинейная, описывается уравнением параболы второго порядка у = а0 + ахх + а^. Задача сводится к отысканию неизвестных параметров «0» ^1» ^1* Значения величин х и у представлены двумя рядами данных: У1 Уз Уз yN Х2 Х8 ... XN Если бы все значения, полученные по данным наблю- дения, лежали строго на кривой, описываемой уравнением параболы, то для каждой из точек было бы справедливо следующее равенство: Vi — ао — a^Xi — a2xt = 0. Однако на практике имеет место другое равенство: У1 — «о — аж — a2xi = Дь т. е. существует разность Д< между данными наблюдения и данными, полученными по уравнению связи. Эта раз- ность и возникает вследствие' наличия ошибок упрощения. Задача заключается в том, чтобы найти такие коэффи- циенты уравнения (регрессии), чтобы ошибка была мини- мальной. Можно минимизировать сумму абсолютных откло- нений (ошибок): N s= 2 |Дг|=>тт i=* 1 или минимизировать сумму кубических ошибок (метод наименьших кубов): N s = 2 IД? I =* min i= 1 или, наконец, минимизировать наибольшую абсолютную ошибку: min max | Дг |. Однако наиболее оптимальной является оценка ошибки по методу наименьших квадратов: N S = у Д| => min. i _ । 21
Метод наименьших квадратов обладает тем замечатель- ным свойством, что число нормальных уравнений равно числу неизвестных параметров. Приведенное выше урав- нение параболы второго порядка имеет три неизвестных параметра а0, аъ а2. Минимизируя сумму N N S= 2 А? == 2J (yt—a0—aixt~а2х1У^-min, I = 1 /=я 1 мы получим три уравнения. Для нахождения значений неизвестных параметров необходимо приравнять частные производные указанной суммы по этим параметрам к нулю: = — 22 (у—а0—й! х—а2 х2) = 0; Wo — —22 (у—ай—OiX—а2х2)х = 0; = —22(г/—а0—ахх—a2xs)xi=^0. Проделав простейшие преобразования, получим си- стему из трех уравнений, которую называют системой нор- мальных уравнений: Na0 + аг 2х 4- а2 2х2 = 2 у; • а6 2х + 2х2+а2 Бх8 = 2//х; а0 2х2 + Oi Бх8 +а2 Бх4 = Бух2. Решив систему, найдем значения а0, alt а2 и получим уравнение регрессии. Вычислим по уравнению регрессии теоретические значения ух и сравним их с данными наблю- дения, рассчитав так называемую остаточную сумму квад- ратов (табл. 1.8). Остаточная сумма квадратов должна совпадать с ми- нимальной возможной величиной, рассчитанной по методу наименьших квадратов. Рассмотрим случай, когда исследуемая величина (пока- затель) у зависит от многих других величин хх, х2, ..., хп. В случае когда зависимость линейная, связь между вели- чинами описывается уравнением: #1.2... л=Оо 4-01X14-О2*2 "Ь • •• ап хп» 22
Таблица 1.8 Номер иаблюде* НИЯ Значения у по данным наблюдения Значения у по данным уравне- ний регрессии Д? 1 У1 2 Уг N УЛ- У*ы SA? следовательно, при методе наименьших квадратов мини- мизируется выражение: w 5=2 {У1.2... n—a0—a1x1—a2x2—...—anxn)* 1 2 * * * * * В=>min. 1 Поочередно приравниваются к нулю частные производ- ные по параметрам а0, а2, ...» Од, т. е. -^-=0; -^-= 0;=0. da0 dat дап Например, по параметру ах: -^-=S2(y—а0—OiXx—а2х2—...—апхп) (—хх) = 0. Отсюда —22г/хх 4- 2 а9^Х! + 2 ах 2х? 4- 2аа2х2хх 4- — 4- • 4- 2 ап2хххп “ О или а02хх 4- ах2х? 4- аа2х!Ха 4- ... 4- ав2хххв = 2ухх. В результате таких преобразований по всем параметрам at получаем систему из п нормальных уравнений с п неиз- вестными (по числу параметров): Woo4” 01 2хх4-о22х2 4-... 4-ов 2хв = Si/; o0 Sxx4- ox Sxf 4~o2 Sx2 xx 4" ••• 4~on 2xn xx = S^/xx; a0 2xn 4-Oi Sxx xn 4-Ог Sx2 xn 4-... 4- on 2x3 = 23
Метод наименьших квадратов даже при сравнительно небольшом числе наблюдений приводит к получению доста- точных оценок. Оценки могут быть точечными и интерваль- ными. Точечные оценки обладают следующими свойствами [13, 231: 1. Несмещенности. При большом числе наблюдений с одинаковыми объемами выборки среднее значение оцени- ваемого параметра должно стремиться к своему истинному значению в гипотетической совокупности: У1Л •• • п = f (*!♦ xz,..., хп)-> у. Если этого не происходит, то оценки будут смещенными. Смещение может быть объяснено ошибками наблюдения и прежде всего систематическими. 2. Эффективности. При анализе регрессий может сло- житься такая ситуация, при которой будут получены не одна, а несколько несмещенных оценок. В этом случае выбирают оценку, которая обладает наименьшей диспер- сией. Такую оценку называют эффективной. 3. Состоятельности. Если при оценивании какого- либо параметра точность оценки при увеличении объема выборки возрастает, то считают, что эта оценка является состоятельной. Предельной точности эта оценка достигает тогда, когда ее численное значение совпадает с оценивае- мым параметром (практически этого никогда не бывает). Однако любая оценка истинного значения параметра по выборочным данным может быть произведена только с определенной степенью достоверности. Степень достовер- ности определяется путем построения доверительных ин- тервалов. Метод наименьших квадратов может быть использован и в тех случаях, когда имеются данные только косвенных наблюдений, являющиеся функциями многих неизвестных. Метод наименьших квадратов получил широкое распро- странение не только как вычислительный прием, с помощью которого определяются параметры различного вида урав- нений, но и стал математической основой современного регрессионного анализа, являющегося важнейшим методом изучения взаимосвязей между социально-экономическими явлениями. Регрессионный анализ, как любой статистический метод исследования, может быть применим только при определен- ных условиях. Эти условия следующие: 24
— все величины (показатели) должны подчиняться нор- мальному закону распределения, их совместные распре- деления также должны быть нормальными, отдельные наблюдения должны быть независимыми, т. е. результаты, полученные в t-м наблюдении, не должны быть связаны с предыдущими и не должны содержать никакой информа- ции о последующих наблюдениях и не влиять на них; дис- персия у должна все время оставаться постоянной, при из- менении величины у и при изменении значений факторных признаков; — уравнение регрессии, аппроксимирующее эмпири- ческие данные, должно быть линейным относительно своих параметров. Типично линейным является следующее уравнение ре- грессии: £1.2 ...n = ao+ai*i+а2*г + -” + апхп. Факторные признаки (хь х2, х3, хп) могут быть пред- ставлены в уравнении нелинейно, например: У1.2...п=а6+а1Х1+а2х1+азх1 +... 4-а„х". Однако'это уравнение’относительно параметров линейно. Нарушение перечисленных условий может привести к тому, что уравнение регрессии не будет адекватно отражать исследуемый процесс.
Г лава 2 МЕТОД НАИМЕНЬШИХ КВАДРАТОВ КАК СПОСОБ ОБРАБОТКИ УРАВНЕНИЙ РЕГРЕССИИ 2.1. ОБРАБОТКА МЕТОДОМ НАИМЕНЬШИХ КВАДРАТОВ ПАРНОЙ РЕГРЕССИИ Парная регрессия характеризует связь между двумя признаками: результативным и факторным. Анали- тически связь между ними описывается уравнениями: прямой ух=а0+ах х; гиперболы ух=ао-Ч- —; х параболы ух—а0+ах x-j-a2 № и т. д. Определить тип уравнения можно, исследуя зависимость графически, однако существуют и более общие указания, позволяющие выявить уравнение связи, не прибегая к гра- фическому изображению. Если результативный и фактор- ный признаки возрастают одинаково примерно в арифме- тической прогрессии, то это свидетельствует о том, что связь между ними линейная, если же один признак увели- чивается, а другой уменьшается—связь гиперболическая. Если результативный признак увеличивается в арифме- тической прогрессии, а факторный значительно быстрее, то используется параболическая или другая степенная ре- грессия. В уравнениях регрессии параметр а0 характеризует усредненное влияние на результативный признак неучтен- ных (не выделенных для исследования) факторов. Пара- метр ах (а в уравнении параболы и dj) показывает, насколько изменяется в среднем значение результативного признака при увеличении факторного на единицу. На основе этого параметра вычисляются коэффициенты эластичности, ко- торые показывают, насколько изменяется результативный 26
Таблица 2.1, Основные Производствен- ные фонды, млн. руб. X Валовая продукция, мли. руб. и ху ж» У1 Ух 1 20 20 1 400 19,4 2 25 50 4 625 25,0 3 31 93 9 961 30,6 4 31 124 16 961 36,2 5 40 200 25 1600 41,8 6 56 336 36 3136 47,4 7 52 364 49 2704 53,0 8 60 480 64 3600 58,6 9 60 540 81 3600 64,2 10 70 700 100 4 900 69,8 Итого 55 445 2 907 385 22 487 446 признак в процентах при изменении факторного признака на один процент: а х Э = ах —. у Пример. Имеются данные о связи между стоимостью основных производственных фондов и объемов валовой продукции по десяти однотипным предприятиям (табл. 2.1). Данные таблицы показывают, что связь между этими признаками линейная. Метод наименьших квадратов при- водит к следующей системе нормальных уравнений для оп- ределения неизвестных параметров а0 и ах: N&o = %У, ?2 а0 + ах 2х2 = Sух. Необходимые для решения расчеты также представим в табл. 2.1. Определим неизвестные параметры, составим уравнение регрессии и найдем коэффициент эластичности: J1 Otio-f-55пх—445j |55ло 4-385ах в 2 907; а0 = 13,8; ах = 5,6; ' Ух" 13,8 4-5,6 х. Э = 5,6- о,6921. 44,5 27
Следовательно, с увеличением стоимости основных про- изводственных фондов на 1 млн. руб. объем валовой про- дукции увеличивается в среднем на 5,6 млн. руб. или с уве- личением стоимости основных производственных фондов на 1% объем валовой продукции увеличивается на 0,69%. Иногда параметр ах бывает удобнее определить по дру- гой формуле, которую можно получить путем следующих рассуждений. Возьмем исходное уравнение [13] — У — а0 + ахх. • Отсюда определим значение ах так, чтобы сумма S = 2 (у — ахх — а0)2 получила наименьшее значение. Если величина S будет минимальной, то линия регрес- сии пройдет через точку с координатами х и у. Возьмем частные производные -^- = 0;-^-=0. dog дах Тогда (у—а1х—а0) = Sy-di 2х— Na0=Q; 2 (х — х) [у—у— ai (х — х)] = 0; _ 2(у—~у){х—х) . - - Oi=-------——-----, а0 = у—aiX. 2 (х—х)2 Когда имеется большое число наблюдений, т. е когда ряды по факторному и результативному признаку сгруп- пированы, то расчет параметров уравнения регрессии не- сколько усложняется, поскольку система нормальных уравнений приобретает следующий вид: Nan -j-Oi Sxfx= «2 2) Oq ^xfx Ч- Oi 2x® fx = ^xyfxy, где и fy — частоты факторного и результативного при- знаков. 28
Таблицу 2.2 1766 40 210 320 2 760 10 10 10 10 50 70 90 ПО 250 490 810 1 210 fx Xfx X*fx Примечание. Исходные данные ретных рядов. представлены в виде диск- Система нормальных уравнений для нахождения пара- метров а0, alt а2 в уравнении параболы имеет вид: / Na0 + Zxfx 4- а2 Sx2fx=2yfv; | a0 S xfx + a! Sx2 fx + a2 Sx3 fx = ^yxfvx, (2-3) |oo Sx2 fx + ox Sx3 fx + o2 Sx4 fx = 2yx2 fxv. Пример. По данным о стоимости основных произ- водственных фондов и среднесуточной переработки свеклы на 40 предприятиях найти параметры линейного уравнения регрессии. Все данные и вспомогательные расчеты располо- жим в табл. 2.2. На основании формул (2.2) составляем систему нормаль- ных уравнений регрессии, необходимые данные берем из таблицы: |40a04-320oi = 210; (з20ао 4-2 7600! =1766. Отсюда ах = 0,43; а0 — 1,8. Следовательно, ух — 1,84-0,43 х. 29
Т а б л и ц а 2.2 Расчет коэффициентов регрессии несколько осложняет- ся, если связь криволинейная. Пример. Связь между выпуском изделий и затратами на упаковку характеризуется данными по 50 однотип-' ным заводам, приведенными в табл. 2.3. Считая зависимость параболической, определим коэф- фициенты а0, ах, аа. Пользуясь результатами вспомогатель- ных расчетов (табл. 2.3), составим систему нормальных уравнений на основании формул (2.3): 50а0 ”1~ 125 цх 365а2=306: 125йЕф-f-365<zx-|- 1 175ца ^$^0: ,365а0 4-1175ах 4- 4 025^=2 566. Отсюда а0 — 10,90; ах = — 6,00; аа = 1,4. Следовательно, ух - 10,9—6,0 х 4- 1,4 х®. 30
Таблица 2.4 Производство изделий, тыс. шт. X Себестоимость одного изделия, руб. У 1 X 1 V н | — 1 20 1 1 20 2 19 0,5 0,250 9,500 3 18 0,333 0,111 6,000 4 15 0,250 0,063 3,750 5 19 0,200 0,040 * 3,800 6 17 0,167 0,028 2,833 7 16 0,143 0,020 2,286 8 15 0,125 0,016 1,875 9 14 0,111 0,012 1,556 10 13 0,100 0,010 1,300 11 15 0,091 0,008 1,364 12 11 0,083 0,007 0,917 Итого 78 192 3.103 1,565 55,181 Если зависимость между результативным и факторным признаками выражается уравнением гиперболы: Ух=а0 + -^-, то система нормальных уравнений для определения пара- метров а0 и ах будет следующей: ЛГоо+ Oj S — = St/; (2-4) aoS — 4-aiS — = S — у. lx X2 x Пример. Имеются данные о производстве некоторых изделий и себестоимости одного изделия по 12 заводам (табл. 2.4). * Считая, что зависимость между признаками выражается уравнением гиперболы, рассчитать параметры а0 и ах. Пользуясь расчетными данными табл. 2.4 и формулой (2.4), составим систему нормальных уравнений: 1 12а0+3,103ах = 192; (З.ЮЗоо + l,565Oi= 55,181. Решив ее, получим: Ор != 14,2; ах а» 7,26. 31
Уравнение связи: ,, о , 7,26 ^=14,2 + -у-. При изучении связей между социально-экономическими явлениями парная регрессия имеет, скорее, вспомогатель- ное значение, применяемся нечасто, потому что социально- экономические явления подвергаются воздействию мно- жества факторов прямых и косвенных. 2.2. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ И ПОЛИНОМЫ ЧЕБЫШЕВА Область применения парной регрессии в со- ' циально-экономических исследованиях значительно рас- ширяет способ ортогональных полиномов, предложенный известным русским математиком Чебышевым. Допустим, что при исследовании связи между двумя социально-экономическими явлениями установлено, что она описывается уравнением параболы второго порядка (полиномом второй степени). Однако построенное урав- нение регрессии с параметрами, вычисленными по методу наименьших квадратов, плохо согласуется с данными, полученными в результате наблюдения (значительна оста- точная сумма квадратов, велика ошибка аппроксимации и т. п.) Соответствующий анализ показал, что, для того чтобы получить уравнение регрессии, более адекватно описываю- щее данный процесс, следует повысить степень полинома и описывать процесс уравнением параболы третьего по- рядка, т. е. . Ух = ао + ахх + а2х* + asx3. Для того чтобы рассчитать коэффициенты регрессии этого многочлена, следует вновь составить систему нормаль- ных уравнений. Способ ортогональных полиномов Чебышева [9, 371 дает возможность значительно упростить процесс нахож- дения параметров. При этом способе добавление новых чле- нов не требует пересчета уже известных коэффициентов урав- нения. Искомый полином записывается в виде суммы много- членов: hx = «оФо (х) + ахфх (х)]+ ааф2 (х) + ... + апфп (х), 32
гДе . ... Фо (х) = 1; ipt (x) s= xk + a*<'>xfe-1 + ... С помощью метода наименьших квадратов минимизи- руется следующее выражение: 5=2 1^—«о Фо «х'Фх (Xi) — a2^2(xt) — i = 1 — •••— авф„(х{)]*=>тт. Следовательно, система нормальных уравнений такова: ao S [ф0 (хг)1* + ах 2яр0 (Xi) ipx (хг) + a2 2яр0 (х;) ф2(хг)+ • •• ... +an 2ф0 (xt) фв (хг) = 2г/г ф0 (xf); a0 2ip0 (xt) ifi (xj) + ai S [ip! (x;)]2+a2 2ipx (xt) ф2 (хг) +.. . • •• + «n Sih (xt) фп (хг) = Syi ip! (хг); «о 2 яро (%г) ipn (xj+ «12 ipx (Xj) яр„ (хг)+а2 2яр2 (хг) ipn (x{) + +... +an 2 [ipn (х4)]2 = 2^ ipn (xj). Многочлены подбираются так, чтобы 2% (хг) ярь (хг) = 0 (/ Ф k)\ 2[яр/(х/)]2=#0 (/ = 0,1..../г). Такие многочлены называются ортогональными поли- номами Чебышева. Если эти условия соблюдаются, то вся система нормальных уравнений упрощается, так как в ле- вой части каждого уравнения останется только по одному слагаемому. Следовательно, все коэффициенты будут оп- ределяться из выражения: (2-6) т. е. - п а _ . 1 2W>!(*i)le’ 2 Зак. 1921 п _ Sytipgfxf) . 2№»(*i)]2 ’ 33
а __ Zyt фп (Xj) n SbMxOF’ В соответствии с формулой (2.5) и при условии, что / = О, k = 1, для фх (хх) имеем: 2фх = 0. (2.7) Следовательно, Фх (х) = х + а и на основании формулы (2.7) можно записать 2 (хг + Oj) - 0 и 2xf + «®1 = 0. Отсюда <хх=----L 2хг, т. е. [9,37] п фх(х) = х--— 2хР (2.8) п Если в формуле (2.5) положить / — 0, k — 2, то для мно- гочлена ф2 (х) получим: (2ф2 (Xj) = 0; <2 g, 12ф1(хг)ф2(хг) = 0. Старший коэффициент этого уравнения равен 1, вве- дем коэффициенты t и у и запишем многочлен в виде: ф2 (х) « (х + 0 фх (х) 4- тф0 (х). (2.10) Последнее выражение подставим в формулу (2.9), при ф (х) = 1 получим следующую систему: Г2хг фх (хг) +/2ф1 (х{) + пу = 0; Ы [Фх (х«)]2 + & № (х<)]2 + (х4) = 0; соблюдая условие (2.7), запишем: рхгфх(х£) + п? = 0; п ЫнФ1(хг)]2 + ^[Фх(хг)]2 = 0. Решение системы дает возможность определить коэффи- циенты t и у: t — SXj [фх (хг)]« . SbM*i)F Т= —LSx^1(Xi). (2.12) • П I 34
Зная суммы степеней xt, получаем при условии (2.7): % (xt) = Sxz (Xi + ax) = Sx,? + ax Sxj; . 2 № (**)la = 2 (xt +ax) ifx (xt) = Sxt фх (Xi)-, (2 13x %Xi [фх (xz)]2 = S (xt + ax xz) фх (xt) = Sxf + . +ax Sx? +<xx Sx{ *фх (Xt). - Пример. Исследуется зависимость почтовых рас- ходов от расходов на командировки по 12 однотипным пред- приятиям. Данные обследования представлены в табл. 2.5. Найти уравнение регрессии, выражающее связь между почтовыми расходами и расходами на командировки, ис- пользовав приближающие многочлены Чебышева. Для построения многочленов необходимые расчеты проведем в той же таблице. Порядок расчета таков [9,37]. 1. Вначале строим многочлен первой степени, т. е. у^ао + ъх. Затем для п = 12 запишем: фх(х)=х—^Z|L = x—0,47925. Следовательно, ах = — 0,47925, а согласно формуле (2.6) a0 = = 38,845916. Для расчета ах по формуле (2.6) предварительно опре- делим числитель: (Xi) —'tyiXi + axSf/« = 229,480 + (—0,47925) X Х466, 151=6,07714 и знаменатель: 2 (*г)12 = 2х® + ах2хг = 2,824357 + (—0,47925) X Х5,751 = 0,068191. Тогда a =. 6’07714 . = 89,119385 0,068191 и многочлен (полином) первой степени имеет следующий ви_х: ух = 38,845916+89,119385 (х —0,47925) = —3,864549+ +89,119385 х. 2* 35
Таблица 2.5 00 о Почтовые расходы, тыс. руб. X Расходы на командировку, тыс. руб. У X9 X9 х* х9у 0,252 26,225 0,063504 0,016003 0,004032 6,608700 1,665287 687,75062 0,297 32,638 0,088209 0,026198 0,007781 9,693486 2,878672 1065,23900 0,348 35,107 0,121104 0,042144 0,014666 12,217236 4,251457 1232,5014 0,391 37,083 0,152881 0,059776 0,023372 14,499453 5,669249 1375,1488 0,433 39,902 0,187489 0,081182 0,035152 17,277566 7,480827 1592,1696 0,472 43,417 0,222784 0,105154 0,049632 20,492824 9,681991 1885,0358 0,524 42,026 0,274576 0,143877 0,075391 22,021624 11,515124 1766,1846 0,551 45,755 0,303601 0,167284 0,092173 25,211005 13,891218 2093,5200 0,579 44,840 0,335241 0,194104 0,112386 25,962360 15,021402 2010,6256 0,601 41,208 0,361201 0,217081 0,130465 24,76610 1-4,884329 1698,0992 0,625 39,944 0,390625 0,244140 0,152587 24,965000 15,603025 1595,5231 0,678 38,006 0,459684 0,311665 0,211309 25,768070 17,471358 1444,4560 Итого 5,751 466,151 2,824357 1,608608 0,908946 229,486 120,013821 18446,2531
Строим многочлен второй степени: Ух = а0 + th* + «ах8. Для расчета t и у используем 2 hh (х»)]а « 0,068191, затем рассчитаем по формуле (2.13) 2xf = 2xf + «12х? + Фх (xt) — = 1,608608+(—-0,47925) • 2,824357+(—0,47925) -0,068191— =0,222355. Отсюда по формулам (2.12): ts=s —0,222355 = _з 260760; у = — 0,068191 =—0,000569. 0,068191 » • f 12 Вычисляем многочлен ф2 (хг) по формуле (2.10): ф2 <xt)= (х — 3,260760) • (х — 0,47925)—0,000569 = ха — —3,740010х + 1,562150. Рассчитаем коэффициент регрессии аг по формуле (2.6). Для этого определяем числитель: 2у»фа(х/) - 120,01382—3,74001 • 229,490 + 1,562150 х' Х466,151 =—10,056620, затем знаменатель: 2 [ф2 (xj)]2 = 0,908946—3,74001 • 1,608608+ 1.562150Х X2,824357=—0,690751. Отсюда а2——Ю,056620 = 14558965 2 —0,690751 Следовательно, ух = 18,9+34,7х+14,6х2 2.3. ОБРАБОТКА МЕТОДОМ НАИМЕНЬШИХ КВАДРАТОВ МНОЖЕСТВЕННОЙ РЕГРЕССИИ Наибольший успех в изучении связей между социально-экономическими явлениями достигается тогда, когда используются методы множественной (многофактор- ной) регрессии. Уравнение связи между тремя и более связанными между собой признаками носит название множественной (много- факторной) регрессии. При исследовании таких связей методами множественной регрессии задача формулируется 37
так же, как и при исследовании парной регрессии, т. е. требуется найти аналитическое выражение связи между результативным признаком у и факторными признаками хъ ха, ..., хп, т. е. найти функцию: У1.2...П (*1, хг, .... хп). То обстоятельство, что математика может для любой заданной области значений представить весьма большое количество различных функций в значительной мере ос- ложняет их выбор. Некоторые предпосылки для выбора определенного уравнения регрессии можно получить на основе анализа предшествующих аналогичных исследо- ваний в данной или смежных отраслях знаний. Наиболее приемлемым способом определения вида ис- ходного уравнения регрессии является метод перебора раз- личных уравнений. Предварительное количественное и ка- чественное описание изучаемого явления позволяет выде- лить сравнительно небольшой круг математических урав- нений, проверку адекватности которых исследуемому про- цессу можно провести достаточно быстро и надежно с по- мощью алгоритма перебора на ЭВМ [11, 36]. Важным этапом построения уже выбранного уравнения множественной регрессии являются отбор и последующее включение факторных признаков. Сложность здесь заклю- чается в том, что почти все факторные признаки находятся в зависимости один от другого. Попытка включить в урав- нение как можно больше факторов часто приводит к неоправ- данному усложнению уравнения регрессии. Анализ такого уравнения значительно усложняется, а объем вычислитель- ных работ возрастает. Включение большего числа факторов является оправ- данным только в случаях, когда это приводит к новым, еще не известным выводам. В то же время упрощение уравнения, невключение в него существенных факторов приведет к тому, что оно не будет адекватно исследуемому процессу. Наиболее приемлемым способом отбора факторных при- знаков является шаговая регрессия (шаговый регрессион- ный анализ). Сущность метода шаговой регрессии заклю- чается в последовательном включении факторов в урав- нение регрессии и последующей проверки их значимости. Факторы поочередно вводятся в уравнение так называемым «прямым методом». При проверке значимости (полезности) , введенного фак- 38
торного признака определяется, насколько уменьшилась сумма квадратов остатков, которая получается на основании суммирования разности квадратов между фактическими значениями результативного признака и его значениями, полученными в результате решения уравнения регрессии. Кроме того, о значимости (полезности) введенного фактор- ного признака можно судить на основании коэффициента детерминации D (коэффициент детерминации равен квад- рату множественного коэффициента корреляции D — R2). Коэффициент детерминации показывает, какая часть ва- риации результативного признака, объясняется вариацией включенных в уравнение факторных признаков. Одновременно используется и обратный метод, т. е. исключение факторов, ставших незначимыми. Фактор яв- ляется незначимым, если его включение в уравнение регрес- сии только изменяет значение коэффициентов регрессии, не уменьшая суммы квадратов остатков и не увеличивая значения R*. Сложность и взаимное переплетение отдельных факто- ров, обусловливающих исследуемое экономическое яв- ление (процесс), может проявляться в так называемой муль- тиколлинеарности. Под мультиколлинеарностью пони- мается наличие в уравнении регрессии более одной связи между факторами. В качестве своеобразных индикаторов возможного наличия мультиколлинеарности выступают парные коэффициенты корреляции. Если величина коэффи- циента корреляции больше 0,8 (г >• 10,81), т. е. прибли- жается к ± 1, то это говорит уо наличии в уравнении ре- грессии мультиколлинеарности. Если в уравнении обнару- жено несколько сильно коррелирующих между собой фак- торов, то дальнейший анализ следует проводить при отбра- сывании некоторых из этих факторов. Вопрос о том, какие из факторов следует отбросить, решается на основании качественного и логического анализа изучаемого явления. Простейшим примером ' множественной регрессии яв- ляется связь между тремя факторами. Если представить значения этих факторов рядами параллельных данных, то вид уравнения можно определить по расположению соот- ветствующих значений исследуемых признаков. Пример. Взаимосвязь между среднегодовой стои- мостью основных производственных фондов, относительным уровнем затрат на реализацию продукции и стоимостью реализованной продукции представлена рядами параллель- ных данных по 10 однотипным предприятиям (табл. 2.6). 39
Таблица 2.6 Основные производст- венные фонды, млн. руб. Затраты на реализацию, в процентах к стоимости реализован- ной продук- ции х» Реализо- ванная продук- ция, млн. руб. У *! X2 2 Л1У 3 4 20 9 16 12 60 80 3 3 25 9 9 9 75 75 5 3 20 25 9 ‘ 15 100 60 6 5 30 36 25 30 180 150 7 10 32 49 100 70 224 320 6 12 25 36 144 72 150 300 8 12 29 64 144 96 232 348 9 11 37 81 121 99 333 407 9 15 36 81 225 135 324 540 10 15 40 100 225 150 400 600 Итого 66 90 294 490 1018 688 2 078 2880 Данные параллельных рядов показывают, что зависи- мость между этими факторами линейная. Определим пара- метры уравнений регрессии. Линейная связь между тремя факторами выражается уравнением У1Л = йо.+ 01X1 + <¥2 и система нормальных уравнений для определения парамет- ров а0, аъ а2, построенная по методу наименьших квадратов, будет следующей: ' Na9 4-Oj Sxi+а2 Sx2 = 2t/; Оо Sxi+2х? + az Sxi x2 = 2j/Xi; Oo 2xi + Oi 2xi x2 + o2 2x$ = 2t/x2. Вспомогательные расчеты представлены также в табл. 2.6. Составим систему нормальных уравнений: 10ав+ 66Д1 + 90а2 = 294; 66а0+ 490z?i + 6880г = 2 078; , (90о0+688О1 +1 018а2 = 2 880. Отсюда а0 == 12,51; ах — 2,70; а2 — — 0,08. Следовательно, У1.2 — 12,51+2,70 Xi — 0,08 х2. , 40 I
По формуле 1 __ ху — ху хи ОхО» подсчитаем коэффициенты корреляции: Г»*1я0»88; г*, X, = 0,88; г^х, = 0,77. Рассмотрим более сложный вариант. Пример. При анализе одной из отраслей промышлен- ности исследовались факторы, влияющие на величину при- были. Их влияние и сила оценивались с помощью уравне- ния множественной регрессии. Из 52 предприятий было отобрано только 45, исключены предприятия, работавшие неполный год, и предприятия, на которых введены значи- тельные производственные мощности в конце года. Предлагается включить в уравнение множественной ре- грессии следующие факторы: 1) объем валовой продукции; 2) объем товарной продукции; 3) объем реализованной продукции; 4) среднегодовая стоимость основных произ- водственных фондов; 5) полная себестоимость всей продук- ции; 6) себестоимость единицы продукции; 7) количество израсходованного сырья в натуральном выражении; 8) численность промышленно-производственного персонала; 9) численность рабочих; 10) объем производства продукции в натуральном выражении; 11) стоимость незавершенного производства; 12) износ сменного оборудования. Коллинеарно связанными оказались факторы: объем валовой продукции и объем товарной продукции (г — 0,99); объем валовой продукции и объем реализованной продукции (г == 0,98); объем реализованной продукции и полная себе- стоимость всей продукции (г = 0,89); численность промыш- ленно-производственного персонала и численность рабочих (г — 0,96); объем продукции в натуральном выражении и количество израсходованного сырья (г — 0,88). Кроме того, как малозначимые были исключены факторы: себе- стоимость единицы продукции, численность промышленно- производственного персонала, стоимость незавершенного производства, износ сменного оборудования. Таким образом, в уравнение множественной регрессии включаются: у — прибыль от реализации (тыс. руб.); — объем реализованной продукции (тыс. руб.); х2 — среднегодовая стоимость основных производственных фон- дов (тыс. руб.); х3 — численность рабочих (чел.); — количество израсходованного сырья в натуральном выра- жении (т). 41
Т а блица 2.7 Номер предпри- ятия Прибыль от реализации» тыс. руб. У Объем реали- зованной продукции, тыс. руб. Х1 Среднегодо- вая стоимость основных производст- венных фондов, тыс. руб. X» Численность рабочих, чел. Количество израсходо- ванного сырья, т х4 1 39 1476 280 232 402 2 68 1983 561 215 376 3 80 1694 487 202 328 4 112 1893 815 297 529 5 190 5380 1 112 504 1738 41 4 235 43 267 3 843 2 761 8144 42 4 377. 32536 2 945 2206 7097 43 4 528 68 019 5907 4 593 10 019 44 4 778 72 836 8306 4 738 12 348 45 5 560 63 427 6 944 4 802 15 026 Выборка предприятий представлена в табл. 2.7. Методом перебора отбираются следующие пять урав- нений: 1) линейное £1.2.3.4 = Яо+ *14-02 *2+°3 *3 +at Xi, 2) степенное (линейно-логарифмическое) £1.2.3. 4 = или 1g £1.2.з.4. = lg«o+fli 1g Xi + a21g x2 + a31g x3 +a41g x4; 3) показательное 2 4= xa4-as xs4-a4 x4 ИЛИ In £1.2.3.4 = a« + Й1 Xi +a2 хг + as x3 +a4 xt; 4) параболическое £1.2.з.4 = Qo + «i xl + a2 x*2 +a3 *3 + a4 x\ 42
5) гиперболическое #1.2.3.4 — «О 4 *1 Да । Дз । Д« х» ха xt Сравнение различных уравнений регрессии начинается с определения ^-критерия, который характеризует адек- ватность модели исследуемому социально-экономическому явлению или процессу. /'’-критерий рассчитываетсярсак отношение остаточной дисперсии: 2 —1/1.2... п)2 „2 _ I = 1 где N — п — 1 — число степеней свободы, определяемое как разность между числом наблюдений, количеством факторных признаков, включенных в модель, и числом вы- численных статистических характеристик (в данном случае средней арифметической), к общей дисперсии: N 2 G//-?)2 „2 _ i = 1 °ОбЩ--------й ' Следовательно, Расчетные значения F сравнивают с табличными Fa. Если при а *= 0,05 Fp < Fa, то модель— адекватна. Значимость коэффициентов регрессии проверяется с помощью ^-критерия:. при тех же N — п — 1 степенях свободы. Наконец, чтобы иметь полную уверенность в адекват- ности модели, рассчитывают среднюю ошибку аппроксима- ции по формуле ё=— у —.юр. п ** yt Средняя ошибка аппроксимации показывает в процен- тах среднее для всех значений результативного признака 43
Таблица 2.8 Тип уравнения Значение F-критерия (Р—0,95) расчетное | табличное Остаточ- ная сумма квадратов 1» Линейное 0,96 3,89 5,36 289,6 6,86 Степенное 0,87 6,22 5,36 628,9 11,27 отклонений расчетных значений. Модель можно считать адекватной, если средняя ошибка аппроксимации будет находиться в пределах 12—15%. Всесторонняя проверка адекватности рассчитанных по данным выборки -уравнений регрессии показала, что наи- более приемлемыми являются линейное уравнение регрес- сии У1Л.ЗЛ — 26,9+8,06 Хх — 9,03 х2 — 2,13 ха + 1,17 xt и степенное (линейно-логарифмическое) lg£i.2.3.4 — 1g 10,64- l,291gxx— 0,6111gx2—0,261gx3+0,1231gx4 Результаты сравнения линейного и степенного урав- нений регрессии представлены в табл. 2.8. Результаты проверки значимости коэффициентов ре- грессии по ^-критерию представлены в табл. 2.9. Сравнение характеристик двух уравнений регрессии показывает, что наиболее адекватно исследуемый процесс описывает линейное уравнение регрессии. Наиболее сложным этапом, завершающим регрессионный анализ, является интерпретация уравнения, т. е. перевод его с языка статистики и математики на язык экономиста. Интерпретация [1, 36] начинается с выяснения, как каждый факторный признак влияет на величину результатив- ного признака. Чем больше величина коэффициента рег- рессии, тем сильнее фактор влияет на результативный при- знак. Знаки коэффициентов регрессии говорят о характере влияния на результативный признак. Если коэффициент имеет знак плюс, то с увеличением данного фактора резуль- тативный признак возрастает; если коэффициент имеет знак минус, то с его увеличением результативный признак уменьшается. Интерпретация знаков зависит от экономи- ческой сущности результативного признака. Если его ве- 44
Таблица 2.9 Тип уравнения Значение 1-критерия (Р=0,95) Табличное для всех значений коэффициентов регрессии расчетное для ai а» а, а4 Линейное 2,48 2,28 2,78 9,63 1,87 Степенное 2,48 3,81 2,04 16,09 2,59 личина должна изменяться в сторону увеличения: объем реализованной продукции, фондоотдача, производитель- ность труда- и т. д., то плюсовые знаки коэффициентов сви- детельствуют о положительном влиянии соответствующих факторов. Если результативный признак должен изменять- ся в сторону снижения: себестоимость продукции, мате- риалоемкость и т. д., то в этом случае положительное влия- ние будут оказывать факторы, коэффициенты которых от- рицательны. Если экономическая теория подсказывает, что факторный признак должен влиять положительно, а коэф- фициент при нем имеет знак минус, то необходимо прове- рить расчеты. Такое явление чаще всего бывает в силу допу- щенных ошибок при решении. Однако при этом следует иметь в виду, что когда рассматривается совокупное влия- ние факторов, то в сиду наличия взаимосвязей между ними характер их влияния может меняться. Большое значение для практического использования уравнения множественной регрессии для принятия реше- ний на- его основе имеет интерпретация его адекватности и проверка значимости коэффициентов при факторных приз- наках [1, 36]. Когда уравнение регрессии адекватно исследуемому про- цессу, то и в этом случае возможны следующие варианты: 1) все коэффициенты регрессии значимы; 2) только часть коэффициентов регрессии значима; 3) все коэффициенты регрессии не значимы. В первом случае уравнение регрессии может быть ис- пользовано для практических выводов и на его основе можно принимать соответствующие решения. Во втором случае на основе экономической теории нужно попытаться объяснить или хотя бы выдвинуть некоторые гипотезы, объясняющие незначимость коэффициентов ре- 45
грессии. Если это сделать не удается, то факторы-признаки, имеющие такие коэффициенты, должны быть заменены. Практически уравнение регрессии может быть использовано только после соответствующей доработки. В третьем случае гипотеза об адекватности уравнения регрессии отбрасывается. Всю работу следует начинать сначала. Адекватность модели означает не только количественное, но прежде всего качественное соответствие описания объ-' екту [1, 2]. Подчеркивая адекватность модели в любом случае, мож- но говорить только о той или иной ее степени, т. е. о сте- пени соответствия модели моделируемому объекту (истин- ности модели). Считается, и в общем это справедливо, что коэффи- циент корреляции 7? также является своеобразным крите- рием адекватности. Действительно, при R — 0 следует счи- тать модель полностью неадекватной. Если же /? = 1, то модель в общем и целом воспроизводит свойства моделиру- емого объекта. Адекватная модель обладает свойством побочной адекватности, т. е. несет определенную инфор- мацию и об аналогичных объектах. Высокая степень по- бочной адекватности характеризует широту области при- менения модели. 2.4. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ И МАТРИЧНЫЕ МЕТОДЫ АНАЛИЗА РЕГРЕССИИ Матрица представляет собой прямоугольную таб- лицу и обладает некоторыми свойствами статистической таблицы. Так же как и в статистической таблице, исходные данные располагаются в матрицах в компактном, удобном для обозрения виде. Особое расположение исходной ин- формации позволяет производить множество различных алгебраических операций, столь необходимых при обработке статистических данных. Для обработки данных, представленных в матричной форме, также применим метод наименьших] квадратов [1,32], поскольку и в этом случае минимизируется сумма отклонений фактических значений от значений, полученных по уравнению связи, т. е. S = (у—хА)г • (у—хА) => min, Д6
Таблица 2.10 Номер предприя- тия Реализован- ная продук- ция, млн. руб. Основные производст- венные фонды, млн. руб. Себестои- мость единицы изделия у руб. Число рабочих, чел. Накладные расходы на реализацию, тыс. руб. 1 26,7 18,4 97 439 79 ' 2 32,4 17,7 102 385 58 3 40,2 33,2 96 613 86 4 47,0 45,1 84 674 104 5 51,0 53,2 99 505 93 где (у — хА) — матрица отклонений (разностей) факти- ческих значений от теоретических; (у — хА)г — транс- понированная матрица. Элементы вектора А (а0, alt ...» ап) определяются путем приравнивания нулю первых частных производных ука- занной суммы: —=0; -^- = 0; = 0; ...; — =0, дао даг да2 дап что приводит к следующему: 2хт(у—хА) = 0; А = (хг-х)_1-хг-у. Табличный способ изложения статистических данных является одновременно описательным и исследователь- ским методом. Однако при использовании в статистическом исследовании социально-экономических явлений многомер- ных методов чаще пользуются матрицами и основанным на их свойствах матричным анализом ( матричным исчис- лением). Матрицы и статистические таблицы имеют много общего, но статистическая таблица более информативна за счет текстовой части, а матрица представляет больше воз- можностей для последующего применения статистических методов анализа, связанных с математическими расчетами. Компактность матрицы в значительной степени облегчает понимание смысла производимых расчетов и их соотно- шения с качественной основой исследуемых социально- экономических явлений. В общем, каждую статистическую таблицу можно заменить матрицей с незначительной долей потери- текстовой информации. Пример. Имеются некоторые данные, характери- зующие производственную деятельность предприятий (табл. 2.10). 47
Таблица 2.11 Номер предприятия У Х1 *2 х» хл 1 У1 Хи *21 *81 *41 2 Уз *12 *22 *82 *42 3 Уз *18 *23 *33 *43 4 Уь *14 *24 *34 *44 5 Уз *15 *25 *35 *45 В общем виде в статистической таблице эти данные можно представить так (табл. 2.11): Последняя запись очень близка к матричной записи вида: «11 «21 «31 «41 «12 «2г| «32 «42 А= «13 «23 «33 «43 «14 «24 «34 «44 «15 «25 «35 «45 Матрицу можно записать в другом виде: А = {aj;} при i = 1, 2, 3, 4, 5; /' — 1, 2, 3, 4, 5. Матрицу, у которой число строк равно числу столбцов, называют квадратной' матрицей. С квадратной матрицей связано понятие об определителях (детерминантах). С по- мощью определителей находят неизвестные коэффициенты линейных уравнений, в том числе и уравнений регрессии. Пример. Имеются данные о стоимости основных производственных фондов и объеме реализованной продук- ции по 15 заводам, выпускающим однотипную продукцию (см. табл. 2.12). Считая зависимость линейной, рассчитать неизвестные коэффициенты а0 и at. Составим систему нормальных уравнений в общем виде: (Ma0 + aiSx = Si/; |а0 S х+Oi Sxa = S ух 48
Таблица 2.12 Основные производст- венные фонды, млн. руб. X Реализо- ванная продук- ция, млн. руб. У ху Основные производст- венные фонды, млн. руб. X Реализо- ванная продук- ция, млн. руб. У ху X* . 1 12 12 1 10 20 200 100 2 9 18 4 11 26 286 121 3 И 33 9 12 23 276 144 4 15 60 16 13 22 286 169 5 18 90 25 14 30 420 196 6 12 72 36 15 28 420 225 7 20 140 49 8 19 152 64 9 22 198 81 Итого 120 287 2 663 1 240 или для данного примера | 15610 + 1200!= 287; |120а0+124001 = 2663. Запишем систему (2.15) в символах матричной алгебры: (Оц Go + #12 #1 = &i! 1+1 «О + #22#1 = ^2- Такая запись основана на матричной форме изложения исходных статистических данных. При решении линейных уравнений в матричной форме поступают так же, как и при решении алгебраических уравнений, т. е. умножают их на соответствующие коэффициенты: (#11 #0 + #12 #1 — ^1» (#21 #0 + #22 #1= ^2* (2.16) Отсюда „ __ —а12^2 . WQ---- t 0Ц 022—fl12 fl21 „ ЛцЬ2—b1ail “1“--------------, 0Ц022—Я12 021 Неизвестные коэффициенты а0 и ах можно рассчитать, используя приведенный выше порядок расчета и исходные уравнения (2.15): __ Яу-Ъх*—Яух-Ях 152*2 — (2х)2 49
15Sxy—SySx 15Sx2—(Sx)2 ' Подставим соответствующие рассчитанные значения, приведенные в табл. 2.12: 287-1240—2663-120 а0=--------------------; 15-1240— (120)« 15-2663 — 287-120 х 15-1240—(120)2 Получим: а0 = 8,7; at = 1,3. Следовательно, Ух = 8,74*1,3 х. Коэффициенты при неизвестных в матричной алгебре носят название определителей. Определители из двух эле- ментов называют определителями второго порядка: <*11 <*12 Од ^22 Используя определители второго порядка, можно ре- шить систему уравнений на основании правила Крамера. Правило Крамера [291 заключается в том, что при условии, если определитель из коэффициентов при неизвестных не равен нулю, то решить систему можно путем последова- тельного отнесения определителей, получаемых из оп- ределителя системы заменой коэффициентов свободными членами, к определителю системы, т. е. для рассматри- ваемого примера где согласно формулам (2.15) и (2.16) д = ап #21 #12| #221 -1 15 = | 120 120 1 240 = 4 200; Д1 = 61 #12 _ 287 120 = 36320; &2 #22 2663 1240 д2=| «И 61 = 25 287 = 5505. 1 <*21 &2 120 2663 50
Таким образом, п _ 36320 й _ л 5 505 _ . п О0 “““ л == о,7, :в лл —1 ,о» 4200 1 4 200 Следовательно, ух = 8,7+1,3 х. Система алгебраических уравнений с тремя неизвест- ными имеет вид: #11 #0 + Л12 а1 + #13 #2 ~ ^1» ' #21 #0 + #22 #1 + #23 #2 = ^2» .#31 #0 + #32 #1 "4~ #33 #2 = ^3* Исключение неизвестных производится с помощью мно- жителей: #22 #38 — #23 #32 #23 #31 — #21 #33 #32 #13 #33 #12 #33 #11—#31 #13 #12 #23-#13 #22 #13 #21 —#11 #23 #21 #32 "“#22 #31 #31 #12 — #32 #11 #11 #22 — #12 #21 Отсюда 61 022 #33 + °13 63 Лзз + 012 <*23 63— #22 #3'3— —012 ^2 #33— 013 #22 63 #о =-------------------.-----------------------------•, #11 #22 #38 “Г #12 O23 031 +013 #21#32—Оц О 23 O32— — #12 O21 #38— 013 O22 #31 # 11 6а Озэ+ O23 O31 + O18 021 &3 — #11 #28 63— д1===_________—61 о21 о33—Д1з b2 Psi_________________. # 11 #22 #38+ #12 #23 #31+#13 #21 #32—#11 #23 #32~ — 012 О21 O33—013 О22 #31 # 11 #22 ^8+ #12 &2 #31+61 O21O38 — Он бз^ЗЗ — —#12 #21 63— 61 О22 #31_____________ # 11 #22#8з+#12 #28 #81+ #18 #21 О32— Оц О 23 #82— — 012 Оц Озз — 018 022 #81 Коэффициенты при неизвестных могут быть выражены как определитель третьего порядка из матрицы #11 #12 #13 &21 #22 #28 #81 #32 #83 Расчет неизвестных параметров через определители — достаточно долгий и кропотливый путь. Члены определи- теля представляют произведение трех элементов, взятых
из каждого столбца и строки. Элементы, стоящие по диа- гонали с верхнего левого угла к нижнему правому, аи, а22, азз образуют главную диагональ, а элементы а13, а22, «si — побочную диагональ. Если к определителю третьего порядка приписать два первых столбца справа или две первые строки снизу, то найти значение определителя можно так (см. рис. 2.1). &12 &13 &>2 \хх/ ^21 &ZZ &23 а22 /ХХ\ a3f ' а 32 а<?3 a3f &32 V / \ • I I «да «л ' а32 а{?3- а31 Рис. 2.1' Произведения, стоящие на главной диагонали и парал- лельные с ней, будут иметь знак плюс, а на диагоналях по- бочных и параллельных с ними —• минус. Расчет определи- телей третьего порядка осуществляется по правилу Сар- руса. Это правило схематично можно изобразить так (см. рис. 2.2). 52
Пример. Связь между среднегодовой стоимостью основных производственных фондов, переработкой сырья и выходом продукции по 10 однотипным предприятиям характеризуется следующими данными (табл 2.13). Получаем следующую систему нормальных уравнений1: 1Оао “Ь 1 Н” 52^2 —124: 31 aQ 110#i 184а2 406j 52i?o 4" 184#i 4-311#2 689. Таблица 2.13 Среднегодовая стоимость основных производственных фондов, млн. руб. Выработ- ка про- дукции, тыс. т х» Перера- ботка, сырья, тыс. т У xi y*t 2 ух9 3,0 5,0 11 15 9 33 25 55 2,0 4,0 11 8 4 22 16 44 2,0 3,0 , 9 6 4 18 9 27 2,4 3,3 8 7,92 5,76 19,2 10,89 26,4 2,7 5,5 12 14,85 7,29 32,4 30,25 66,0 2,1 3,8 14 7,98 4,41 29,4 14,44 53,2 2,8 4,9 И 13,72 7,84 30,8 24,01 53,9 2,5 4,1 15 10,25 6,25 37,5 16,81 61,5 5,0 8,0 14 40,0 25 70 64 112 6,0, 10,0 19 60,0 36 114 100 190 124 183,72 109,55 406,3 310,6 689 И таг о 30,5 51,6 Отсюда 10 31 52 Д= 31 110 184 52 184 -311 124 31 52 = 445; Дх = 406 110 184 689 184 311 10 124 52 = 3357; Дг = 31 406 184 =—1308; 52 689 311 1 Все итоговые значения округлены да целых чисел. 53
Следовательно, 10 31 52 31 ПО 184 124 406 689 = 1219. ооо/ *7 ел ~ tZg = — " 11 — 7,54j — 1 308 445 = —2,93; а2=-!^- = 2,74. 2 445 Уравнение регрессии выглядит так: ~у1л — 7,54—2,93 Xt 4- 2,74 х2. Есть и другой подход к использованию матричной ал- гебры в регрессионном анализе. Пример. Имеются следующие данные о зависимости объема реализованной продукции от стоимости упаковки по пяти однотипным предприятиям (табл. 2.14). Таблица 2.14 Реализован- ная продук- ция, млн. руб. X Стоимость упаковки, тыс. руб. У X* Реализован- ная продук- ту ция, мли. руб. X Стоимость упаковки, тыс. руб. У X* ху 2 5 4 10 6 13 36 78 3 8 9 24 7 17 49 119 5 11 25 55 И т о г о 23 54 123 286 _ Необходимо рассчитать параметры а0 и ах в уравнении Ух ~ ао + aix (вспомогательные расчеты приведены в табл. 2.14). Для удобства вычислительной системы нормальных уравнений с двумя неизвестными вводится дополнительный ряд значений, состоящий из +1. Следовательно, имеются матрицы-столбцы: 5 4-1 2 8 + 1 з У = 11 ; А— ; х= 4-1 5 13 а1 4-1 6 17 4-1 7 54
Уравнение принимает вид: у = аоХ0 + «Л- В матричной записи система уравнений выглядит так: 5 + 1 21 8 + 1 з Ил у = хА; 11 = 4-1 5 13 4-1 6 а1 17 4-1 7 Введем транспонированную матрицу хт и найдем хг-у = 11111 2 3 5 6 7 5 8 И 13 17 .5 8 11 13 17 | 54 10 24 55 78 119 1286 Запишем матрицу системы нормальных уравнений хг • х: хт*х = 11111 23 123 2 3 5 6 7 Следовательно, 5 23 23 123 Оо I 54 Qi |286 Рассчитаем определитель для матрицы: Д = 5 23 23 123 = 86. 55
Определим алгебраические дополнения: Ли = (—1)1+I • 123=123; Л21 = (—1)2+х • 23=—23; Л12 = (—1)1+2 • 23=—23; Л22 = (-1)2+а • 5=5. Транспонируем матрицу алгебраических дополнений и получим союзную матрицу В = 123 —23 —23 5 Найдем произведение: 5 23 I 123 —231 _ 23 123 *1-23 5|~ 615 —529 —115 4- 1151 86 О 2828 —2819 —529 4-615]“ 0 86 Рассчитаем единичную матрицу Е = (В.Вг).^- = -^.|86 о = А об I U оО Затем О 123 —23 1 I 123 —23 _ 86 86 86’1—23 5 -23 5 86 86 54 а0 286 ах 54- — —286— 0,7 86 86 = -54-— 286 — 2,2 86 86 Получим линейное уравнение: Ух — 0,74-2,2 х. Используем матричные методы для решения уже разоб- ранной выше задачи (см. табл. 2.13). Введем ряд значений, состоящий из 4-1, таким образом будем иметь следующую систему: 56
11 1 3,0 5,0 11 1 2,0 4,0 9 1 2,0 3,0 8 On 1 2,4 3,3 12 14 ; А= 0 01 ; х^ 1 1 2,7 2,1 5,5 3,8 11 аа 1 2,8 4,9 15 1 2,5 4,1 14 1 5,0 8,0 19 1 6,0 10,0 Следовательно, У1л — а0 х0 + аж + а2х2 или 11 1 3,0 5,0 11 1 2,0 4,0 9 1 2,0 3,0 8 1 2,4 3,3 йл у = х-А; 12 14 = 1 2,7 5,5 1 2,1 3,8 • и 01 11 1 2,8 4,9 а2 15 1 2,5 4,1 14 1 5,0 8,0 19 1 6,0 10,0 Произведение хг-у= 1 1 1 1 1 1 1 1 1 1 = 3,0 2,0 2,0 2,4 2,7 2,1 2,8 2,5 5,0 6,0 5,0 4,0 3,0 3,3 5,5 3,8 4,9 4,1 8,0 10,0 11 11 9 8 12 14 И 15 14 19 11 11 9 8 12 14 11 15 14 19 33,0 22,0 18,0 19,2 32,4 29,4 30,8 37,5 70,0 114 55,0 44,0 27,0 26,4 66,0 53,2 53,9 61,5 112 190 124 406 689 57
Затем хт-х = 111111111 1 3,0 2,0 2,0 2,4 2,7 2,1 2,8 2,5 5,0 6,0 5,0 4,0 3,0 3,3 5,5 3,8 4,9 4,1 8,0 10,0 1 3,0 5,0 1 2,0 4,0 1 2,0 3,0 1 2,4 3,3 1 2,7 5,5 1 2,1 3,8 1 2,8 4,9 1 2,5 4,1 1 5,0 8,0 1 6,0 10,0 10 31 52 31 110 184 52 184 311 Рассчитаем определитель матрицы А = 10 31 31 НО 52 184 52 184 311 = 445. Рассчитаем алгебраические дополнения: д I 1 НО 184 I осл. д I 31 52 73. Л11“ +| 184 311 l"35 ’ Л21~ 1 184 31k ~16' д I 31 184 07. л । I Ю 52 I дле. Я12-+ 52 311 27, Л*»“+|52 311 |Ub’ А"= +| 52 184 |= —16; Ла* = —[ 52 184 = 228' л 1 Ю 52 I ооо- 32 1 31 184 | ’ Д I 10 311 1QQ Азз~ + 31 НО | 10У’ Отсюда 354 —73 — 16 124 Оо А = (хтх)_1хг-у = 445 —16 —228 139 • 406 = > —27 406 —228 689 а0 = 7,53; ах= —2,93; аа = 2,74; =: 7,53—2,93хх -|- 2,74ха. 58
Разобранный выше способ нахождения параметров при линейной зависимости может быть обобщен на п фак- торов [32]. Если уравнение множественной регрессии имеет вид [10, 37]: = а0 + + а2х2 + ... + ОпХп, матрицы записываются так: Х1 1 *12 *13 ... Х1п У1 a0 *21 *22 ^23 ••• %2п Уз «1 х = X- 11 *32 *33 ... Хзп ; у= Уз ; a — a2 Xni Xn2 Xn3 ••• XNn yN On исходная система для решения: У=х •А; У1 *11 *12 *13 ••• * In a0 Уз *21 *22 *23 ••• *' In <h Уз = *31 *32 * 33 ••• *ЗП • - Уы XN1 XN2 Х N3 •" Х Nn an Проделав все преобразования, разобранные выше, по- лучим систему: (х7'-а)-1-хг-у=А; *11 *12 *13 ••• *ln *11 * *21 *31 ... Xni —1 - *21 *22 *23 ••• *2n *12 *22 *32 ••• *n2 *31 *32 *33 ••• *3n • *13 *23 *33 ••• *713 X XNl XN2 XN3 XNn X IN X2N X3N"‘ XnN *11 *12 *13 У1 *21 *22 *23 •• • *2n Уз X *31 *32 X33 •• • *зп • Уз = A. XNl XN2 XN3 ’ ” XNn Уы Матричный метод весьма эффективен при изучении много- мерных линейных зависимостей, но при исследовании кри- волинейных зависимостей он не применим. Криволинейные зависимости описываются многочленами, на которые на- 59
кладываются менее строгие ограничения, чем на линейные и даже степенные функции. Однако следует учесть, что практически в регрессион- ном анализе могут быть использованы только многочлены второй степени, так как параметры многочленов более вы- соких степеней оказываются статистически незначимы. Многочлены приводятся к линейному виду, и их коэффици- енты находят, как обычно, методом наименьших квадратов. Основное требование применения многочленов в регрессион- ном анализе заключается в том, что все исследуемые ве- личины должны переводиться в стандартизованный мас- штаб [23, 34]. Значение факторного признака в стандар- тизованном масштабе вычисляется по формуле . __ xt—Xi tl——‘ где Xi — значение факторного признака в натуральном мас- штабе; ~Xt ио, — его статистические характеристики. Система нормальных уравнений в этом -случае имеет следующий вид: 2/4sPi2/i + Ра244+ ••• + Р» 244'» 2#а = Pi 24 4 + Ра 2/| +... + Ра 24 4» 2/4=рх244+ Ра 244+ — + Ph 2/*, где t — значение результативного признака в стандарти- зованном масштабе; рп — коэффициенты регрессии в стан- дартизованном масштабе. Одной из разновидностей регрессионного анализа яв- ляется метод Брандона. В основе применения этого метода лежит предположение, что результативный признак слабо связан с факторными признаками [34]. Уравнение, описы- вающее такую связь, имеет вид: (ха)... 4 (хп), т. е. результативный признак (функция У1.а.,.п) есть произведение некоторых функций факторных признаков (функций параметров). Каждая из функций 4 (хг) может быть как линейной, так и криволинейной. Порядковый номер каждой из функций в уравнении, а также последо- вательность решения Определяются степенью влияния (удельным весом) каждого t-ro фактора на результативный признак. Если же степень влияния факторов хх, ха, ..., хп 60
неизвестна или определена неправильно, решение данного уравнении приведет к неправильным выводам. Метод Бран- дона является графоаналитическим методом. Обычно для простоты расчетов функцию ft (xj) прини- мают линейной: ft (xt) =а0 + a^t. Методом наименьших квадратов рассчитываются коэффи- циенты ая и ах и строится линия регрессии Для при- нятых значений фактора хх находят все значения (Xi), а затем' Определяют новую функцию: Уъ ~ в/а/з(*з) •••fn(xn), п \хи которая зависит от п—1 факторов. Строится график у* = /а (^а)»по которому определяется уравнение связи f2 (хй) и т. д. Так продолжается до тех пор, пока не будут оп- ределены коэффициенты регрессии всех входящих в урав- нение регрессии факторных признаков. Таким образом прослеживается характер связей между результативным и факторными признаками. Широкое внедрение регрессионного анализа и его раз- новидностей в исследования способствует получению бо- лее точных количественных оценок связей социально- экономических явлений. 2.5. АНАЛИЗ РЕГРЕССИОННЫХ МОДЕЛЕЙ БОЛЬШОЙ РАЗМЕРНОСТИ При исследовании взаимосвязей сложных со- циально-экономических явлений и процессов путем по- строения статистических регрессионных моделей большой размерности метод наименьших квадратов обнаруживает некоторые отрицательные свойства. Это прежде всего не- возможность использования всей совокупности факторных признаков, которыми может располагать исследователь. Во-первых, включение всех имеющихся в распоряжении исследователя факторов может привести к построению модели настолько большой размерности, что потеряется обозримость результатов. Такую модель невозможно интер- претировать или просто осмыслить; исследователь не в со- стоянии уловить проявляющиеся закономерности в массе малозначимых факторных признаков. Следовательно, на- прашивается вывод о необходимости сокращения размер- 61
ности модели, о выделении и включении в модель только основных факторных признаков. Во-вторых, как только исследователь переходит к переоценке значений каждого факторного признака и в конечном итоге к исключению части факторов, он впадает в другую крайность и волей или неволей исключает часть достаточно важной информа- ции. Кроме малозначимых факторов, исследователь вынуж- ден также исключить и коллинеарно связанные фактор- ные признаки, иначе коэффициенты регрессии будут плохо обусловлены. Однако, как бы тесно ни были связаны между собой факторные признаки, какие бы общие причины их ни порождали, каждый из коллинеарно связанных фак- торов несет какую-то часть новой информации. Дальнейшим расширением использования метода на- именьших квадратов и связанного с ним корреляционно- регрессионного анализа является многомерный статисти- ческий анализ и прежде всего метод главных компонент и каноническая корреляция. Метод главных компонент. Метод глав- ных компонент является способом сокращения размерности статистических задач без потери какой-либо части исходной информации. Исходные данные для применения метода главных компонент представляются матрицей парных коэф- фициентов корреляции (корреляционной матрицей). Задачей метода главных компонент является расчленение диспер- сии между строками корреляционной матрицы и дальней- ший переход к новым показателям—главным компонентам. Количество главных компонент равно числу строк мат- рицы, первая компонента обладает максимальной диспер- сией, вторая—максимальной дисперсией из ортогональных к первой и т. д., т. е. первая главная компонента — это линейная комбинация исходных параметров, которая учи- тывает максимум суммарной дисперсии,, а вторая главная компонента учитывает максимум оставшейся дисперсии и jie коррелирует с первой. Сумма всех главных компонент равняется сумме дисперсий исходных факторных призна- ков. Важнейшим условием применения метода главных ком- понент является линейное преобразование исходной си- стемы признаков, которое и приводит к выделению главных компонент. Сущность этого преобразования заключается в переносе координат исходных данных в точку, вокруг которой концентрируется большая часть исходных данных. Если полученное поле точек обвести эллипсоидальной 62
кривой, то большая и малая оси эллипса образуют новую систему координат в центре облака, масштаб изменится таким образом, что дисперсии по обеим осям становятся одинаковыми [12, 18]. Матрица исходных данных трансформируется так, что исключается межгрупповая дисперсия, которая не является объектом анализа. Устранение межгрупповой дисперсии достигается посредством преобразования, при котором сред- няя арифметическая по каждой строке становится равной нулю. Полученная таким образом трансформированная мат- рица исходных данных умножается на транспонированную, что дает симметричную матрицу. На следующем этапе производится поворот системы координат, с тем чтобы ось абсцисс прошла по направлению максимальной дисперсии «облака» точек, после чего рассчитываются собственные чис- ла и собственные векторы. Векторы нормируются, их сумма становится равной единице. Главные компоненты получа- ются путем умножения трансформируемой матрицы на матрицу векторов. Процесс выделения главных компонент характеризует диаграмма, представленная на рис. 2.3 [35]. Рис. 2.3 Как уже отмечалось, целью применения метода главных компонент является сокращение числа факторных приз- наков, однако в уравнение могут быть включены все фак- торные признаки и тогда результат будет аналогичен мно- жественному уравнению регрессии. Пример. По одной из областей исследовалась рентабельность совхозов у (в процентах) в зависимости от следующих факторов: хг — среднегодовая численность ра- ботников, занятых в основном производстве, чел.; ха — 63
фонд заработной платы, тыс. руб.; х3— прибыль от реа- лизации продукции растениеводства, тыс. руб.; х4 — при- быль от реализации продукции животноводства, тыс. руб.; хъ — стоимость основных производственных фондов сель- скохозяйственного производства, тыс. руб.; xt— стои- мость валовой продукции, тыс. руб.; х, — себестоимость одного центнера зерна, руб.; х8 — затраты труда на про- изводство основной продукции, тыс. чел.-ди.; х9 — наличие тракторов, шт.; х10 — энергетические мощности на одного работника, занятого в сельскохозяйственном производст- ве, кВт • ч. Корреляционная матрица симметрична (табл. 2.15). Таблица 2.15 *1 ха X» ... ХЛ х9 Х1 *3 1 0,67650 0,65283 0,676500,65283 1 0,76678 0,76678 1 ... 0,56028 0,80146 0,81467 0,53787 0,80325 0,79962 0,10960 0,09143 0,16606 х» х9 Х19 0,56028 0,53787 0,10960 0,80146 0,81467 0,803250,79962 —0,091430,16606 ... 1 0,9702 0,22261 0,97021 1 —0,02530 0,02261 —0,02530 1 Для нахождения главных компонент используют стан- дартные программы, которые реализуются на ЭВМ и полу- чают собственные значения, определяющие вклад каждой из главных компонент в общую дисперсию. Матрица собст- венных значений 4,693590 0 0 0 0 0 0 2,48256 0 0 0 0 0 0 1,45148 0 0 0 0 0 0 0 0 0 А — 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ...0,04943 0 0 0 0 0 0 0,02238 0 0 0 0 0 0 0,01107 Собственные значения расположены по главной дааго- нали матрицы. Общая дисперсия равна числу всех фак- торов п, в данном примере п = 10. 64
Вклад каждой главной компоненты в общую дисперсию определяют путем деления собственных значений на число компонент; например, вклад первой компоненты в про- центах: у = —•100 = 46,9. 10 В табл. 2.16 приведены расчеты у для всех главных ком- понент и накопленные суммы. Таблица 2.16 Компоненты ^2 ^3 Ло Y» % 46,9 24,8 14,5 3,6 2,7 2,1 1,0 0,5 0,2 0,1 Накопленные суммы, % 46,9 71,7 86,2 89,8 92,5 94,6 95,6 96,1 96,3 96,4 Нетрудно заметить, что первые три главные компоненты предопределяют суммарный вклад в общую дисперсию на уровне свыше 86%. Следуя выработанному практикой применения метода главных компонент правилу, рекомен- дующему учитывать только те главные компоненты, которые имеют собственные значения больше единицы (или у >10%), включаем в дальнейший анализ только три первые компо- ненты. Приведем таблицу значений коэффициентов при глав- ных компонентах (табл. 2.17). Таблица 2.17 Фактор Весовые коэффициенты “* 1 1 ". 1 и, I ... | и, | “• 1 U19 *1 0,16 0,11 <0,83 .... 0,71 0,60 96,4 Х2 0,14 0,82 0,02 0,08 0,86 94,7 *3 0,87 0,02 0,00 .... 0,05 0,02 81,9 Х8 0,28 0,15 0,29 0,28 0,41 83,2 х9 0,00 0,11 0,43 .... 0,36 0,27 93,0 *10 0,00 0,38 0,31 .... 0,17 0,83 82,1 Коэффициенты при главных компонентах и} показывают зависимость факторов Xj от новых, стандартизованных при- 3 Зак. 1921 65
знаков. Из приведенной таблицы видно, с какими главными компонентами и как тесно связаны факторные признаки. Будем считать, что признак имеет тесную связь с главной компонентой, если и/ 0,50. Чем теснее связь данного фактора с главной компонентой, тем значимее он проявляет себя как параметр уравнения на главных компонентах. Факторы могут быть включены в различные уравнения, но их значимость (существенность) будет в любом уравнении определяться величиной весового коэффициента. Наиболее трудной проблемой является экономическая интерпретация главных компонент. Метод главных компо- нент используется для выделения групп взаимосвязанных факторов, объединенных качественной определенностью. Первая главная компонента связана с восемью факторными признаками, т. е. со всеми, кроме двух последних. Наибо- лее тесную связь эта компонента имеет с х3 — прибыль от реализации продукции растениеводства; х4 — прибыль от реализации продукции животноводства; х6 — стоимость ва- ловой продукции и х7 ’— себестоимость одного центнера зерна. Вторая главная компонента наиболее тесную связь имеет с х2 — фонд заработной платы; х8 — стоимость ос- новных производственных фондов сельскохозяйственного производства; х10 — энергетические мощности на одного работника, занятого в сельскохозяйственном производстве. Третья главная компонента тесно связана с хх — средне- годовая численность работников, занятых в основном про- изводстве, и х9 — наличие тракторов. В данном примере первая главная компонента выражает финансовые резуль- таты хозяйственной деятельности совхозов; вторая — ис- пользование живого труда; третья — техническую воору-. женность труда. Каноническая корреляция. До сих пор излагались экономико-статистические методы анализа, ко- торые давали возможность построить статистическую мо- дель, выражающую зависимость одного результативного признака от множества факторных. Такие уравнения, ка- кими бы сложными они ни были, выражают лишь одну един- ственную цепь причинно-следственных связей, тогда как социально-экономические явления характеризуются на- личием большого числа взаимопереплетающихся причинно- следственных связей. Одним из способов выражения таких взаимосвязей является метод канонической корреляции (МКК). 66
Каноническая корреляция — обобщение множественной регрессии на случай, когда имеется несколько результатив- ных и множество факторных признаков. Каноническая корреляция — это регрессия между линейной комбинацией нескольких факторных и нескольких результативных приз- наков. Исследователям, занимающимся анализом социаль- но-экономических явлений с помощью статистических ме- тодов, хорошо известно, что результаты хозяйственной де- ятельности (например, эффективность общественного произ- водства) нельзя отразить с помощью одного показателя. Не- обходимо использовать если не систему, то хотя бы ряд (на- бор) показателей. При этом наиболее сложной задачей яв- ляется выбор небольшого числа признаков. Отбираемые для построения модели канонической корреляции признаки мо- гут быть сильно коррелированы между собой (а не независи- мы, как этого требует обычный регрессионный анализ), кор- релированными могут быть и факторные признаки. Это объ- ясняется тем, что преобразовательные процедуры МКК поз- воляют освобождаться от мультиколлинеарности; новые величины, получаемые в результате преобразования, будут независимы, в то же время связь между отобранными сово- купностями результативных и факторных признаков значи- тельно возрастает. Методология такого преобразования сле- дующая [5, 18]. Имеются две совокупности показателей: уи у2, ..., ук и Ук+1, Уь+2, •••> Уъ+р, причем k < р, т. е. число резуль- тативных признаков должно быть меньше числа факторных признаков. Общая совокупность этих показателей путем линейного преобразования сводится к новым величинам: ^2» •••• ^й+1» %k+2> •••> %k+p‘ & ВсеТ полученные в результате преобразования новые величиньГимеют нормальное распределение, т. е. для них ст® = 1, xt = 0. Значения в группе k и значения *k+i» *ъ+2> •••> *k+p в своей группе не коррелированы друг с другом. Некоррелированными являются и значения х1( х2, ..., хк с любым значением xft+i, ..., xh+p, за исклю- чением коррелированное™ хх и хй+1, х2 и хк+2, ..., хк и х2к. Соблюдение этих правил означает, что все величины исследуемой совокупности представлены в каноническом виде, т. е. представляют результативные и факторные при- знаки в виде групп линейных комбинаций. Общая задача канонического анализа заключается в на- хождении таких линейных функций от совокупностей пре- образованных величин, чтобы коэффициент корреляции з* 67
между ними имел максимально возможное значение, т. е. определяется теснота связи между двумя совокупностями. Максимальное значение 7? получают на основе способа множителей Лагранжа. Пример. Использование канонической корреляции в социально-экономическом анализе рассматривалось на примере совхозов одной из областей. Для исследования были отобраны следующие показатели, характеризующие производственно-хозяйственную деятельность совхозов: уг— производство валовой продукции на 100 руб. основных фон- дов сельскохозяйственного назначения, руб.; у3 — уро- вень рентабельности, %; у3 — затраты труда на производ- ство основных видов продукции, чел.-ч на один центнер; Xi — стоимость основных фондов сельскохозяйственного производства, тыс. руб.; ха — наличие основных фондов сельскохозяйственного назначения на одного среднегодового рабочего (фондовооруженность), руб.; ха — валовая про- дукция, тыс. руб.; х4 — среднегодовая численность работ- ников, занятых в сельскохозяйстенном производстве, чел.; х3—прибыль по всем видам деятельности, тыс. руб.; хв — себестоимость одного центнера зерна, руб.; х7 — наличие тракторов, штук; xs — приходится энергетических мощностей на одного работника, занятого в сельскохо- зяйственном производстве, л. с.; xi0 — валовая продукция на 100 руб. затрат, руб.; х10 — фонд заработной платы работников, занятых в сельскохозяйственном производстве тыс. руб. Результативными (выходными) были выбраны у1г у2, Уз- При реализации поставленной задачи на ЭВМ были по- лучены следующие зависимости: каноническая корреля- ция между группами результативных и факторных приз- наков оказалась равной /? =0,902; канонические корре- ляции отдельных результативных признаков и наборов факторов следующие: Ry,/Xi... х„ = 0,276; Ryt/Xt... ж.. = 0,347; Rvjxi... *i» =0,309. Такие результаты вытекают из основного принципа этого метода исследования: высокая каноническая корре- ляция между сформированными группами признаков и срав- нительно незначительная между каждым результативным признаком и группой факторных. Одновременно определялись канонические корреляции между отдельными результативными признаками и набо- рами факторных. Причем набор факторных признаков про- изводился с таким расчетом, чтобы туда включались только 68
Таблица 2.18 t Каноническая корреляция *1 Результативный признак Факторные признаки Vi 1 V» Первая 0,803 0,749 0,504 0,241 Х1 х8 х9 х7 х9 х9 Вторая 0,768 0,443 0,636 0,478 х3 х9 х9 х9 х10 Третья 0,781 0,323 0,457 0,679 х2 х8 х4 х7 х8 х10- те факторные признаки, которые имеют наиболее тесную связь с выделенным результативным признаком. При этом определялись и общие канонические корреляции. Получены следующие данные (табл. 2.18). Данные таблицы показывают, что отобранные фактор- ные признаки хотя и увеличивают каноническую корреля- цию с соответствующим результативным признаком, но основной методологический принцип канонической кор- реляции выдерживается, и в этом случае величина общей канонической корреляции выше, чем между отдельными результативными признаками и соответствующими груп- пами факторных признаков. Каноническая корреляция может быть использована для решения проблемы сокращения размерности статистических моделей. Если в классическом регрессионном анализе часть факторных признаков можно отбросить на основании проверки их значимости, то в каноническом корреляцион- ном анализе вопрос о значимости, пользе того или иного факторного признака решают на основе оценки величины канонической корреляции. Если при отбрасывании какого- либо факторного признака значение канонической корреля- ции становится меньше нижней границы, то этот факторный признак считается бесполезным.
е Глава 3 МЕТОД НАИМЕНЬШИХ КВАДРАТОВ В ОБРАБОТКЕ РЯДОВ ДИНАМИКИ 3.1. ОБРАБОТКА ОДНОМЕРНЫХ ДИНАМИЧЕСКИХ РЯДОВ МЕТОДОМ НАИМЕНЬШИХ КВАДРАТОВ Статистика изучает социально-экономические яв- ления не только в их взаимной связи и взаимной обусловлен- ности, но и в движении, развитии. Процесс развития соци- ально-экономических явлений во времени в статистике назы- вают динамикой. Размеры отдельных социально-экономиче- ских явлений, связанных с определенным периодом или да- той времени, называют уровнями. Последовательности уров- ней образуют ряд динамики. В зависимости от характера уровней различают ряды интервальные и ряды моментные. Примером интервального ряда динамики могут служить данные, характеризующие добычу угля в СССР (табл. 3.1). Таблица 3.1 Год Добыча угля, млн. т Год Добыча угля, млн. т Год Добыча угля, млн. т 1965 578 1970 624 1975 701 1966 586 1971 641 1976 712 1967 595 1972 655 1977 722 1968 594 1973 668 1978 724 1969 608 1974 685 Примером моментного ряда служат следующие данные на начало года (табл. 3.2). Уровни рядов динамики могут быть выражены не толь- ко абсолютными, но и относительными, и средними вели- чинами. Однако наибольший интерес с точки зрения науч- ных и практических потребностей имёют интервальные ряды, образованные из абсолютных уровней. Формирование уровней ряда динамики происходит под воздействием много- численных факторов, однако все воздействующие факторы 70
Год 1939 1959 1970 1977 1979 Численность населения, имеющего высшее и среднее (полное и неполное) образование^ млн. чел. 15,9 58,7 95,0 126,1 139,1 можно свести к трем основ- ным, которые принято назы- вать компонентами ряда ди- намики'. тенденция, сезонная компонента, случайная ком- понента. Важнейшей из них является тенденция, которая определяет общее изменение уровней ряда в течение длительного времени. Сле- довательно, тенденция — это долгосрочная компонента. Сезонная компонента характе- ризует регулярно повторяющиеся во времени изме- нения. Эта компонента наиболее четко проявляется в сельском хозяйстве, в отраслях промышленности, связан- ных с переработкой сельскохозяйственного сырья, в спросе населения на отдельные виды товаров и т. д. Случайная компонента возникает под действием большого числа самых разнообразных, не связанных друг с другом, сравнительно незначительных факторов. Основные компоненты могут воздействовать на величину уровней ряда динамики по- разному: в одних случаях значения уровней динамических ряд9в являются произведением этих компонент [8, 15]: У Т • С • Н, где Т — тенденция, С — сезонная, Н — случайная (не- регулярная) компонента; в других случаях — суммой у = Т + С + Н. Тенденция так или иначе проявляется почти во всех динамических рядах. Даже в рядах с ярко выраженной сезонной компонентой можно проследить некоторую тен- денцию. Статистика разработала несколько способов оп- ределения тенденции в динамических рядах. Наиболее простым способом является метод укрупнен- ных интервалов с последующим расчетом скользящих (по- движных) средних. Это один из основных способов выяв- ления тенденции, когда последняя скрыта за колебаниями уровней ряда. Пример. Рассчитаем пятидневные скользящие сред- ние по данным о реализации продукции цехом ширпотреба (табл. 3.3). 71
Таблица 3.3 Число месяца Реализация продукции, тыс. руб. Подвиж- ные пятиднев- ные суммы Скользя- щие средние Число месяца Реализация продукции, тыс. руб. Подвиж- ные пятиднев- ные суммы Скользя- щие средние 9 10 19 8 62 12,6 10 9 22 9 60 11,4 11 8 9 23 17 63 13,0 12 7 9,8 24 12 57 13,4 15 11 45 11,6 25 19 65 16,0 16 14 49 12,2 26 10 67 17 18 58 12,4 29 22 80 18 11 61 12,0 Наиболее ярко прослеживается тенденция, если ре- зультаты выравнивания изобразить графически (см. рис. 3.1). Расчет скользящих средних носит название сглаживания рядов динамики. С укрупнением интервалов степень «сгла- женности» временных рядов увеличивается. Если ряд динамики имеет четное число членов, то про- цедура расчета скользящих средних дополняется элемен- том «центрирования». 72
Таблица 3.4 Число месяца Реализован- ная продукция, тыс. руб. Подвижные четырех- дневные суммы Скользящие средние Центриро- ванные средние " 9 10 10 9 8,50 — 11 8 8,63 8,75 12 7 34 9,38 10,00 15 11 35 11,25 12,50 16 14 40 13,00 13,50 17 18 50 13,13 12,75 18 • 11 54 12,13 11,50 19 8 51 11,38 11,25 22 9 46 11,38 11,50 23 17 45 12,88 14,25 24 12 46 14,38 14,55 25 19 57 15,13 15,75 26 10 58 17,50 19,25 29 22 63 — № 30 26 77 — Пример. Процедуру «центрирования» рассмотрим на том же примере, предварительно рассчитав четырехднев- ные скользящие средние (табл. 3.4). Следует отметить недостаток метода скользящих сред- них—потерю некоторой части информации, которую несет исходный временной ряд. Наряду с методом скользящих средних для определения основной тенденции развития явления широко используется метод наименьших квадратов. Если с помощью скользя- щей средней устанавливается лишь тенденция явления, то с помощью метода наименьших квадратов устанавливается также ее аналитическое выражение. 73
В социально-экономической статистике для выявления и аналитического выражения тенденции динамического ряда наиболее часто используются следующие функции: yt = а0 + — полином первой степени; yt ~ о0 + <ht + о2/2 — полином второй степени (парабола); yt = а0 • а{ — показательная функция, а также поли- номы более высоких порядков. Используя метод наимень- ших квадратов, минимизируем выражение [8]: S = 2(y—^)2=>min. Систему нормальных уравнений для нахождения не- известных параметров полиномов различных степеней мож- но записать так: Na3 4~ох Si 4*о2 Si24- C3 Si3 -J-... 4-onSin = St/; a0 Si +at St2+a2 Zt3 4- a3 Si4 4-...4- an Sin+1 = tyt; Oo S/2 + Qi Si3 + a2 + a3 Si8 +... -|-an S/«+2= 2yi2; a^S^-b o1Sin+14- a2S/n+24- a3 Si«+34- ... 4-anSi2n = S#/n. Систему нормальных уравнений можно значительно упростить1, применяя такой отсчет времени, что Si = 0: ЛЧ 4-о8 Si** 4- •••4* Од Sirt == at Б/2 4- a3 Si4 4-... == Si/i; О!о S/2 4- a2 Si4 4-... 4- an Sin+2 = Zyt2-, a0 2tn 4- a2 Sin+2 4-... 4- an Si2n=Zytn. При выравнивании ряда динамики методом наименьших квадратов по показательной функции для определения не- известных параметров а0 и ах в качестве исходного следует применять логарифмическое уравнение: lg yt — lgo0 + t lg ax. При этом система нормальных уравнений записывается так: ( Wlga04-lgOiS/ = Slgi/;'‘ I lga0S/4-lgaiS/2=S/lgy, 1 Система для случая, когда п. четно. 74
или, если S/ = 0, то AHgao = Slg0; \ga^^t\gy. * ' ’ Однако при решении уравнений регрессии можно и не приравнивать S/ = О, а вводить время в исследуемый динамический ряд прямым методом, т. е. t будет принимать значения от 1 до п. В этом случае решение системы урав- нений также можно упростить. Эти упрощения объясня- ются тем, что величины S/, S/2, S/8, 2/4 и т. д. не связаны с величинами уровней ряда динамики. Если уровни рядов динамики равно отстоят друг от друга, то суммы S/, S/2,2 Z8, S/4 и т. д. будут являться функциями числа уровней. Ис- пользуя это положение, получим расчетные формулы [39]; Я(Я~Ю . 2 ’ =* 2/. I п (Я~Ю • 3 6 2/3 = (2/)2- я8<я+1); 2/4у/а Зп»+3л— 1 п(п+1)(2п+1)(3п»+3л —1) 5 30 и т. д. Статистика выработала общие принципы выбора ис- ходного уравнения для сглаживания рядов динамики: если приросты уровней динамического ряда колеблются около постоянной величины (увеличиваются в арифмети- ческой прогрессии), то сглаживание производится по поли- ному первой степени ^уравнению прямой). Если приросты приростов уровней динамического ряда колеблются около постоянной величины, то сглаживание производится по по- линому второй степени (параболе второго порядка). Если приросты приростов уровней динамического ряда колеб- лются около относительной постоянной величины (увели- чиваются в геометрической прогрессии), то сглаживание производится по показательной функции. Выбор той или иной кривой для сглаживания уровней динамического ряда зависит, прежде всего, от результатов предварительного анализа сущности изучаемого явления. Примеры: 1. Провести сглаживание ряда динами- ки «Производство стали в СССР» (см. табл. 3.5), аналитиче- ская форма выражения основной тенденции которого пря- мая (полином первой степени). 75
Таблица 3.5 Год Производство стали, мли. т, и t Р yt »t 1961* 71 —7 49 —497 70,86 1962 76 —6 36 —456 75,88 1963 80 —5 25 —400 80,90 1964 85 —4 16 —340 85,92 1965 91 —3 9 —273 90,94 1966 97 —2 4 —194 95,96 1967 102 —1 1 —102 100,98 1968 107 0 0 0 106,0 1969 ПО 1 1 ПО 111,02 1970 116 2 4 232 П6,04 1971 121 3 9 363 121,06 1972 126 4 16 504 126,08 1973 131 5 25 655 131,10 1974 136 6 36 816 136,12 1975 141 7 49 987 141,14 Итого 1590 280 1 405 1 590 Так как прирост уровней данного ряда колеблется при- мерно около постоянной величины, их изменение можно описать полиномом первой степени (уравнением прямой): yt = «о + <ht. В этом случае метод наименьших квадратов приводит к следующей системе нормальных уравнений: Ata,+^2/=Sy; ae 2^+Ох 2/*=2yL При 2/ = 0 система упрощается: Na^^y, a^^Zyt. 1 Следовательно, для рассматриваемого примера согласно расчетным данным табл. 3.5. | 15ао=159О; 1280a! = 1405; a0= 106; 01 = 5,02. Следовательно, yt = 106+5,02 t. 76
Таблица 3.6 Год Производство чугуна, млн. т - У t 1960 М —15 225 —705 47,55 1961 51 —13 169 —663 51,31 1962 55 —11 121 —605 55,07 1963 59 —9 81 —531 58,83 1964 62 —7 49 —434 62,59 1965 66 —5 25 —330 66,35 1966 70 —3 9 —210 70,11 1967 75 —1 1 —75 73,87 1968 79 1 1 79 77,63 1969 82 3 9 246 81,39 1970 86 5 25 430 85,15 1971 89 7 49 623 88,91 1972 92 9 81 828 92,67 1973 96 11 121 1056 96,43 1974 100 13 169 1300 100,19 1975 103 15 225 1545 103,95 Итого 1212,0 1 360 2 554 1212,0 Если ряд динамики имеет четное число уровней, то, для того чтобы получить величину S/ = 0, двум уровням, лежащим в середине ряда, присваиваются: —1 и 1, а затем— соответственно—3, —5, —7 и т. д., 3, 5, 7 и т. д. 2. Рассмотрим динамический ряд, характеризующий производство чугуна в нашей стране, и произведем сглажи- вание уровней с помощью прямой (табл. 3.6). Подсчитываем параметры: 16 а9= 1212,0; 1 360 ах = 2 554; Ов=75,75; ах=1,88. Следовательно, yt = 75,75+1,88/. Если тенденция аналитически выражается параболой второго порядка yt = ао + ах/ + а212, 77
Таблица 3.7 Число месяца Валовая продукция, тыс. руб. У t Р vt. yt* 14 12 —6 36 1296 —72 432 12,66 15 15 —5 25 625 —75 375 14,65 16 19 —4 16 256 —76 304 18,0 19 23 —3 9 81 —69 207 22,71 20 29 —2 4 16 —56 116 28,78 21 35 —1 1 1 —35 35 36,21 22 44 0 0 0 0 0 45,0 23 53 1 1 1 53 53 55,15 26 69 2 4 16 138 276 66,66 27 80 3 9 81 240 720 79,53 28 94 4 16 256 376 1504 93,76 ' 29 109 5 25 625 545 2 725 109,35 30 126 6 36 1296 756 4 536 126,27 Итого 708 182 4 550 1723 11283 708,73 то система нормальных уравнений для определения неиз- вестных параметров а0, аг записывается так: Na0 4- ах S/ +а2 2/2 = St/; а0 Б/4- а± Б/2 -|-.аа Б/8 = Б#/; «о Б/2 + ах Б/8 4- а2 Б/4 4- St//2. Учитывая, что сумма t в нечетных степенях равна нулю, вскГсистему можно значительно.упростить: u Na0 4- Оа Sf2 = St/; . axS/2 = St//; а0Б/2 = St//2. 3. Выразить аналитически (параболой второго порядка) тенденцию производства валовой продукции цехом шир- потреба предприятия в декабре (табл. 3.7). Подсчитываем параметры: ах = 9,47; а2 = 0,68; а0 = 45,0. Следовательно, yt = 45,04-9,47 t 4- 0,68 /2. 4. Рассмотрим ряд динамики, характеризующий реа- лизацию услуг населению в области (табл. 3.8). 78
Таблица 3.8 Год Реализация услуг насе- лению в области, тыс. руб. У tgv t Р Н*У ie^t «1 1965 7,4 0,8692 —5 25 —4,3460 0,8796 7,6 1966 9,3 0,9685 —4 16 —3,8740 0,9722 9,4 1967 11,6 1,0645 —3 9 —3,1935 1,0648 Н,6 1968 14,1 1,1492 —2 4 —2,2984 1,1574 14,4 1969 18,5 1,2672 —1 1 —1,2672 1,2500 17,8 1970 21,9 1,3404 0 0 0 1,3426 22,2 1971 27,8 1,4440 1 1 1,4440 1,4352 27,2 1972 35,7 1,5527 2 4 3,1054 1,5278 33,7 1973 42,4 1,6274 3 9 4,8822 1,6204 41,7 1974 49,1 1,6911 4 16 6,7644 1,7130 51,6 1975 62,3 1,7945 5 25 8,9725 1,8056 63,9 Итого 300,1 14,7687 110 10,1894 301,1 Аналитическое выражение тенденции данного ряда явно тяготеет к уравнению показательной функции: ~yt = -Рассчитаем неизвестные параметры этого уравнения. На основе формул (3.1) подсчитываем: 1g «о = —— = 1,3426; 10,1894 Л ЛАОС 1g 01=—“5------=0,0926. Следовательно, yt = 1,3426+0,0926 t. Метод наименьших квадратов применим также и к об- работке динамических рядов, имеющих сезонные (периоди- ческие) колебания [6, 19]. Такие динамические ряды могут быть описаны уравнением в виде ряда Фурье: — т yt=a-\- 2 (&* cos #+dk sin kt), t=i 79
где k определяет номер гармоники ряда разложения, а коэффициенты вычисляются по методу наименьших квад- ратов из выражения: S=S(^k— ^)’=>min, W Ук — результативный признак, рассчитанный с учетом k-й гармоники ряда разложения. После преобразований из системы нормальных урав- нений получаем формулы для определения параметров: 2 bk=— SwcosAf; л 2 —— и sin kt. п Учитывая, что периодические колебания, в частности сезонные, регулярно повторяются из года в год, можно взять п = 12, тогда а= Sy . 12 ’ « Sy cos kt Ь» = —5—• (3.3) sin kt 6 а ряд динамики можно записать в виде: Таблица 3.9 У У9 Vi Ут У» У< Ут Ут Ут Ут Ут У19 Ун t 0 л л л 2л 5л л 7л 4л Зл 5л Пл т 3 2 3 6 6 3 2 Т 6 Пример. По данным о реализации населению това- ров весенне-летнего сезона (см. табл. 3.10) построить модель сезонной волны по первым двум гармоникам ряда Фурье. Выбрать модель, наилучшим образом описываю- щую изучаемый процесс. 80
Таблица 3.10 Месяц Реализа- ция товаров, - тыс. руб. У i cos t sin t у cos i у sint ' \ Январь 20,7 0 1,00 0,00 20,7 0,00 7,86 Февраль 24,8 л/6 0/866 0,500 21,48 12,4 16,76 Март 30,9 л/3 0,500 0,866 15,45 26,76 33,28 Апрель 41,4 л/2 0,00 1,00 0,00 41,4 54,8 Май 62,5 2 л/3 —0,500 0,866 —31,25 54,13 74,42 Июнь 87,6 5л/6 —0,866 0,500 —75,86 43,8 87,42 Июль 114,1 л —1,00 0,000 —114,1 0,00 90,44 Август 91,3 7л/6 —0,866 —0,50 —79,07 —45,65 81,43 Сентябрь 50,0 4л/3 —0,500 —0,866 —25,0 —43,3 64,72 Октябрь 32,2 Зл/2 0,00 —1,00 6,00 —32,2 43,4 Ноябрь 19,8 5л/3 0,500 —0,866 9,9 —17,15 23,58 Декабрь 12,6 Пл/6 0,866 —0,50 10,91 — 6,3 10,72 Итого 587,9 -246,84 33,89 Формула для расчета ряда динамики с учетом первой гармоники записывается так уп=а 4- breast+diSinZ По данным табл. 3.10 и по формулам (3.3) рассчитаем: 587,9 .п Л а =---— = 49,0; 12 Z>1Sg~246,8l = 41,14; 1 6 j 33189 = 5 6 1 6 Следовательно, с учетом первой гармоники ряд дина- мики описывается уравнением: yt = 49,0—41,14 cos/ 4- 5,6 sin t. Рассчитаем по тем же исходным данным yt с учетом второй гармоники: yt2 = а 4- bi cos t 4- sin t 4- 6a cos 2 t 4- d2 sin 2/. Вспомогательные расчетные данные приведены в табл. 3.11» По данным табл. 3.11 и по формулам (3.3) рассчитаем: = JLL=14,8; 2 6 4 2^56 = 2,09. 6 4 Зак. 1921 81
Таблица 3.11 Месяц У t cos 2t sin 2t у cos 2t у sin 21 vt Январь 20,7 0 1 0 20,7 0 22,41 Февраль 24,8 л/6 0,5 0,866 12,4 21,48 25,26 Март 30,9 я/3 —0,5 0,866 —15,45 26,76 27,81 Апрель 41,4 л/2 —1 0 —41,4 0 43,85 Май 62,5 2л/3 -0,5 —0,866 —31,25 —54,13 65,33 Июнь 87,6 5л/6 0,5 —0,866 43,8 -75,86 92,89 Июль 114,1 я 1 0 114,1 0 104,69 Август 91,3 7л/6 0,5 0,866 45,65 79,07 90,52 Сентябрь 50,0 4я/3 —0,5 0,866 —25,0 43,3 59,25 Октябрь 32,2 Зл/2 —1 0 —32,2 0 27,04 Ноябрь 19,8 5л/3 —0,5 —0,866 —9,9 —17,15 14,49 Декабрь • 12,6 11Л/6 0,5 —0,866 6,3 —10,91 16,19 Итого 587,9 88,8 12,56 Следовательно, yt = 49,0—41,14 cos t + 5,6 sin t + 14,6 cos 2 t + + 2,09 sin 2 t. (3.4) Подсчитанные суммы квадратов отклонений выравнен- ных значений от исходных данных 2 (у — у^г равны: с учетом первой гармоники — 1412,85; с учетом второй гармоники — 297,10. Следовательно, расчет с учетом второй гармоники бо- лее полно воспроизводит сезонную волну и уравнение (3.4) может быть использовано в качестве модели данного динамического ряда. 3.2. ПРИМЕНЕНИЕ МЕТОДА НАИМЕНЬШИХ КВАДРАТОВ ПРИ ОБРАБОТКЕ СВЯЗАННЫХ РЯДОВ ДИНАМИКИ Многомерные временные ряды, показывающие за- висимость результативногопризнака от одного или несколь- ких факторных, называют* связанными рядами динамики. Применение метода наименьших квадратов для обработки рядов динамики не требует выдвижения никаких предполо- жений о законах распределения исходных данных. Однако лри использовании метода наименьших квадратов к обработ- 82
ке связанных рядов следует учитывать особенности динами- ки социально-экономических явлений. Эти особенности со- стоят в том, что между предыдущими и последующими уров- нями рядов динамики имеется определенная связь, которая носит название автокорреляции (авторегрессии). При об- работке одномерных рядов динамики наличие автокорре- ляции лишь способствует более полному и четкому выяв- лению тенденции развития рассматриваемого социально- экономического явления во времени. При обработке же методом наименьших квадратов связанных рядов динамики наличие автокорреляции отрицательно сказывается на не- которых оценках и прежде всего на величине среднеквадра- тических ошибок коэффициентов регрессии. А это в свою очередь приводит к искажению значений доверительных интервалов и затрудняет проверку их значимости. Статистика выработала несколько способов определения наличия автокорреляции в динамических рядах. Один из наиболее простых основан на использовании линейного ко- эффициента корреляции г. Величина г показывает тесноту связи между рядом исходных уровней yt и рядом тех же уровней, сдвинутых на один период времени, т. е. ^t+1. Она рассчитывается по следующей формуле: где (3'6) Пример. Рассчитаем коэффициент корреляции по данным о производстве чугуна в СССР (табл. 3.12). По данным табл. 3.12 и по формулам (3.5) и (3.6) под- считаем * rt = 0,424. Для проверки значимости автокорреляции применяются критерии Дарбина—Уотсона Dy или Неймана К 18, 20]. Критерий Дарбина—Уотсона вычисляется по формуле Dy Wt-Vf+i ZVf ’ 4» 83
Таблица ЗЛ2 Год Производство чугуна, мли. т Vt Vf+l * Vf I960 47 51 2 397 2 209 2601 1961 51 55 2 805 2 601 3 025 1962 55 59 3 245 3 025 3481 1963 59 62 3 658 3 481 3 844 1964 62 66 4 092 3 844 4356 1965 66 70 4 620 4 356 4 900 1966 70 75 5250 4900 5625 1967 75 79 5925 5625 6 241 1968 79 82 6 478 6 241 6 724 1969 82 86 7052 6 724 7396 1970 86 89 7654 7396 7921 1971 89 92 8188 7 921 8464 1972 92 96 8832 8464 9216 1973 96 100 9 600 9216 10000 1974 100 103 10 300 10000 10609 1975 103 10 609 Итого 1212 1165 90 096 96612 94403 а критерий Неймана SO't+i-Vi)8 К=-----, ~лГ где Vt = yt —~yt. Теоретически применение этих критериев основано на том, что в динамических рядах как сами наблюдения, так и отклонения от них распределяются в хронологическом порядке. При числе наблюдений N число значений Уг+1 будет равно W — 1. ; При условии, что отклонения уровней от тенденции (остатки) случайны, значения D, лежащие в интервале О—4', всегда будут находиться ближе к 2. Если автокорре- ляция положительная, то D<Z 2, если отрицательная, то 2 D 4. Следовательно, оценки, полученные по кри- терию, являются не точечными, а интервальными, их зна- чения для трех уровней значимости а = 0,01; а = 0,025 и а = 0,05 с учетом числа наблюдений даны в специальных таблицах. 84
Таблица 3.13 1 Производство чугуна, млн. т VI •%* % + гЧ + + 01 гЧ + £ 1960 47 —15 225 —705 47,6 -0,6 —0,4 0,240,36 0,2 0,04 1961 51 —13 169 —663 51,4 —0,4 —0,1 0,04 0,16 0,3 0,09 1962 55 —11 121 —605 55,1 —0,1 0,1 -0,010,01 0,2 0,04 1963 59 —9 81 —531 58,9 0,1 -0,6- -0,060,01- -0,7 0,49 1964 62 —7 49 —434 62,6 —0,6 —0,4 0,24 0,36 0,2 0,04 1965 66 —5 25 —330 66,4 —0,4 —0,2 0,080,16 0,2 0,04 1966 70 —3 9 —210 70,2 —0,2 1,1 -0,22 0,04 1,3 1,69 1967 75 —1 1 —75 73,9 1,1 1,3 1,43 1,21 0,2 0,04 1968 79 1 1 79 77,7 1,3 0,6 0,781,69- -0,7 0,49 1969 82 3 9 246 81,4 0,6 0,8 0,480,36 0,2 0,04 1970 86 5 25 430 85,2 0,8 0 00,64- -0,8 0,64 1971 89 7 49 623 89,0 0- -0,7 0 0- -0,7 0,49 1972 92 9 81 828 9,27—0,7 -0,5 0,350,49 0,2 0,04 1973 96 11 121 1056 96,5 —0,5- -0,2 0,10 0,25 0,3 । 0,09 1974 100 13 169 1300 100,2 -0,2- -1,0 0,2 0,04- -0,8 0,06 1975 103 15 225 1 545 104,0 -1,0 1,0 — И т о г о 1 212 1 360 2 554 3,65 6,78 5,07 Критерий Неймана дает только точечную оценку. В таблицах значения К даны для положительной (Ki) и для отрицательной (К2) автокорреляции. Если полученная в результате обработки динамического ряда величина /С будет имет значение ниже табличного, то автокорреляция положительная, если выше — отрицательная. Если, же полученное значение критерия лежит в интервале — Кг, то автокорреляция отсутствует. Пример. Проверим значимость полученного коэф- фициента корреляции rt, вычисленного по данным о про- изводстве чугуна в СССР (см. табл. 3.13). Рассчитаем критерий Дарбина — Уотсона. Для этого по формулам (3.2) составим систему нормальных уравнений, найдем а0 и аг и построим уравнение регрессии (вспомога- тельные расчетные данные приведены в табл. 3.13): ( 16а0=1212; 1 1360а! = 2 554; а0 = 75,8; а!=1,88; yt = 75,8 + 1,88/. 85
Величина критерия Дарбина — Уотсона D = = = 0,63, т. е. D < 2 и это подтверждает наличие в исходно м динамическом ряду положительной автокорреляции. Величина критерия Неймана (см. расчетные данные табл. 3.13) 5’°7 815 »0 8. 6,78:16 Полученная величина критерия Неймана также под- тверждает сделанные выводы о наличии в исследуемом ряду динамики положительной автокорреляции [8, 39]. Статистическая наука выработала несколько методов исключения автокорреляции: 1) метод Фриша—Воу — включение времени в качестве дополнительного фактора; 2) метод последовательных разностей; 3) метод авторегрес- сионных преобразований. Рассмотрим их. 1. По этому методу время вводится в систему связанных динамических рядов в явной форме, в качестве допол- нительного фактора. Уровни исходных динамических рядов могут быть представлены показателями в любой форме, в том числе логарифмической, а время всегда вводится в ли- нейной форме. Считают, что введение фактора времени сни- мает основную тенденцию развития всех явлений, представ- ленных исследуемыми рядами динамики. Доказано, что вве- дение времени аналогично использованию отклонений фактических данных от трендов. Применение метода наименьших квадратов к обработке многомерных временных рядов не отличается от методоло- гии его применения к обработке обычных статистических рядов. В рассматриваемом случае минимизируется следую- щее выражение: S = S lyi — f (xlt xit ..., хп, OP => min. Пример. По данным о реализованной продукции и накладных расходах на реализацию (см. табл. 3.14) найти линейное уравнение связи и рассчитать неизвестные пара- метры. Составим систему нормальных уравнений (см. табл. 3.14): N(Iq + fliSx -ф = St/; a0Sx + OxSx* 4- a2hxt= 2yx; do'Zt+a^xt +<zaS/2 = Syt. 86
Таблица 3.14 2 Реализо- ванная продук- ция, млн. РУб. X Наклад- ные рас- ходы. тыс. РУб. у ж» н к *2» '♦а н 1968 9 27 1 243 81 27 1 9 30,5 1969 13 36 2 468 169 72 4 26 32,4 1970 17 ' 29 3 493 289 87 9 51 34,2 1971 22 41 4 902 484 164 16 88 38,7 1972 29 54 5 1566 841 270 25 145 48,3 1973 36 71 6 2 556 1296 426 36 216 58,0 1974 44 50 7 2 200 1936 350 49 308 70,3 1975 51 81 8 4 131 2 601 648 64 408 79,9 1976 60 98 9 5880 3 600 882 81 540 94,8 Итого 281 487 45 18439 11297 2 926 285 1 791 487,1 9,000 4-2810! 4-4502 = 487; 281оо 4-11 297ах 4-1 791а8 = 18 439; 45о0 4-1 791014- 285аа = 2 926. Отсюда а0 = 15,63; Oi = 2,61; аа = — 8,60. Следовательно, yxt = 15,634-2,61 х — 8,60 t. 2. При исключении автокорреляции методом последо- вательных разностей [24, 33] обработке методом наимень- ших квадратов подвергаются не сами уровни исходных рядов У1, Уг, •••. Уп, *1, хл, .... хп, а последовательные разности между ними: &У1 = Vt — yt-i, &Уг = yt-i — yt-z> &Уз = У t-г — yt-s> &Ук = yt-k — yt-k-ъ ^X! = xt — xt_i; Axa = xt_i — xt_2; 87
Ах3 = ^<-2 — Xt-3> &хк = Xt_b — Xf.fc,!. При использовании этого метода исходят из предполо- жения, что все разности между уровнями динамических ря- дов, начиная с первой, будут содержать только случайную компоненту. Причем первые разности содержат случайную компоненту в линейной форме, вторые — случайную ком- поненту, описываемую параболой второго порядка, тре- тьи — показательной функцией. Уравнение регрессии между исследуемыми признаками Ау и Ах будет иметь следующий вид: A# = а0 + OjAx, а система нормальных уравнений: ( пао + 0x2 Ах = S ку; 3 „ I OoSAx+fliS (Ах)2=2ДхДг/. Пример. По данным приведенного выше примера найдем уравнение связи, используя первые разности (так как связь между объемом реализованной продукции и на- кладными расходами предполагается линейной) (табл. 3.15). Таблица 3.15 Год Реализованная продукция, мли. руб. X Накладные расходы, тыс. руб. р. Дх &У (Дх)« Дх-Др 1968 9 27 11,9 1969 13 36 4 9 16 36 16,5 1970 17 29 4 —7 16 —28 21,1 1971 22 41 5 12 25 60 26,8 1972 29 54 7 13 49 91 34,9 ' 1973 36 71 7 17 49 119 42,9 1974 44 50 8 —21 64 — 168 51,1 1975 51 81 7 31 49 217 60,2 1976 60 98 9 17 81 153 70,5 Итого 51 71 349 480 Составим систему нормальных уравнений: Г 8а0 4-510! = 71; ( 51а0 4-34901 = 480. 88
Отсюда а0 *=> 1,54; = 1,15. Следовательно, ух = 1,54+1,15 х. 3. Исключение автокорреляции методом авторегрессион- ных преобразований состоит в том, что определяют урав- нение связи между отклонениями от тенденций двух свя- занных рядов динамики [18, 19]: У1—У11 Х1-~Хп У г—Ун х2— , Уз—yts xa—xt3 Уп У tn Хп В обоих рядах динамики исключают тенденцию, считая, что тенденции рядов по х и у описываются уравнениями прямых: xt = а0 + ajt; уТ = а» + ait. Полученные на основе этих уравнений значения Хц и уа вычитаются из фактических значений уровней рядов xt и уi, а затем на основании случайных остатков осуществ- ляется расчет уравнения регрессии. & В этом случае также получают уравнения регрессии, не искаженные влиянием автокорреляции. Пример. Для нахождения уравнения регрессии воспользуемся теми же данными и проведем соответствую- щие расчеты. Рассчитаем значения х — xt (табл. 3.16). Расчитаем значения у — yt (табл. 3.17). Считая зависимость линейной, рассчитаем параметры уравнения связи между xt и yt (табл. 3.18). Проведя соответствующие расчеты, получим: = 2,03; ух = 2,03 х. 89
Таблица 3.16 1 Год Реализованная продукция, мл и. руб. * t Р xt Х^ 1968 9 —4 16 —36 5,4 3,6 1969 13 —3 9 —39 11,8 1,2 1970 17 —2 4 —34 18,2 —1,2 1971 22 —1 1 —22 24,8 —2,8 1972 29 0 0 0 31,2 —2,2 1973 36 1 1 36 37,8 —1,8 1974 44 2 4 88 44,2 —0,2 1975 51 3 9 153 50,6 0,4 1976 60 4 16 240 57,0 3,0 Итого 281 60 386 Таблица 3.17 Год Накладные расходы, тыс. руб, у t Р 1968 27 —4 16 —108 21,4 5.6 1969 36 —3 9 —108 29,6 6,4 1970 29 —2 4 —58 37,7 —8,7 1971 41 —1 1 45,9 —4,9 1972 54 0 0 0 54,1 —0,1 1973 71 1 1 71 62,3 8,7 1974 50 2 4 100 70,5 -20,5 1975 81 Я 9 243 78,6 2,4 1976 98 4 16 392 86,8 11,2 487 491 Таблица 3.18 Год X — Xt y—vt (*—xt) (y—yt) 1968 3,6 5,6 20,16 12,96 1969 1,2 6,4 7,68 1,44 1970 —1,2 -8,7 10,44 1.44 1971 —2,8 —4,9 13,72 7,84 1972 —2,2 —0,1 0,22 4,84 1973 —1,8 8,7 —15,66 3,24 1974 —0,2 —20,5 4,10 0,04 1975 0,4 —2,4 —0,96 0,16 1976 3,0 Н,2 33,6 9,0 Итого 73,30 40,96 90
Для трех описанных выше примеров подсчитаны суммы квадратов отклонений. Они составляют: 1) для метода введения времени в качестве дополнитель- ного фактора — 682,6; 2) для метода последовательных (первых) разностей — 2648,7; 3) для метода авторегрессионных преобразований — 2876,9. Наименьшая сумма квадратов получена при исполь- зовании первого метода. Следовательно, введение времени в качестве дополнительной переменной является наиболее действенным способом обработки связанных рядов динамики (во всяком случае, при линейной связи между исследуе- мыми рядами).
Глава 4 КОРРЕЛЯЦИОННЫЙ АНАЛИЗ . (ИЗМЕРЕНИЕ ТЕСНОТЫ СВЯЗИ) 4.1. ОБЩИЕ ЗАМЕЧАНИЯ Корреляционный анализ является необходимым углублением метода наименьших квадратов и регрессион- ного анализа. В построенном с помощью метода наименьших квадратов уравнении регрессии отсутствует указание на степень взаимосвязанности результативного признака с фак- торными. Корреляционный анализ позволяет определить тесноту связи между исследуемыми признаками, оценить разброс исходных данных около линии регрессии, «качество» уравнения регрессии, правильность выбора типа урав- нения и др. Под корреляционным анализом ’ понимается совокуп- ность методов, которые можно подразделить на две боль- шие группы: Первая группа—параметрические или собственно-кор- реляционные методы измерения тесноты связей; они под- разумевают вычисление линейного коэффициента корреля- ции, множественного коэффициента корреляции, частного коэффициента корреляции, корреляционного отношения. Применение этих показателей требует соблюдения неко- торых условий: 1) исследуемые явления (показатели) должны быть распределены по нормальному или близкому к нормальному закону распределения; 2) отдельные на- блюдения должны быть независимы. Вторая группа методов—непараметрические, применение которых в исследовании не требует соблюдения каких-либо условий. Эти методы включают расчеты различных коэффи- циентов, показывающих тесноту связи. Их применение оп- равдывается в тех случаях, когда собственно—корреля- ционные методы измерения связей являются недостаточ- ными, например при определении тесноты связи между ка- чественными признаками, при обобщении экспертных оце- нок и т. д. 92
Непараметрические методы оценки связи проще. Они требуют для расчетов несравненно меньше времени, чем собственно-корреляционные. Кроме того, они не требуют никаких предположений о законах распределения исход-' ных статистических данных, так как при их использовании исследователь оперирует не самими значениями признаков, а их частотами, знаками, рангами и т. д. 4.2. СОБСТВЕННО-КОРРЕЛЯЦИОННЫЕ МЕТОДЫ ИЗМЕРЕНИЯ ТЕСНОТЫ СВЯЗИ / Как известно [7, 16], при наличии связи между двумя признаками справедливо следующее неравенство: D (х + у) =#>Dx + D#, т. е. дисперсия суммы признаков D (х + у) отличается от суммы дисперсий этих признаков (Dx + Т)у) на величину, характеризующую корреляционную связь между призна- ками х, у. Необходимым и достаточным условием наличия корре- ляционной связи является неравенство: М [(х — Мх) (у — М #)] ф 0. Величина в левой части неравенства носит название корреляционного момента. Корреляционный момент имеет ту же размерность, что и величины х, у. На практике обычно используется безраз- мерная величина М[(х-М*)(у-Му)] VdTd? которая называется линейным коэффициентом корреляции. Линейный коэффициент корреляции имеет очень большое значение, когда речь идет о нормальном распределении. Легко доказывается, что условие г = 0 является необхо- димым и достаточным для того, чтобы величины х и у были независимы. При этом условии и коэффициенты регрессии ayxt аху также обращаются в нуль, а прямые регрессии у по х и х по у оказываются взаимноперпендикулярными (параллельными одна оси абсцисс, а вторая оси ординат 17, 38]). Если же г — 1, то это означает, что все точки (х, у) находятся на прямой и зависимость между х и у является функциональной. Прямые регрессии у по х и х по у в этом 93
случае совпадают. Указанное соображение распространяется также на случай нормального распределения трех и более величин. Линейный коэффициент корреляции изменяется в преде- лах —1 г 1. В общем виде формулу, по которой он определяется, можно записать так: r= (Тх Оу ’ если ху>х • у, то значение г положительно, если xy<Z < х • у, то оно отрицательно. Среднеквадратическая ошибка линейного коэффициента корреляции вычисляется по формуле 1—г» °г~ узст ’ где N— число наблюдений. На основании величины ошибки строится доверительный интервал для г: г — toT г г + tor. Значимость линейного коэффициента корреляции можно проверить по ^-критерию: Этот критерий применяется для случаев, когда N < 50. Пример. По данным о зависимости стоимости основ- ных производственных фондов от объема валовой продукции (см. табл. 2.1) рассчитаем линейный коэффициент корреля- ции, его ошибку и определим его значимость: Zyx Sx Sy 1—0,95 A AA <j, =----:— = 0,02. 3 94
С вероятностью Р = 0,9545 строим доверительный ин- тервал для оценки г: 0,93—2 • 0,02 < г < 0,95+2 • 0,02; 0,89 < г < 0,99. Проверим значимость г. Расчетное значение критерия Табличное значение при 5 %-ном уровне значимости /т = 2,306, следовательно, tv > и значимость коэффи- циента корреляции подтверждается. Формулу для расчета линейного коэффициента корре- ляции можно получить, используя отклонения от средней: S(x—х)(у—у) ]/2(х-Г)»2(у-у)»’ Тесноту связи при множественной корреляционной зависимости, т. е. при наличии взаимосвязи трех и более признаков одновременно, характеризует множественный, или^совокупный, коэффициент корреляции R. Множест- венный коэффициент корреляции вычисляется при наличии линейной связи между результативным и факторными при- знаками, а также между каждой парой факторных призна- ков. Подсчитывается он по следующей формуле: (4.1) где о?.2...п — остаточная дисперсия; oj—общая диспер- сия результативного признака. Множественный коэффициент корреляции можно рассчи- тать, используя парные коэффициенты корреляции и 0- коэффициенты: 1?1.2...пврГ₽1Г»х1+ 0а r»xg+ ••• + Рпг»хп» где гвЛ1 — парные коэффициенты; р4 — коэффициенты в стандартизованном масштабе. Множественный коэффициент корреляции можно также получить на основе вычисления определителей, составлен- ных из парных коэффициентов корреляции: 95
1 ria г1з ••• rm Г23 • ••• 2n 1"п1 n2 Gl3 • • • 1 1 Ггз • • • ^2n r32 1 • • • ГЗП ГП2 ?n3 • • • 1 R, - -\f^ А1.2...П— 1/ —* F Д Множественный коэффициент корреляции изменяется в пределах от 0 до 1 и по определению положителен: Вычисленный коэффициент R обязательно должен кор- ректироваться на число наблюдений, так как при малом числе наблюдений значение R получается завышенным. Если бы число факторных признаков было равно числу наблюдений, то гиперплоскость, построенная по методу наименьших квадратов, прошла бы через все точки N и мно- жественный коэффициент корреляции был бы равен 1, хотя связь между результативным и факторными приз- наками могла быть очень слабой. Величина множественного коэффициента корреляции корректируется на основании следующего выражения: Я1.2...П=1Л — (1—Z?a) (4.2) У /V—п где R — скорректированное значение; N — число наблю- дений; п — число факторных признаков. Корректировка R не производится при условии, если ^=^->20. п Среднеквадратическая ошибка коэффициента множест- венной корреляции определяется по формуле 1 У#—1 ’ (4.3) 96
Если выполняется неравенство > 3, то с вероят- ностью Р = 0,99 можно считать R значимым. Оценка доверительных границ R производится следую- щим образом [13, 33]: величина R приравнивается к гипер- болическому тангенсу величины z, т. е. R = th z, где Плотность распределения z является почти нормальной со средним значением 1=2 1п2±* + - 2 1— R2(N~ 1) и дисперсией а; 1__ ЛГ—з*- Следовательно, Отсюда 2jZ1 Z2 = Z + foz. (4-4) По таблицам для этих значений z находят Rt и Rz, т. е. Ri<R<Rz. Пример. Воспользуемся данными примера о связи между среднегодовой стоимостью основных производствен- ных фондов (хг) в млн. руб., относительным уровнем за- трат на производство, (xj) в процентах и объемом реализо- ванной продукции (у) в млн. руб. (см. табл. 2.6) и рассчи- таем множественный коэффициент корреляции, его ошибку, частные коэффициенты корреляции. Подсчитанные значения парных коэффициентов корре- ляции следующие: /’|мс1в0,88; гЯ1хвв0,88; г^х4 = 0,77. 97
Та'блица 4.1 У ех (»—Гх)а (у—у) (»—№ 20 20,29 —0,29 0,0841 9,4 88,36 25 20,37 4,63 21,4369 4,4 19,36 20 25,77 —5,77 33,2929 9,4 88,36 30 28,31 1,69 2,8561 0,6 0,36 32 30,61 1,39 1,9321 2,6 6,76 25 27,75 —2,75 7,5625 4,4 19,36 29 33,15 —4,15 17,2225 0,4 0,16 37 35,83 1,17 1,3689 7,6 57,76 36 36,61 0,39 0,1521 6,6 43,56 40 38,31 1,69 2,8561 10,6 112,36 Итого 88,7642 436,4 Множественный коэффициент корреляции вычислим, используя значения парных коэффициентов: rvx1+ryxt~2rvxr r*l*j *1ха 0,7744+ 0.5929—2-0,88-0,77.0,88 Qg 1—0,7744 ~ ’ Проверим правильность расчета множественного коэф- фициента корреляции. Построим вспомогательную табл. 4.1 и произведем расчеты: Определим R по формуле (4.1) _ ^0>88. 43,64 Рассчитаем R по формуле (4.2) 1 —(1 —0,7744) . у-=0,84. Определим Оц по формуле (4.3) ’.-йЬ-0-1'- Имеем А-,=-21^=7,63 >3. Следовательно, величина R ац 0,11 значима. 98
Определим доверительные границы, в которых с веро- ятностью Р — 0,95 находится R (t = 1,96): —1,96 • 0,11 <z — z0< 1,96 • 0,11;' zt = 1,3758х—1,96 • 0,11=1,1602; z, = 1,3758+1,96 • 0,11 = 1,5914. По таблицам находим, что Рг = 0,83, Ra 0,92. Следовательно, 0,83 < Ro < 0,92. По парным коэффициентам корреляции можно вычислить частные коэффициенты корреляции. Частные коэффициенты корреляции позволяют оценить воздействие на результа- тивный признак одних факторов при исключении других или закреплении последних на постоянном уровне. Раз- личают частные коэффициенты первого, второго и более вы- соких порядков. Пример. На основании приведенных выше данных о зависимости трех показателей работы однотипных пред- приятий вычислим частные коэффициенты корреляции первого порядка: ________0,88—0,88-0,77________ |/-(J—rs^) (1 —r»^) “ V(1 — 0,5929)(1 — 0,7744) “ = 0,68; ________ ryx%—__________________0,77—0,88*0,88_______ Г"*8<Х1) "уг(1-г*Ж1)(1-г»Л) “ V(1 - 0,7744) (1 -0,5929) “ = 0,014. Если связь между исследуемыми факторами криволи- нейная, то теснота связи определяется с помощью корреля- ционного отношения. Корреляционное отношение может использоваться для измерения тесноты связи и при ли- нейной связи. Различают эмпирическое и теоретическое корреляционное отношение. Величина 1,3758 определена по таблице значений г на осно- вании значения R = 0,88. 99
Таблица 4.2 h yt — "у (St-?)2 (.Vl—y)* ft 4.40 10 —1,72 2,9584 , 29,5840 5,47 15 —0,65 0,4225 6,3375 6,53 15 0,41 0,1681 2,5215 8,20 10 2,08 4,3264 43,3264 Итого 50 81,7694 Эмпирическое корреляционное отношение вычисляется как корень квадратный из отношения межгрупповой диспер- сии к общей: Оно вычисляется на основании группировки или ряда распределения. Пример. По данным задачи на с. 30 рассчитаем эм- пирическое корреляционное отношение, имея у = 6,12 и <3у = 3,11, рассчитаем 62, т. е. межгрупповую дисперсию. Построим вспомогательную табл. 4.2. Значит, ».д..Ч^-,|,64; ч- т/^4=0.73. 50 Г 3,11 Величина т) показывает, что между результативным и факторными признаками существует достаточно тесная связь. Теоретическое корреляционное отношение вычисляется по формулам: 1] = 1/ 1 — или т]= 1/ • (4.5) 1 Средняя квадратическая ошибка теоретического кор- реляционного отношения подсчитывается по формуле _ 1—Г}2 УлГГТ • Значимость определяется из условия °n Если корреляционное отношение рассчитать для линей- ной зависимости, то оно должно быть численно равно линей- 100
Таблица 4.3 У "х (У1~»Х^ У—V (у-у)* 20 19,4 —0,6 0,36 —24,5 600,25 25 25,0 0 0 —19,5 380,25 31 30,6 0,4 0,16 — 13,5 182,25 31 36,2 —5,2 27,04 —13,5 182,25 40 41,8 —1,8' 3,24 —4,5 20,25 56 47,4 8,6 73,96 11,5 132,25 52 53,0 -1,0 1,0 15,5 240,25 60 58,6 1,4 1,96 15,5 240,25 60 64,2 4,2 17,64 7,5 56,25 - 70 69,8 0,2 0,04 25,5 650,25 Итого 445 446 125,40 2684,50 ному коэффициенту корреляции, т. е. т) = | г |. Это равен- ство можно использовать для проверки гипотезы о линей- ности связи. Если отношение величины линейного коэффи- циента корреляции к величине теоретического корреля- ционного отношения будет близким к единице, то подтверж- дается гипотеза о линейности связи. Если это отношение будет близким к нулю, то гипотеза линейности отвергается. Пример. Проверим гипотезу линейности связи для исходных данных табл. 2.1. Вспомогательные расчеты при- ведены в табл. 4.3. Имеем у = 44,5. Следовательно, по формуле (4.6) теоретическое корре- ляционное отношение т1 = 1Л 1 — ^5=0,976. 1 V 2684,5 Коэффициент корреляции г *= 0,97 (см. с. 94). Таким образом, отношение очень близко к единице, и гипотеза о линейности подтвер- ждается. 4.3. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ ОЦЕНКИ ТЕСНОТЫ СВЯЗИ Среди непараметрических методов оценки тесноты свя- зи наибольшее значение имеют [17] расчеты ранговых коэф- фициентов корреляции Спирмена р и Кендалла т. Эти коэф- 101
Таблица 4.4 X У Ранжирование Сравнение рангов Разность рангов 4 X ранг х *х У ранг у Ry *х 1 Rv 12,0 462 и.о 1 462 1 2 1 — 1 1 18,8 939 12,0 2 506 2 5 6 — 1 1 п,о 506 15,4 3 765 3 1 2 —1 1 29,0 1 108 17,5 4 804 4 9 9 0 0 17,5 872 18,8 5 872 5 4 5 —1 1 23,4 765 20,7 6 939 6 7 3 4 16 35,6 1368 23,4 7 998 7 10 10 0 0 15,4 1 002 26,1 8 1002 8 3 8 5 25 26,1 998 29,0 9 1 108 9 8 7 1 1 20,7 804 35,6 10 1368 10 6 4 2 4 Итог-о 50 фициенты могут быть использованы для определения тес- ноты связей как между количественными, так и между ка- чественными признаками при условии, если значения этих признаков могут быть упорядочены или проранжированы по степени убывания или возрастания признака. Коэффициент Спирмена рассчитывается по формуле Р JV(№ — 1) ’ где d? — квадраты разности рангов связанных величин х и у; N — число наблюдений (число пар рангов). Пример. По данным группы из десяти однотипных предприятий о себестоимости товарной продукции, млн. руб. (х)’и накладных расходах по реализации этой продукции, тыс. руб. (у) рассчитаем коэффициент Спирмена (табл. 4.4). Коэффициент Спирмена р = 1—^2-= 0,700. г 10-99 Расчет рангового коэффициента Кендалла осуществ- ляется по следующей формуле: т_ 25 где N — число наблюдений; S — сумма положительных и отрицательных баллов по одной из связанных величин, 102
Таблица 4.5 Реализация про- дукции, млн. руб. V Накладные рас- ходы на реали- зацию, тыс. руб. X Себестоимость единицы продук- ции, коп. 2 Средняя э аработ- ная плата рабо- чих^руб. 12,0 462 68,8 168,5 18,8 939 70,2 158,7 11,0 506 71,4 171,7 29,0 1 108 78,5 188,9 17,5 872 66,9 160,4 23,4 76b 69,7 165,2 35,6 1368 72,3 175,0 15,4 1002 77,5 170,4 26,1 998 65,2 162,7 20,7 804 70,7 163,0 ранги которой расположены в соответствии с упорядочен- ными рангами другой. Для определения тесноты связи между произвольным Числом ранжированных признаков применяется множест- венный коэффициент ранговой корреляции (коэффициент конкордации) W, который вычисляется по формуле1 * * * * * П7 — 125___ m»(N9—N) (4.6) где т — количество факторов; N — число наблюдений; S — разность между суммой квадратов сумм по строкам и средним квадратом суммы сумм строк. Пример. Определить по коэффициенту IF тесноту связи между объемом реализованной продукции, суммой накладных расходов на реализацию, себестоимостью еди- ниц .продукции и средней заработной платой рабочих де- сяти'однотипных предприятий. Связь между исследуемыми признаками1 представлена в табл. 4.5. 1 Если оценки экспертов делились между факторами, то W оп- ределяется по формуле ™ 12S № =---------------- . /п —(t»-0 где t — число связанных рангов в столбце. 103
Таблица 4.6 Rv Rz *0 Сумма строк Квадраты сумм 2 1 3 6 12 144 5 6 5 1 17 289 1 2 7 8 18 324 9 9 10 10 38 1444 4 5 2 2 13 169 7 3 4 5 19 361 10 10 8 9 37 1369 3 8 9 7 27 729 8 7 1 3 19 361 6 4 6 4 20 400 Итого 220 5 590 Располагаем исходные данные по рангам (табл. 4.6). 5 = 5590—^^ = 750. Ю Согласно формуле (4.6) W = —12-750 - = 0,568. 16(1000—10) Значимость множественного коэффициента ранговой кор- реляции проверяется по критерию %а [22]: a s Ya ----------------------------. А m-N(N-l) Для приведенного примера расчетное значение крите- рия X« = _Z52_=2,083. Ар 4.10.9 Табличное значение %а для вероятности Р = 0,95 со- ставит %? = 3,325. Так как Хр < %?, значимость W под- тверждается. Для определения тесноты связи двух качественных при- знаков, каждый из которых состоит только из двух групп, применяются коэффициенты ассоциации и контингенции. Для их вычисления строится таблица (см. табл. 4.7), ко- торая показывает связь между двумя явлениями, каждое из которых должно быть альтернативным, т. е. состоящим 104
Таблица 4.7 а b а-Ь-b с d c+d a-J-c b+d a+b+c+d из двух качественно отличных друг от друга значений признака (например, хороший, плохой). Коэффициенты вычисляются по следующим формулам: ассоциации д ad—be . ad+bc > контенгенции ad— be . = Vta+b)(6+d)(a+c)(c+d) ’ где a, b и c, d — количественные характеристики исследуе- мых групп. Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь считается подтвержденной, если А 0,5 или k 0,3. Пример. Исследовать связь между выполнением норм выработки молодыми рабочими и окончанием ими сред- ней школы. Результаты обследования характеризуются данными (табл. 4.8). По данным таблицы Д = 78‘68-32-22 = 0 7б6 0 76б 0 б 78-68 + 32-22 ’ ’ К = г;...... 78-68-32-22 в 0 46; 0 4б > 0,3. 1/(78+22) (22-|-68) (784-32) (324-68) Между исследуемыми признаками прослеживается чет- кая связь, что подтверждается достаточно высокими зна- чениями коэффициентов ассоциации и контингенции. Когда каждый из качественных признаков состоит бо- лее чем из двух групп, то для определения тесноты связи можно применить коэффициент взаимной сопряженности 105
Таблица 4.8 Группы рабочих Выполнивших норму Не выполнив* ших норму Всего Окончившие среднюю школу Не окончившие среднюю 78 22 100 школу 32 68 100 Всего ПО 90 200 Пирсона. Этот коэффициент вычисляется по следующей формуле: где <р2 — показатель взаимной сопряженности. Расчет коэффициента взаимной сопряженности произ- водится по следующей схеме (табл. 4.9). Расчет <р* производится так: по первой строке по второй строке по третьей строке ф2 ~ Zx + z2 + z8 — 1 - Szf — 1. Таблица 4.9 Группы признака А Группы признака В Итого Bt | В, | В9 А1 А, fl ft /з Л1 fi h п2 fl fs ft п3 Итого mr т2 т8 106
Таблица 4.10 Нижние 19 361 12,033 12 144 3,6 9 81 1,620 40 17,253 0,431 Средние 7 49 1,633 18 3248,1 15 2254,5 40 14,2330,356 Высокие 4 16 0,533 10 1002,5 26 67613,52 40 16,5530,414 Итого (ntj) 30 40 &0 120 1,21 П р и м е р. С помощью коэффициента взаимной сопря- женности исследовалась связь между себестоимостью про- дукции и накладными расходами на реализацию (табл. 4.10). По данным таблицы ____ <ра= 1,204 — 1=0,204; С=Т/ — = 0,41. т Г 1,204 Достаточно высокое значение С указывает на наличие связи между исследуемыми признаками. Непараметрические методы измерения связи исполь- зуются для проверни условий применения метода наимень- ших квадратов: независимости распределений признаков, однородности выборок, наличия тренда в рядах динамики. 4.4. ИЗМЕРЕНИЕ ТЕСНОТЫ СВЯЗИ МЕЖДУ РЯДАМИ ДИНАМИКИ Способы исключения автокорреляции, рассмотренные в главе 3, дают возможность рассчитать коэффициенты кор- реляций, показывающие степень тесноты связи между двумя динамическими рядами. Коэффициенты корреляции могут быть рассчитаны или на основе метода последовательных разностей, или на ос- нове метода авторегрессионных преобразований (способом исключения тенденции). В первом случае расчет производится по формуле — SAxAy1 (4.7) VsaVzaS ’ где Дх, Ду — первые разности между соседними уровнями связанных рядов динамики. 107
Таблица 4.11 Год Реализованная про- дукция, млн. руб. X Накладные расходы, тыс, руб, у Дх д» дх*др £ л2 дх л2 Д» vx V2 X vv V2 У t V «V х у 1968 9 27 — — — — — 3,6 12,96 5,6 31,36 20,16 1969 13 36 4 9 36 16 81 1,2 1,44 6,4 40,96 7,68 1970 17 29 4 —7 —28 16 49 —1,2 1,44 —8,7 75,69 10,44 1971 22 41 5 12 60 25 144 —2,8 7,84 —4,9 24,01 13,72 1972 29 54 7 13 91 49 169 —2,2 4,84 —0,1 0,01 0,22 1973 36 71 7 17 119 49 289 —1,8 3,24 8,7 /5,69-15.66 1974 44 50 8 —21 -168 64 441 —0,2 0,04- -20,5420,25 4,10 1975 51 81 7 31 217 49 961 0,4 0,16 2,4 5,76—0,96 1976 60 98 9‘ 17 153 81 289 3,0 9,0 11,2125,44 33,6 480 349 2423 40,96 . 799,17 73,30 Итого Во втором случае используется следующее выражение:. ЪУхУу , V 'zvl-zvy ‘ (4-8) где Vx, Vy — отклонения от тенденций связанных рядов динамики. Величина г в обоих случаях изменяется в пределах от —1 до 1. Пр и м е р . Расчет коэффициентов корреляции по приведенным выше формулам проиллюстрируем на при- мере двух рядов динамики, показывающих взаимосвязь между стоимостью реализованной продукции и наклад- ными расходами (см. табл. 4.11). Расчеты проведем вос- пользовавшись данными табл. 3.16, 3.17 и расчетными данными табл. 4.11. По формуле (4.7) r=—4 g0-,^^0 522. V349-2423 По формуле (4.8) г = /.^.83,30.^- = 0,407. 1/40,96-799,77 108
Показатели тесноты связи, вычисленные этими спосо- бами, близки по значению. Из теоремы Фриша—Воу следует, что тесноту связи можно оценить и третьим способом, т. е. рассчитать коэф- фициент корреляции между связанными динамическими рядами по формуле1 (4-9) где значения остаточной дисперсии определяются как раз- ность между фактическими уровнями исходного динами- ческого ряда и теоретическими, вычисленными по урав- нению: У-л..л = ао + + а2*з + — + an+1t. Пример.- Рассмотрим расчет /? на примере с теми же данными (табл. 4.12). Т аблица 4.12 Год Реализованная про- дукция, млн. руб. X Накладные расходы, тыс. руб. У t »xt gi~~vxt у-у 't 1968 9 27 1 30,5 3,5 12,25 —27 729 1969 13 36 2 32,4 3,6 12,96 —18 324 1970 17 29 3 34,2 5,2 27,04 —25 625 1971 22 41 4 38,7 2,3 5,29 —13 169 1972 29 54 5 48,3 5,7 32,49 0 0 1973 36 71 6 58,0 13,0 169,00 17 289 1974 44 • 50 7 70,3 20,3 412,09 —4 16 1975 51 81 8 79,9 1,1 1,21 27 - 729 1976 60 98 9 94,8 3,2 10,24 44 1936 Итого 281 487 682,57 4817 1 Расчет коэффициента корреляции по этой формуле объяс- няется тем, что введение времени как дополнительного факторного признака привело к уравнению множественной регрессии Ух1 = ао “Ь aix + 109
При у = 54 подсчитываем R = тА — 5^ = 0,927. Г 4817 Этот способ оценки тесноты связи следует считать ме- нее точным, чем первые два, так как значение коэффициента корреляции в этом случае значительно преувеличивается за счет введения фактора времени. Измерение тесноты связи динамических рядов также должно базироваться на предварительном теоретическом анализе, на основании которого выделяют фактор-причину и фактор-следствие, т. е. факторный и результативный признаки. Коэффициенты, рассчитанные на основе первых разностей и отклонений от тенденции, характеризуют лишь тесноту связи результативного и факторного признаков. Величина коэффициента корреляции, вычисленная на ос- нове дисперсий, показывает, какая часть вариации резуль- тативного признака объясняется вариацией факторного. Од- нако при этом следует учитывать, что влияние факторного признака будет преувеличено вследствие введения фактора времени. Мы могли убедиться, что метод наименьших квадратов действительно является мощным средством исследования социально-экономических явлений, но его применение должно основываться на анализе исходных данных, на выявлении реально существующих причинно-следственных связей. Пренебрежение этим может привести к появлению в уравнениях регрессии ложных связей. Метод наименьших квадратов позволяет получить несмещенные оценки, по- строенные на его основе уравнения достаточно адекватно отражают взаимосвязи. Если коэффициенты регрессии окажутся значимыми, то уравнения могут быть использо- ваны для экстраполяции за пределы исследуемой совокуп- ности.
ЛИТЕРАТУРА 1. А д л е р Ю. П.; Маркова Е. В.; Гранов- ский Ю. В. Планирование эксперимента при поиске оп- тимальных условий. М.; Наука; 1976. 2. Б л е х м а н И. И.; М ы ш к и с А. Д.; Пановко Я. Г. Прикладная математика. Предмет, логика, особенности под- ходов. Киев, Нау нова думка, 1976. 3. Б о я р с к и й А. Я. Математико-экономические очерки. М.; Госстатиздат, 1962. 4. Б р а н т 3. Статистические методы анализа наблюдений. М.; Мир, 1975. 5. Б р о Г. Г.; Ш и а й д м а н Л. М. Математические методы экономического анализа на предприятии. М. Экономика, 1976. 6. В е н е ц к и й И. Г.; В е н е ц к а я В. И. Основные ма- тематико-статистические понятия и формулы в экономическом анализе. М.; Статистика, 1979. 7. Венецкий И. Г.; Кильдишев Г. С. Теория ве- роятностей и математическая статистика, М.; Статистика, 1975. 8. Громыко Г. Л. Статистические ряды в экономических и экономико-географических исследованиях. М.; МГУ; 1974. 9. Г у т е р Р. С.; О в ч и н с к и й Б. В. Элементы численного анализа и математической обработки результатов опыта. М.; Наука, 1970. 10. Д л и н А. М. Математическая статистика в технике. М.; Советская наука; 1958. 11. Др ай пер Н.; Смит Г. Прикладной регрессионный анализ. М., Статистика, 1973. 12. Д у б р о в А. М. Обработка статистических данных методом - главных компонент. М.; Статистика, 1978. 13. 3 а к с Л. Статистическое оценивание. М.; Статистика; 1976. 14. И д е л ь р о н Н. И. Способ наименьших квадратов и теория математической обработки наблюдений. М.; Геодезиздат, 1947. 15. К а з м е р Л. Методы статистического анализа в экономике. М.; Статистика, 1972. 16. К е й и Э. Экономическая статистика и эконометрия. М.; Статистика; 1977. 17. Кендэлл Д. Ранговые корреляции. М.; Статистика; 1975. 18. Кендэлл Д.; Стьюарт А. Многомерный статисти- ческий анйлиз и временные ряды. М.; Наука, 1976. 19. К и л ь д и ш е в Г. С.; Френкель А. А. Анализ вре- менных рядов и прогнозирование. М.; Статистика, 1973. 20. Л и з е р С. Эконометрические методы и задачи. М.; Стати- стика; 1971. 21. Л и н и и к Ю. В. Метод наименьших квадратов и основы математико-статистической теории обработки наблюдений.^., г Физматгиз, 1962. 22. М а л е н в о Э. Статистические методы в эконометрии. М.; Статистика, 1975. 23. М и л л с Ф. Статистические методы. М.; Госстатиздат, 1958. 24. Мот Ж. Статистические предвидения и решения на предприя- тии. М., Прогресс, 1966. 25. Н е м ч и н о в В. С. Сельскохозяйственная статистика с ос- новами общей теории. М.; Сельхозгиз, 1945. 111
26. Овсиенко В. Е.; Виталина Е. Г. Вопросы ста- тистической науки в трудах В. И. Ленина. М.,' Статистика; 1967. 27. Перегудов В. И. Метод наименьших квадратов и его применение в исследованиях. М.,' Статистика, 1965. 28. Романовский В. И. Применение математической ста- тистики в опытном деле. М. — Л., Гостехиздат, 1947. 29. С и р л С., Г о с м а н У. Матричная алгебра в экономике. М.; Статистика, 1974. 30. С и с ь к о в В. И. Корреляционный анализ в экономических исследованиях. М., Статистика, 1975. 31. Смирнов Н. В., Дудин-Барковский И. В. Курс теории вероятностей и математической статистики. М.; Наука, 1965. 32. Теория прогнозирования и принятия решений/Под ред. С. А. Сар- кисяна. М., Высшая школа, 1977. 33. Т и н т н е р Г. Введение в эконометрию. М., Статистика, 1965. 34. Труды МЭИ, т. LI. М.; 1963. 35. Уильямсон М. Анализ биологических популяций. М.; Мир, 1975. 36. Ф р е н к е л ь А. А. Математический анализ производитель- ности труда. М.; Экономика, 1968. 37. Хотимский В. Выравнивание статистических рядов по методу наименьших квадратов (способ Чебышева) и таблицы для нахождения уравнений параболических кривых. М., Госстат- издат, 1959. 38. Четвериков Н. С. Статистические исследования. М.; Наука, 1975. 39. Ч е т ы р к и н Е. М. Статистические методы прогнозирования М.,' Статистика, 1975. 40. Эконометрическое моделирование. Новосибирск,’Наука, 1979. Юрий Гаврилович Королев МЕТОД НАИМЕНЬШИХ КВАДРАТОВ В СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ИССЛЕДОВАНИЯХ Зав. редакцией Р. А. Казьмина Редактор К С. Исаева Мл. редакторы Я. Af. Лопарева, О. Ф. Морозова Техн, редактор И, В. Завгородняя Корректоры Г. А. Башарина, А. Т. Сидорова Худ. редактор Э. А. Смирнов ИБ № 865 Сдано в набор 06J05.80. Подписано в печать 27.10.80. А12657- Формат 84Х1081/». Бум. тип. № 2. Гарнитура «Литературная». Печать высокая. П. л. 3,5. Узд. Я' л. 5,88. Уч.-изд. л. 5,67. Тираж 6600 экз. Заказ 1921 Цена 60 коп. Издательство «Статистика», Москва, ул. Кирова, 39. Московская типография № 4 Союзполиграфпрома при Государственном комитете СССР по делам издательств, полиграфии и книжной торговли. 129041, Москва, Б. Переяславская ул. д. 46
СТАТИСТИКА