Генеральная и выборочная совокупности. Генеральная совокупность и выборочный метод Чем отличается генеральная совокупность от выборочной

Итак, закономерности, которым подчиняется исследуемая случайная величина, физически полностью обусловливаются реальным комплексом условий ее наблюдения (или эксперимента), а математически задаются соответствующим вероятностным пространством или, что то же, соответствующим законом распределения вероятностей. Однако при проведении статистических исследований несколько более удобной оказывается другая терминология, связанная с понятием генеральной совокупности.

Генеральной совокупностью называют совокупность всех мыслимых наблюдений (или всех мысленно возможных объектов интересующего нас типа, с которых «снимаются» наблюдения), которые могли бы быть произведены при данном реальном комплексе условий. Поскольку в определении речь идет о всех мысленно возможных наблюдениях (или объектах), то понятие генеральной совокупности есть понятие условно-математическое, абстрактное и его не следует смешивать с реальными совокупностями, подлежащими статистическому исследованию. Так, обследовав даже все предприятия подотрасли с точки зрения регистрации значений характеризующих их технико-экономических показателей, мы можем рассматривать обследованную совокупность лишь как представителя гипотетически возможной более широкой совокупности предприятий, которые могли бы функционировать в рамках того же самого реального комплекса условий

В практической работе удобнее выбор связывать с объектами наблюдения, чем с характеристиками этих объектов. Мы отбираем для изучения машины, геологические пробы, людей, но не значения характеристик машин, проб, людей. С другой стороны, в математической теории объекты и совокупность их характеристик не различаются и двойственность введенного определения исчезает.

Как видим, математическое понятие «генеральная совокупность» физически полностью обусловливается, так же как и понятия «вероятностное пространство», «случайная величина» и «закон распределения вероятностей», соответствующим реальным комплексом условий, а потому все эти четыре математических понятия можно считать в определенном смысле синонимами. Генеральная совокупность называется конечной или бесконечной в зависимости от того, конечна или бесконечна совокупность всех мыслимых наблюдений.

Из определения следует, что непрерывные генеральные совокупности (состоящие из наблюдений признаков непрерывной природы) всегда бесконечны. Дискретные же генеральные совокупности могут быть как бесконечными, так и конечными. Скажем, если анализируется партия из N изделий на сортность (см. пример в п. 4.1.3), когда каждое изделие может быть отнесено к одному из четырех сортов, исследуемой случайной величиной является номер сорта случайно извлеченного из партии изделия, а множество возможных значений случайной величины состоит соответственно из четырех точек (1, 2, 3 и 4) то, очевидно, генеральная совокупность будет конечной (всего N мыслимых наблюдений).

Понятие бесконечной генеральной совокупности есть математическая абстракция, как и представление о том, что измерение случайной величины можно повторить бесконечное число раз. Приближенно бесконечную генеральную совокупность можно истолковывать как предельный случай конечной, когда число объектов, порождаемых данным реальным комплексом условий, неограниченно возрастает. Так, если в только что приведенном примере вместо партий изделий рассматривать непрерывное массовое производство тех же изделий, то мы и придем к понятию бесконечной генеральной совокупности. Практически же такое видоизменение равносильно требованию

Выборка из данной генеральной совокупности - это результаты ограниченного ряда наблюдений случайной величины . Выборку можно рассматривать как некий эмпирический аналог генеральной совокупности, то, с чем мы чаще всего на практике имеем дело, поскольку обследование всей генеральной совокупности бывает либо слишком трудоемко (в случае больших N), либо принципиально невозможно (в случае бесконечных генеральных совокупностей).

Число наблюдений, образующих выборку, называют объемом выборки.

Если объем выборки велик и при этом мы имеем дело с одномерной непрерывной величиной (или с одномерной дискретной, число возможных значений которой достаточно велико, скажем больше 10), то часто удобнее, с точки зрения упрощения дальнейшей статистической обработки результатов наблюдений, перейти к так называемым «группированным» выборочным данным. Этот переход осуществляется обычно следующим образом:

а) отмечаются наименьшее и наибольшее значения в выборке;

б) весь обследованный диапазон разбивается на определенное число 5 равных интервалов группирования; при этом количество интервалов s не должно быть меньше 8-10 и больше 20-25: выбор количества интервалов существенно зависит от объема выборки для примерной ориентации в выборе 5 можно пользоваться приближенной формулой

которую следует воспринимать скорее как оценку снизу для s (особенно при больших

в) отмечаются крайние точки каждого из интервалов в порядке возрастания, а также их середины

г) подсчитываются числа выборочных данных, попавших в каждый из интервалов: (очевидно, ); выборочные данные, попавшие на границы интервалов, либо равномерно распределяются по двум соседним интервалам, либо условливаются относить их только к какому-либо одному из них, например к левому.

В зависимости от конкретного содержания задачи в данную схему группирования могут быть внесены некоторые видоизменения (например, в некоторых случаях целесообразно отказаться от требования равной длины интервалов группирования).

Во всех дальнейших рассуждениях, использующих выборочные данные, будем исходить из только что описанной системы обозначений.

Напомним, что сущность статистических методов состоит в том, чтобы по некоторой части генеральной совокупности (т.е. по выборке) выносить суждения о ее свойствах в целом.

Один из важнейших вопросов, от успешного решения которого зависит достоверность получаемых в результате статистической обработки данных выводов, является вопрос репрезентативности выборки, т.е. вопрос полноты и адекватности представления ею интересующих нас свойств анализируемой генеральной совокупности. В практической работе одна и та же группа объектов, взятых для изучения, может рассматриваться как выборка из разных генеральных совокупностей. Так, группу семей, наудачу отобранных из кооперативных домов одной из жилищноэксплуатационных контор (ЖЭК) одного из районов города для подробного социологического обследования, можно рассматривать и как выборку из генеральной совокупности семей (с кооперативной формой жилья) данной ЖЭК, и как выборку из генеральной совокупности семей данного района, и как выборку из генеральной совокупности всех семей города, и, наконец, как выборку из генеральной совокупности всех семей города, проживающих в кооперативных домах. Содержательная интерпретация результатов апробации существенно зависит от того, представителем какой генеральной совокупности мы рассматриваем отобранную группу семей, для какой генеральной совокупности эту выборку можно считать представительной (репрезентативной). Ответ на этот вопрос зависит от многих факторов. В приведенном выше примере, в частности, от наличия или отсутствия специального (быть может, скрытого) фактора, определяющего принадлежность семьи к данной ЖЭК или району в целом (таким фактором может быть, например, среднедушевой доход семьи, географическое расположение района в городе, «возраст» района и т. п.).


В предыдущем разделе нас интересовала распределение признака в некоторой совокупности элементов. Совокупность, которая объединяет все элементы, имеющая этот признак, называется генеральный. Если признак человеческий (национальность, образование, коэффициент IQ т.п.), то генеральная совокупность -- все население земли. Это очень большая совокупность, то есть число элементов в совокупности n велико. Число элементов называется объемом совокупности. Совокупности могут быть конечными и бесконечными. Генеральная совокупность - все люди хотя и очень большая, но, естественно, конечная. Генеральная совокупность - все звезды, наверное, бесконечно.

Если исследователь проводит измерение некоторой непрерывной случайной величины X, то каждый результат измерения можно считать элементом некоторой гипотетической неограниченной генеральной совокупности. В этой генеральной совокупности бесчисленная количество результатов распределены по вероятности под влиянием погрешностей в приборах, невнимательности экспериментатора, случайных помех в самом явлении и др.

Если мы проведем n повторных измерений случайной величины Х, то есть получим n конкретных различных численных значений, то этот результат эксперимента можно считать выборкой объема n из гипотетической генеральной совокупности результатов единичных измерений.

Естественно считать, что действительным значением измеряемой величины является среднее арифметическое от результатов. Эта функция от n результатов измерений называется статистикой, и она сама является случайной величиной, имеющей некоторое распределение называемая выборочным распределением. Определение выборочного распределения той или иной статистики -- важнейшая задача статистического анализа. Ясно, что это распределение зависит от объема выборки n и от распределения случайной величины Х гипотетической генеральной совокупности. Выборочное распределение статистики представляет собой распределение Х q в бесконечной совокупности всех возможных выборок объема n из исходной генеральной совокупности.

Можно проводить измерения и дискретной случайной величины.

Пусть измерение случайной величины Х представляет собой бросание правильной однородной треугольной пирамиды, на гранях которой написаны числа 1, 2, 3, 4. Дискретная, случайная величина Х имеет простое равномерное распределение:

Эксперимент можно производить неограниченное число раз. Гипотетической теоретической генеральной совокупностью является бесконечная совокупность, в которой имеются одинаковые доли (по 0.25) четырех разных элементов, обозначенных цифрами 1, 2, 3, 4. Серия из n повторных бросаний пирамиды или одновременное бросание n одинаковых пирамид можно рассматривать как выборку объема n из этой генеральной совокупности. В результате эксперимента имеем n чисел. Можно ввести некоторые функции этих величин, которые называются статистиками, они могут быть связаны с определенными параметрами генерального распределения.

Важнейшими числовыми характеристиками распределений являются вероятности Р i , математическое ожидание М, дисперсия D. Статистиками для вероятностей Р i являются относительные частоты, где n i -- частота результата i (i=1,2,3,4) в выборке. Математическому ожиданию М соответствует статистика

которая называется выборочным средним. Выборочная дисперсия

соответствует генеральной дисперсии D.

Относительная частота любого события (i=1,2,3,4) в сериях из n повторных испытаний (или в выборках объема n из генеральной совокупности) будет иметь биномиальное распределение.

У этого распределения математическое ожидание равно 0.25 (не зависит от n), а среднее квадратическое отклонение равно (быстро убывает с ростом n). Распределение является выборочным распределением статистики, относительная частота любого из четырех возможных результатов единичного бросания пирамиды в n повторных испытаниях. Если бы мы выбрали из бесконечной, генеральной совокупности, в которой четыре разных элемента (i=1,2,3,4) имеют равные доли по 0.25, все возможные выборки объемом n (их число также бесконечно), то получили бы так называемую математическую выборку объема n. В этой выборке каждый из элементов (i=1,2,3,4) распределен по биномиальному закону.

Допустим, мы выполнили бросания этой пирамиды, и число двойка выпало 3 раза (). Мы можем найти вероятность этого результата, используя выборочное распределение. Она равна

Наш результат оказался весьма маловероятным; в серии из двадцати четырех кратных бросаний он встречается примерно один раз. В биологии такой результат обычно считается практически невозможным. В этом случае у нас появится сомнение: является пирамида правильной и однородной, справедливо ли при одном бросании равенство, верно ли распределение и, следовательно, выборочное распределение.

Чтобы разрешить сомнение, надо выполнить еще один раз четырехкратное бросание. Если снова появится результат, то вероятность двух результатов с очень мала. Ясно, что мы получили практически совершенно невозможный результат. Поэтому исходное распределение неверное. Очевидно, что, если второй результат окажется еще маловероятней, то имеется еще большее оснований разобраться с этой "правильной" пирамидой. Если же результат повторного эксперимента будет и, тогда можно считать, что пирамида правильная, а первый результат (), тоже верный, но просто маловероятный.

Нам можно было и не заниматься проверкой правильности и однородности пирамиды, а считать априори пирамиду правильной и однородной, и, следовательно, правильным выборочное распределение. Далее следует выяснить, что дает знание выборочного распределения для исследования генеральной совокупности. Но поскольку установление выборочного распределения является основной задачей статистического исследования, подробное описание экспериментов с пирамидой можно считать оправданным.

Будем считать, что выборочное распределение верное. Тогда экспериментальные значения относительной частоты в различных сериях по n бросаний пирамиды будут группироваться около значения 0.25, являющегося центром выборочного распределения и точным значением оцениваемой вероятности. В этом случае говорят, что относительная частота является несмещенной оценкой. Поскольку, выборочная дисперсия стремиться к нулю с ростом n, то экспериментальные значения относительной частоты будут все теснее группироваться около математического ожидания выборочного распределения с ростом объема выборки. Поэтому является состоятельной оценкой вероятности.

Если бы пирамида оказалась направильной и неоднородной, то выборочные распределения для различных (i=1,2,3,4) имели бы отличные математические ожидания (разные) и дисперсии.

Отметим, что полученные здесь биномиальные выборочные распределения при больших n () хорошо апроксимируются нормальным распределением с параметрами и, что значительно упрощает расчеты.

Продолжим случайный эксперимент -- бросание правильной, однородной, треугольной пирамиды. Случайная величина Х, связанная с этим опытом, имеет распределение. Математическое ожидание здесь равно

Проведем n бросаний, что эквивалентно случайной выборке объема n из гипотетической, бесконечной, генеральной совокупности, содержащей равные доли (0.25) четырех разных элементов. Получим n выборочных значений случайной величины Х (). Выберем статистику, которая представляет собой выборочное среднее. Величина сама является случайной величиной, имеющей некоторое распределение, зависящее от объема выборки и распределения исходной, случайной величины Х. Величина является усредненной суммой n одинаковых, случайных величин (то есть с одинаковым распределением). Ясно, что

Поэтому статистика является несмещенной оценкой математического ожидания. Она является также состоятельной оценкой, поскольку

Таким образом, теоретическое выборочное распределение имеет тоже математическое ожидание, что и у исходного распределения, дисперсия уменьшена в n раз.

Напомним, что равна

Математическая, абстрактная бесконечная выборка, связанная с выборкой объема n из генеральной совокупности и с введенной статистикой будет содержать в нашем случае элементов. Например, если, то в математической выборке будут элементы со значениями статистики. Всего элементов будет 13. Доля крайних элементов в математической выборке будет минимальной, так как результаты и имеют вероятности, равные. Среди множества элементарных исходов четырех кратного бросания пирамиды имеются только по одному благоприятному и. При приближении статистик к средним значениям, вероятности будут возрастать. Например, значение будет реализоваться при элементарных исходах, и т. д. Соответственно возрастет и доля элемента 1.5 в математической выборке.

Среднее значение будет иметь максимальную вероятность. С ростом n экспериментальные результаты будут теснее группироваться около среднего значения. То обстоятельство, что среднее выборочного среднего равно среднему исходной совокупности часто используется в статистике.

Если выполнить расчеты вероятностей в выборочном распределении с, то можно убедиться, что уже при таком небольшом значении n выборочное распределение будет выглядеть как нормальное. Оно будет симметричным, в котором значение будет медианой, модой и математическим ожиданием. С ростом n оно хорошо апроксимируется соответствующим нормальным даже, если исходное распределение прямоугольное. Если же исходное распределение нормально, то распределение является распределением Стьюдента при любом n.

Для оценки генеральной дисперсии необходимо выбрать более сложную статистику, которая дает несмещенную и состоятельную оценку. В выборочном распределении для S 2 математическое ожидание равно, а дисперсия. При больших объемах выборок выборочное распределение можно считать нормальным. При малых n и нормальном исходном распределении выборочное распределение для S 2 будет ч 2 _распределение.

Выше мы попытались представить первые шаги исследователя, пытающегося провести простой статистический анализ повторных экспериментов с правильной однородной треугольной призмой (тетраэдром). В этом случае нам известно исходное распределение. Можно в принципе теоретически получить и выборочные распределения относительной частоты, выборочного среднего и выборочной дисперсии в зависимости от числа повторных опытов n. При больших n все эти выборочные распределения будут приближаться к соответствующим нормальным распределениям, так как они представляют собой законы распределения сумм независимых случайных величин (центральная предельная теорема). Таким образом, нам известны ожидаемые результаты.

Повторные эксперименты или выборки дадут оценки параметров выборочных распределений. Мы утверждали, что экспериментальные оценки будут правильными. Мы не выполняли эти эксперименты и даже не приводили результаты опытов, полученные другими исследователями. Можно подчеркнуть, что при определении законов распределений теоретические методы используются чаще, чем прямые эксперименты.

Весь массив особей определенной категории называется генеральной совокупностью. Объем генеральной совокупности определяется задачами исследования.

Если изучается какой-нибудь вид диких животных или растений, то генеральной совокупностью будут все особи этого вида. В данном случае объем генеральной совокупности будет очень большой и при расчетах он принимается за бесконечно большую величину.

Если изучается действие какого-нибудь агента на растения и животных определенной категории, то генеральной совокупностью будут все растения и животные той категории (вида, пола, возраста, хозяйственного назначения), к которой относились подопытные объекты. Это уже не очень большое количество особей, но еще недоступное для сплошного изучения.

Не всегда объем генеральной совокупности недоступен для сплошного исследования. Иногда изучаются небольшие совокупности, например, определяется средний удой или средний настриг шерсти у группы животных, закрепленных за определенным работником. В таких случаях генеральной совокупностью будет совсем небольшое количество особей, которые все исследуются. Небольшая генеральная совокупность встречается также при исследовании растений или животных, имеющихся в какой-нибудь коллекции, с целью характеристики определенной группы в данной коллекции.

Характеристики групповых свойств ( и т. д.), относящиеся ко всей генеральной совокупности, называются генеральными параметрами.

Выборка – группа объектов, отличающихся тремя особенностями:

1 это часть генеральной совокупности;

2 отобранная в случайном порядке, определенным образом;

3 исследуемая для характеристики всей генеральной совокупности.

Для того чтобы по выборке можно было получить достаточно точную характеристику всей генеральной совокупности, необходимо организовать правильный отбор объектов из генеральной совокупности.

Теорией и практикой разработано несколько систем отбора особей в выборку. В основу всех этих систем положено стремление обеспечить максимальную возможность выбора любого объекта из генеральной совокупности. Тенденциозность, предвзятость при отборе объектов для выборочного исследования препятствуют получению правильных общих выводов, делают результаты выборочного исследования непоказательными для всей генеральной совокупности, т. е. нерепрезентативными.

Для получения правильной, неискаженной характеристики всей генеральной совокупности необходимо стремиться обеспечить возможность отбора в выборку любого объекта из любой части генеральной совокупности. Это основное требование должно выполняться тем строже, чем более изменчив изучаемый признак. Вполне понятно, что при разнообразии, приближающемся к нулю, например в случае изучения цвета волос или перьев некоторых видов, любой способ отбора выборки даст репрезентативные результаты.

В различных исследованиях применяются следующие способы отбора объектов в выборку.

4 Случайный повторный отбор, при котором объекты изучения отбираются из генеральной совокупности без предварительного учета развития у них изучаемого признака, т. е. в случайном (для данного признака) порядке; после отбора каждый объект изучается и затем возвращается в свою генеральную совокупность, так что любой объект может попасть повторно в выборку. Такой способ отбора равносилен отбору из бесконечно большой генеральной совокупности, для которого разработаны основные показатели взаимоотношений между выборочными и генеральными величинами.

5 Случайный бесповторный отбор, при котором объекты, отобранные, как и при предыдущем способе, случайно, не возвращаются в генеральную совокупность и не могут повторно попасть в выборку. Это наиболее распространенный способ организации выборки; он равносилен отбору из большой, но ограниченной генеральной совокупности, что учитывается при определении генеральных показателей по выборочным.

6 Механический отбор, при котором производится отбор объектов из отдельных частей генеральной совокупности, причем эти части предварительно намечаются механически по квадратам опытного поля, по случайным группам животных, взятых из разных ареалов популяции и т. д. Обычно намечается столько таких частей, сколько предполагается взять объектов для изучения, поэтому число частей бывает равно численности выборки. Механический отбор иногда осуществляется выбором для изучения особей через определенное число, например при пропускании животных через раскол и отборе каждого десятого, сотого и т. д., или при взятии укоса через каждые 100 или 200 м, или отборе одного объекта через каждые встретившиеся 10, 100 и т. д. экземпляров при исследовании всей популяции.

8 Серийный (гнездовой) отбор, при котором генеральная совокупность разбивается на части – серии, некоторые из них исследуются целиком. Применяется этот способ с успехом в тех случаях, когда исследуемые объекты достаточно равномерно распределены в определенном объеме или на определенной территории. Например, при исследовании зараженности воздуха или воды микроорганизмами берут пробы, которые подвергаются сплошному исследованию. В некоторых случаях гнездовым способом могут быть обследованы также сельскохозяйственные объекты. При изучении выходов мяса и других продуктов переработки мясной породы скота в выборку можно взять всех животных этой породы, поступивших на два-три мясокомбината. При изучении величины яйца в колхозном птицеводстве можно в нескольких колхозах провести изучение этого признака у всего поголовья кур.

Характеристики групповых свойств (μ, s и т. д.), полученные для выборки, называются выборочными показателями.

Репрезентативность

Непосредственное изучение группы отобранных объектов дает, прежде всего, первичный материал и характеристику самой выборки.

Все выборочные данные и сводные показатели имеют значение в качестве первичных фактов, вскрытых исследованием и подлежащих тщательному рассмотрению, анализу и сопоставлению с результатами других работ. Но этим не ограничивается процесс извлечения информации, заложенный в первичных материалах исследования.

То обстоятельство, что объекты отбирались в выборку специальными приемами и в достаточном количестве, делает результаты изучения выборки показательными не только для самой выборки, но также и для всей генеральной совокупности, из которой взята эта выборка.

Выборка при определенных условиях становится более или менее точным отражением всей генеральной совокупности. Это свойство выборки называется репрезентативностью, что означает представительность с определенной точностью и надежностью.

Как и всякое свойство, репрезентативность выборочных данных может быть выражена в достаточной или в недостаточной степени. В первом случае в выборке получаются достоверные оценки генеральных параметров, во втором – недостоверные. Важно помнить, что получение недостоверных оценок не умаляет значения выборочных показателей для характеристики самой выборки. Получение же достоверных оценок расширяет область применения достижений, полученных при выборочном исследовании.

Необходимость проводить выборочные исследования, может быть вызвана различными причинами:

    часто полное исследование изучаемого явления слишком дорого стоящее и длительное;

    иногда возможность использовать полученную информацию при полном исследовании может исчерпаться раньше, чем завершится процесс его подготовки;

    в некоторых случаях в результате проверки качества изделия происходит уничтожение исследуемого объекта.

Пример:

    предположим, совокупность — это все учащиеся школы (600 человек из 20 классов, по 30 человек в каждом классе). Предмет изучения — отношение к курению.

Генеральная совокупность — это набор объектов, о которых необходимо получить информацию.

Генеральная совокупность состоит из всех объектов, которые имеют качества, свойства, интересующие исследователя. Иногда генеральная совокупность — это все взрослое население определённого региона (например, когда изучается отношение потенциальных избирателей к кандидату), чаще всего задаётся несколько критериев, определяющих объекты исследования. Например, женщины 10-89 лет, использующие крем для рук определённой марки не реже одного раза в неделю, и имеющие доход не ниже 5 тысяч рублей на одного члена семьи.

Выборка — это небольшой набор объектов, извлеченных из генеральной совокупности.

Выборочная совокупность — это необходимый для исследования минимум результатов (случаев, испытуемых, объектов, событий, образцов) отобранных с помощью определённой процедуры из генеральной совокупности.

Примеры:

    выявление реакции клиентов фирмы на нововведения, все клиенты фирмы представляют собой генеральную совокупность. Те клиенты, которых обзвонили, образуют выборку.

    При аудиторской проверке фирм с большим числом сделок приходится довольствоваться изучением отобранного числа сделок. Все сделки фирмы образуют генеральную совокупность, отобранные — выборку.

    генеральную совокупность образуют все призывники определенного года.

    все лампы, изготовленные за определенное время на некотором предприятии, образуют генеральную совокупность. Те лампы, которые отобраны для контроля, — выбору.

Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной. Выборка будет репрезентативной при обследовании большой группы людей, если внутри этой группы есть представители разных подгрупп, только так можно сделать верные выводы. .

Репрезентати́вность — соответствие характеристик выборки характеристикам популяции или генеральной совокупности в целом. Репрезентативность определяет, насколько возможно обобщать результаты исследования с привлечением определённой выборки на всю генеральную совокупность, из которой она была собрана.

Также репрезентативность можно определить, как свойство выборочной совокупности представлять параметры генеральной совокупности, значимые с точки зрения задач исследования.

Пример: выборка, состоящая из 60 учеников старших классов, гораздо хуже представляет совокупность, чем выборка из тех же 60 человек, в которую войдут по 3 ученика из каждого класса. Главной причиной тому — неравное возрастное распределение в классах. Следовательно, в первом случае репрезентативность выборки низкая, а во втором случае репрезентативность высокая (при прочих равных условиях).

Задача 1. В городе, насчитывающем 253 000 жителей, имеющих право голосовать, исследуйте политические симпатии будущих избирателей.

Решение

    Выборку можно построить, опрашивая каждого 15-о покупателя, выходящего из крупного торгового центра. Такая выборка будет отражать мнение посетителей торгового центра, но вряд ли будет представлять точку зрения всех жителей города.

    Другой метод построения выборки — провести опрос по телефону каждого 100-го жителя города, взяв номера из телефонного справочника. Такая систематическая выборка даст информацию о точке зрения группы людей, имеющих телефон, находящихся дома и отвечающих на телефонные звони. Но она не отражает мнения всех жителей города.

    Еще один метод построить выборку может заключаться в том, чтобы опросить участников митинга, организованного несколькими политическими партиями. Такая выборкка даст информацию о жителях, активно участвующих в политической жизни города.

Итак, нужны такие способы образования выборки, которые представляли бы всю генеральную совокупность, т. е. выборка должна быть репрезентативной (представительной).

Задача 2. Определить, является ли репрезентативной выборка:

1) число автомобильных аварий в июне, если необходимо составить статистический отчет по авариям в городе за год;

2) городские жители при подсчете числа автомобилей на душу населения в стране;

3) люди в возрасте от 40 до 50 лет при выяснении рейтинга молодежной телепрограммы.

Решение

1) Выборка не является репрезентативной. Летом нет снега и наледи на дорогах, а это одна из основных причин аварий.

2) Выборка не является репрезентативной. Понятно, что в городе машин намного больше, чем в сельских районах. Это необходимо учитывать.

3) Выборка не является репрезентативной. Люди в возрасте от 40 до 50 лет едва ли проявят интерес к программе, ориентированной на молодежную аудиторию. При использовании такой выборки рейтинг может сильно упасть, но это не отразит реального положения вещей. Для формирования выборочной совокупности применяются различные способы отбора. Статистические данные должны быть представлены так, чтобы ими можно было пользоваться.

Параметры генеральной совокупности и выборки

N - генеральная совокупность, которая подразделяется на страты N 1 , N 2 и так далее.

Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными.

N - объем выборки.

В основе статистических выводов проведенного исследования лежит распределение случайной величины Х, наблюдаемые же значения х 1 , х 2 , х 3 называются реализациями случайной величины x.

Распределение случайной величины X в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением

Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение о виде распределения может быть как статистически верным, так и ошибочным.

Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное.

Важнейшими параметрами распределений являются математическое ожидание а и дисперсия σ 2 - мера разброса данных.

Стандартное отклонение σ - степень отклонения данных наблюдений или множеств от среднего значения.

Задача 3. Михаил вместе со своими друзьями решил измерить рост своих собак (по холке). Найдите: среднее значение; отклонение роста.

Решение

    Математическое ожидание или среднее значение можно найти по формуле:


    Теперь посчитаем отклонение роста каждой собаки от среднего или математического ожидания, то есть посчитаем дисперсию.


Стандартное отклонение это всего лишь квадратный корень из дисперсии.

σ \ = 147,32

Таким образом, зная стандартное отклонение мы знаем, что значит «нормальный рост», и что является очень высокой и очень маленькой собакой.

Ответ: 394, 21,704; 147,32.

Задача 4. Наблюдение в контрольной лаборатории за сроком годности 50 электроламп одинаковой мощности, взятых наудачу из большой партии выпущенных заводом ламп этой же мощности, привело к следующим данным о нарушении установленного гарантийного срока горения:

Отклонение в Ч

10 мального распределения, которое отражает отклонение фактического срока горения лампочек от гарантийного.

Решение.

Среднее отклонение

Таким образом, искомое нормальное распределение характеризуется следующими значениями параметров: а = 0,4; σ 2 = 318; σ = 17,8.

Отсюда плотность вероятности:

Соответствующая этой плотности функция распределения будет выглядеть:

Генеральная совокупность (в англ. - population ) - совокупность всех объектов (единиц), относительно которых учёный намерен делать выводы при изучении конкретной проблемы.

Генеральная совокупность состоит из всех объектов, которые подлежат изучению. Состав генеральной совокупности зависит от целей исследования. Иногда генеральная совокупность - это все население определённого региона (например, когда изучается отношение потенциальных избирателей к кандидату), чаще всего задаётся несколько критериев, определяющих объект исследования. Например, мужчины 30-50 лет, использующие бритву определённой марки не реже раза в неделю, и имеющие доход не ниже $100 на одного члена семьи.

Выборка или выборочная совокупность - множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

Характеристики выборки:

 Качественная характеристика выборки – кого именно мы выбираем и какие способы построения выборки мы для этого используем.

 Количественная характеристика выборки – сколько случаев выбираем, другими словами объём выборки.

Необходимость выборки

 Объект исследования очень обширный. Например, потребители продукции глобальной компании – огромное количество территориально разбросанных рынков.

 Существует необходимость в сборе первичной информации.

Объём выборки

Объём выборки - число случаев, включённых в выборочную совокупность. Из статистических соображений рекомендуется, чтобы число случаев составляло не менее 30 – 35.

17. Основные способы формирования выборки

Формирование выборки прежде всего основывается на знании контура выборки, под которым понимается список всех единиц совокупности, из которого выбираются единицы выборки. Например, если в качестве совокупности рассматривать все автосервисные мастерские города Москвы, то надо иметь список таких мастерских, рассматриваемый как контур, в пределах которого формируется выборка.

Контур выборки неизбежно содержит ошибку, называемую ошибкой контура выборки и характеризующую степень отклонения от истинных размеров совокупности. Очевидно, что не существует полно официального списка всех автосервисных мастерских г. Москвы. Исследователь должен информировать заказчика работы о размерах ошибки контура выборки.

При формировании выборки используются вероятностные (случайные) и невероятностные (неслучайные) методы.

Если все единицы выборки имеют известный шанс (вероятность) быть включенными в выборку, то выборка называется вероятностной. Если эта вероятность неизвестна, то выборка называется невероятностной. К сожалению, в большинстве маркетинговых исследований из-за невозможности точного определения размера совокупности не представляется возможным точно рассчитать вероятности. Поэтому термин «известная вероятность» скорее основан на использовании определенных методов формирования выборки, чем на знании точных размеров совокупности.

Вероятностные методы включают в себя:

Простой случайный отбор;

Систематический отбор;

Кластерный отбор;

Стратифицированный отбор.

Невероятностные методы:

Отбор на основе принципа удобства;

Отбор на основе суждений;

Формирование выборки в процессе опроса;

Формирование выборки на основе квот.

Смысл метода отбора на основе принципа удобства заключается в том, что формирование выборки осуществляется самым удобным с позиций исследователя образом, например с позиций минимальных затрат времени и усилий, с позиций доступности респондентов. Выбор места исследования и состава выборки производится субъективным образом, например, опрос покупателей осуществляется в магазине, ближайшем к месту жительства исследователя. Очевидно, что многие представители совокупности не принимают участия в опросе.

Формирование выборки на основе суждения основано на использовании мнения квалифицированных специалистов, экспертов относительно состава выборки. На основе такого подхода часто формируется состав фокус-группы.

Формирование выборки в процессе опроса основано на расширении числа опрашиваемых исходя из предложений респондентов, которые уже приняли участие в обследовании. Первоначально исследователь формирует выборку намного меньшую, чем требуется для исследования, затем она по мере проведения расширяется.

Формирование выборки на основе квот (квотный отбор) предполагает предварительное, исходя из целей исследования, определение численности групп респондентов, отвечающих определенным требованиям (признакам). Например, в целях исследования было принято решение, что в универмаге должно быть опрошено пятьдесят мужчин и пятьдесят женщин. Интервьюер проводит опрос, пока не выберет установленную квоту.


Top