Выборочная совокупность пример. Генеральная и выборочная совокупности

Совокупность однородных объектов часто исследуют относительно какого-либо признака, характеризующего их, измеренного количественно либо качественно.

К примеру, если имеется партия деталей, то количественным признаком может быть размер детали по ГОСТу, а качественным - стандартность детали.

В случае необходимости их проверки на соответствие стандартам иногда прибегают к сплошному обследованию, но на практике это применяется крайне редко. К примеру, если генеральная совокупность содержит огромное количество изучаемых объектов, то практически невозможно проводить сплошное обследование. В таком случае из всей совокупности отбирают определенное число объектов (элементов) и их исследуют. Таким образом, имеется генеральная и выборочная совокупность.

Генеральной называют совокупность всех объектов, которые подвергаются обследованию или изучению. Генеральная совокупность, как правило, содержит в себе конечное число элементов, но если оно слишком велико, то с целью упрощения математических вычислений допускается, что вся совокупность состоит из бесчисленного числа объектов.

Выборкой или выборочной совокупностью называется часть отобранных элементов из всей совокупности. Выборка может быть повторной либо бесповторной. В первом случае её возвращают в генеральную совокупность, во втором - нет. В практической деятельности чаще используют бесповторный случайный отбор.

Генеральная совокупность и выборка должны быть связаны между собой репрезентативностью. Говоря по другому, для того, чтобы по характеристикам выборочной совокупности можно было уверенно определять признаки всей совокупности, надо, чтобы элементы выборки максимально точно их представляли. Иными словами, выборка должна быть представительной (репрезентативной).

Выборка будет более или менее репрезентативной, если она производится случайно из очень большого числа всей совокупности. Это можно утверждать на основе так называемого закона больших чисел. При этом все элементы имеют равную вероятность попасть в выборку.

Имеются различные варианты отбора. Все эти способы в принципе можно разделить на два варианта:

  • Вариант 1. Отбираются элементы, когда генеральная совокупность не делится на части. К этому варианту можно отнести простой случайный повторный и бесповторный отборы.
  • Вариант 2. Генеральная совокупность разделяется на части и производится отбор элементов. Сюда можно отнести типический, механический и серийный отборы.

Простой случайный - отбор, при котором элементы извлекаются по одному из всей совокупности случайным образом.

Типический - это отбор, при котором элементы отбираются не из всей совокупности, а из всех её «типических» частей.

Механический - это такой отбор, когда всю совокупность разделяют на количество групп, равное числу элементов, которое должно быть в выборке, и, соответственно, из каждой группы выбирается один элемент. К примеру, если надо отобрать 25% деталей, изготовленных станком, то выбирают каждую четвёртую деталь, а если требуется отобрать 4% деталей, то выбирают каждую двадцать пятую деталь и так далее. При этом необходимо сказать, что иногда механический отбор может не обеспечивать достаточной

Серийный - это такой отбор, при котором элементы отбирают из всей совокупности «сериями», подвергаемыми сплошному исследованию, а не по одному. К примеру, когда детали изготавливаются большим числом станков-автоматов, то сплошное обследование проводится только в отношении продукции нескольких станков. Серийный отбор используют, если исследуемый признак имеет незначительную вариативность в разных сериях.

С целью уменьшения погрешности применяют оценки генеральной совокупности с помощью выборочной. Причем выборочный контроль может быть как одноступенчатым, так и многоступенчатым, что повышает надежность обследования.

Математическая статистика – это раздел математики, изучающий приближенные методы отыскания законов распределения и числовых характеристик по результатам эксперимента.

Генеральная совокупность – это множество всех мыслимых значений наблюдений (объектов), однородных относительно некоторого признака, которые смогли быть сделаны.

Выборка это совокупность случайно отобранных наблюдений (объектов) для непосредственного изучения из генеральной совокупности.

Статистическое распределение – это совокупность вариант x i и соответствующих им частот n i .

Гистограмма частот – это ступенчатая фигура, состоящая из смежных прямоугольников, построенных га оной прямой, основания которых одинаковы и равны ширине класса, а высота равна или частоте попадания в интервал n i или относительной частоте n i /n. Ширину интервала i можно определить по формуле Стерджеса :

I=(x max -x min)/(1+3,32lgn),

Где x max – максимальное; x min – минимальное значение вариант, а их разность носит название вариационный размах ; n – объем выборки.

Полигон частот – ломаная линия, отрезки которой соединяют точки с координатами x i , n i .

5. Характеристики положения (мода, медиана, выборочное среднее) и рассеяния (выборочная дисперсия и выборочное среднее квадратическое отклонение).

Мода (М о ) это такое значение варианты, что предшествующее и следующее за ним значения имеют меньшие частоты встречаемости.

Для одномодальных распределений мода – это наиболее часто встречающаяся варианта в данной совокупности.

Для определения моды интервальных рядов служит формула:

M 0 =x ниж +i*((n 2 -n 1 )/(2n 2 -n 1 +n 3 )),

где х ниж – нижняя граница модального класса, т.е. класса с наибольшей частотой встречаемости n 2 ; n 2 – частота модального класса; n 1 – частота класса, предшествующего модальному; n 3 – частота класса, следующего за модальным; i – ширина классового интервала.

Медиана (М е )- это значение признака. Относительно которого ряд распределения делится на 2 равные по объему части.

Выборочная средняя – это среднее арифметическое значение вариант статистического ряда

Выборочная дисперсия – среднее арифметическое квадратов отклонения вариант от их среднего значения:

Среднее квадратическое отклонение это квадратный корень из выборочной дисперсии:

S в =√(S в 2 )

6. Оценка параметров генеральной совокупности по ее выборке (точечная и интервальная). Доверительный интервал и доверительная вероятность.

Числовые значения, характеризующие генеральную совокупность, называются параметрами.

Статистическое оценивание может выполняться двумя способами:

1)точечная оценка – оценка, которая дается для некоторой определенной точки;

2)интервальная оценка – по данным выборки оценивается интервал, в котором лежит истинное значение с заданной вероятностью.

Точечная оценка – это оценка, которая определяется одним числом. И это число определяется по выборке.

Точечная оценка называется состоятельной , если при увеличении объема выборки выборочная характеристика стремится к соответствующей характеристике генеральной совокупности.

Точечная оценка называется эффективной , если она имеет наименьшую дисперсию выборочного распределения по сравнению с другими аналогичными оценками.

Точечную оценку называют несмещенной , если ее математическое ожидание равно оценивающему параметру при любом объеме выборки.

Несмещенной оценкой генеральной средней (математического ожидания) служит выборочная средняя в:

в = i n i ,

где x i – варианты выборки; n i – частота встречаемости вариант x i ; n – объем выборки.

Интервальная оценка – это числовой интервал, который определяется двумя числами – границами интервала, содержащий неизвестный параметр генеральной совокупности.

Доверительный интервал – это интервал, в котором с той или иной заранее заданной вероятностью находится неизвестный параметр генеральной совокупности.

Доверительная вероятность p это такая вероятность, что событие вероятности (1-р) можно считать невозможным. α=1-р – это уровень значимости. Обычно в качестве доверительных вероятностей используют вероятности, близкие к 1. Тогда событие, что интервал накроет характеристику, будет практически достоверным. Это р≥0,95, р≥0,99, р≥0,999.

Для выборки малого объема (n<30) нормально распределенного количественного признака х доверительный интервал может иметь вид:

в - m t≤≤ в + m t (р≥0,95),

где – генеральное среднее; в – выборочное среднее; t – нормированный показатель распределения Стьюдента с(n-1) степенями свободы, который определяется вероятностью попадания генерального параметра в данный интервал; m – ошибка выборочной средней.

Генеральная совокупность – совокупность элементов, удовлетворяющих неким заданным условиям; именуется также изучаемой совокупностью. Генеральная совокупность (Universe) - все множество объектов (субъектов) исследования, из которого выбираются (могут выбираться) объекты (субъекты) для обследования (опроса).

ВЫБОРКА или выборочная совокупность (Sample) - это множество объектов (субъектов), отобранных специальным образом для обследования (опроса). Любые данные, полученные на основании выборочного обследования (опроса), имеют вероятностный характер. На практике это означает, что в ходе исследования определяется не конкретное значение, а интервал, в котором определяемое значение находится.

Характеристики выборки:

Качественная характеристика выборки – что именно мы выбираем и какие способы построения выборки мы для этого используем.

Количественная характеристика выборки – сколько случаев выбираем, другими словами объём выборки.

Необходимость выборки:

Объект исследования очень обширный. Например, потребители продукции глобальной компании – огромное количество территориально разбросанных рынков.

Существует необходимость в сборе первичной информации.

Объём выборки - число случаев, включённых в выборочную совокупность.

Зависимые и независимые выборки.

При сравнении двух (и более) выборок важным параметром является их зависимость. Если можно установить гомоморфную пару (то есть, когда одному случаю из выборки X соответствует один и только один случай из выборки Y и наоборот) для каждого случая в двух выборках (и это основание взаимосвязи является важным для измеряемого на выборках признака), такие выборки называются зависимыми .

В случае, если такая взаимосвязь между выборками отсутствует, то эти выборки считаются независимыми.

Типы выборки.

Выборки делятся на два типа:

Вероятностные;

Не вероятностные;

Репрезентативная выборка - выборочная совокупность, в которой основные характеристики совпадают с характеристиками генеральной совокупности. Только для этого типа выборки результаты обследования части единиц (объектов) можно распространять на всю генеральную совокупность. Необходимое условие для построения репрезентативной выборки - наличие информации о генеральной совокупности, т.е. либо полный список единиц (субъектов) генеральной совокупности, либо информация о структуре по характеристикам, существенно влияющим на отношение к предмету исследования.

17. Дискретный вариационный ряд, ранжирование, частота, частность.

Вариационным рядом (статистическим рядом) – называется последовательность вариант, записанных в порядке возрастания и соответствующих им весов.

Вариационный ряд может быть дискретным (выборка значений дискретной случайной величины) и непрерывным (интервальным) (выборка значений непрерывной случайной величины).

Дискретный вариационный ряд имеет вид:

Наблюдаемые значения случайной величины х1, х2, …, хk называются вариантами, а изменение этих значений называются варьированием.

Выборка (выборочная совокупность) – совокупность наблюдений, отобранных случайным образом из генеральной совокупности.

Число наблюдений в совокупности называется ее объемом.

N – объем генеральной совокупности.

n – объем выборки(сумма всех частот ряда).

Частотой варианты хi называется число ni (i=1,…,k), показывающее, сколько раз эта варианта встречается в выборке.

Частостью (относительной частотой, долей) варианты хi (i=1,…,k) называется отношение ее частоты ni к объему выборки n.
wi =ni /n

Ранжирование опытных данных - операция, заключающаяся в том, что результаты наблюдений над случайной величиной, т. е. наблюдаемые значения случайной величины, располагают в порядке неубывания.

Дискретным вариационным рядом распределения называется ранжированная совокупность вариантов хi с соответствующими им частотами или частностями.

Генеральная совокупность – множество тех людей, сведения о которых стремится получить социолог в своем исследовании. В зависимости от того, насколько широкой будет тема исследования, настолько же широка будет генеральная совокупность.

Выборочная совокупность – уменьшенная модель генеральной совокупности; те, кому социолог раздает анкеты, кого называют респондентами, кто, наконец, представляет собой объект социологического исследования.

Кого именно относить к генеральной совокупности, определяют цели исследования, а кого включать в выборочную совокупность решают математические методы. Если социолог намеревается взглянуть на афганскую войну глазами ее участников, в генеральную совокупность войдут все воины-афганцы, но опрашивать ему придется небольшую часть – выборочную совокупность. Для того чтобы выборка точно отражала генеральную совокупность, социолог придерживается правила: любой воин-афганец, независимо от места жительства, места работы, состояния здоровья и других обстоятельств, должен иметь одинаковую вероятность попасть в выборочную совокупность.

Как только социолог определился с тем, кого он хочет опросить, он определил основу выборки . После чего решается вопрос о типе выборки.

Выборки делятся на три больших класса:

а) сплошные (переписи, референдумы). Опрашиваются все единицы из генеральной совокупности;

б) случайные ;

в) неслучайные.

Случайный и неслучайный типы выборки в свою очередь подразделяются на несколько видов.

К случайным относят:

1) вероятностную;

2) систематическую;

3) районированную (стратифицированную);

4) гнездовую.

К неслучайным относят:

1) «стихийную»;

2) квотную;

3) метод «основного массива».

Полный и точный перечень единиц выборочной совокупности образует основу выборки . Элементы, предназначенные для отбора, называются единицами отбора . Единицы отбора могут совпадать с единицами наблюдения, поскольку единицей наблюдения считается элемент генеральной совокупности, с которого непосредственно ведется сбор информации. Обычно единица наблюдения – это отдельный человек. Отбор из списка лучше всего производить, нумеруя единицы и используя таблицу случайных чисел, хотя часто используется квази-случайный метод, когда из перечня простого берется каждый n-й элемент.

Если основа выборки включает список единиц отбора, то структура выборки подразумевает их группирование по каким-то важным признакам, например, распределение индивидов по профессии, квалификации, полу или возрасту. Если в генеральной совокупности, к примеру, 30% молодежи, 50% людей среднего возраста и 20% пожилых, то и в выборочной совокупности должны соблюдаться те же самые процентные пропорции трех возрастов. К возрастам могут добавиться классы, пол, национальность и т.д. Для каждой устанавливаются процентные пропорции в генеральной и выборочной совокупности. Таким образом, структура выборки – процентные пропорции признаков объекта, на основании которых составляется выборочная совокупность.

Если тип выборки говорит о том, как попадают люди в выборочную совокупность, то объем выборки сообщает о том, какое их количество попало сюда.

Объем выборки – количество единиц выборочной совокупности. Поскольку выборочная совокупность – это часть генеральной совокупности, отобранной с помощью специальных методов, ее объем всегда меньше объема генеральной. Поэтому так важно, чтобы часть не искажала представления о целом, то есть репрезентировала его.

На достоверность данных влияют не количественные характеристики выборочной совокупности (ее объем), а качественные характеристики генеральной совокупности – степень ее однородности. Расхождение между генеральной и выборочной совокупностью называется ошибкой репрезентативности , допустимое отклонение – 5%.

Вот некоторые способы избежать ошибки:

    каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку;

    отбор желательно производить из однородных совокупностей;

    надо знать характеристики генеральной совокупности;

    при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.

Если выборочная совокупность (выборка) составлена правильно, то социолог получает надежные результаты, характеризующие всю генеральную совокупность.

Каковы же основные методы выборки ?

Метод механической выборки , когда из общего списка генеральной совокупности через равные промежутки отбирается необходимое число респондентов (например, каждый 10-й).

Метод серийной выборки . При этом генеральная совокупность разбивается на однородные части и из каждой пропорционально отбираются единицы анализа (например, по 20% мужчин и женщин на предприятии).

Метод гнездовой выборки . В качестве единиц отбора выступают не отдельные респонденты, а группы с последующим сплошным исследованием в них. Данная выборка будет представительна, если состав групп схож (например, по одной группе студентов из каждого потока какого-нибудь факультета вуза).

Метод основного массива – опрос 60–70% генеральной совокупности.

Метод квотной выборки . Наиболее сложный метод, требующий определения не менее четырёх признаков, по которым проводится отбор респондентов. Применяется обычно при большой генеральной совокупности.

Необходимость проводить выборочные исследования, может быть вызвана различными причинами:

    часто полное исследование изучаемого явления слишком дорого стоящее и длительное;

    иногда возможность использовать полученную информацию при полном исследовании может исчерпаться раньше, чем завершится процесс его подготовки;

    в некоторых случаях в результате проверки качества изделия происходит уничтожение исследуемого объекта.

Пример:

    предположим, совокупность — это все учащиеся школы (600 человек из 20 классов, по 30 человек в каждом классе). Предмет изучения — отношение к курению.

Генеральная совокупность — это набор объектов, о которых необходимо получить информацию.

Генеральная совокупность состоит из всех объектов, которые имеют качества, свойства, интересующие исследователя. Иногда генеральная совокупность — это все взрослое население определённого региона (например, когда изучается отношение потенциальных избирателей к кандидату), чаще всего задаётся несколько критериев, определяющих объекты исследования. Например, женщины 10-89 лет, использующие крем для рук определённой марки не реже одного раза в неделю, и имеющие доход не ниже 5 тысяч рублей на одного члена семьи.

Выборка — это небольшой набор объектов, извлеченных из генеральной совокупности.

Выборочная совокупность — это необходимый для исследования минимум результатов (случаев, испытуемых, объектов, событий, образцов) отобранных с помощью определённой процедуры из генеральной совокупности.

Примеры:

    выявление реакции клиентов фирмы на нововведения, все клиенты фирмы представляют собой генеральную совокупность. Те клиенты, которых обзвонили, образуют выборку.

    При аудиторской проверке фирм с большим числом сделок приходится довольствоваться изучением отобранного числа сделок. Все сделки фирмы образуют генеральную совокупность, отобранные — выборку.

    генеральную совокупность образуют все призывники определенного года.

    все лампы, изготовленные за определенное время на некотором предприятии, образуют генеральную совокупность. Те лампы, которые отобраны для контроля, — выбору.

Выборка может рассматриваться в качестве репрезентативной или нерепрезентативной. Выборка будет репрезентативной при обследовании большой группы людей, если внутри этой группы есть представители разных подгрупп, только так можно сделать верные выводы. .

Репрезентати́вность — соответствие характеристик выборки характеристикам популяции или генеральной совокупности в целом. Репрезентативность определяет, насколько возможно обобщать результаты исследования с привлечением определённой выборки на всю генеральную совокупность, из которой она была собрана.

Также репрезентативность можно определить, как свойство выборочной совокупности представлять параметры генеральной совокупности, значимые с точки зрения задач исследования.

Пример: выборка, состоящая из 60 учеников старших классов, гораздо хуже представляет совокупность, чем выборка из тех же 60 человек, в которую войдут по 3 ученика из каждого класса. Главной причиной тому — неравное возрастное распределение в классах. Следовательно, в первом случае репрезентативность выборки низкая, а во втором случае репрезентативность высокая (при прочих равных условиях).

Задача 1. В городе, насчитывающем 253 000 жителей, имеющих право голосовать, исследуйте политические симпатии будущих избирателей.

Решение

    Выборку можно построить, опрашивая каждого 15-о покупателя, выходящего из крупного торгового центра. Такая выборка будет отражать мнение посетителей торгового центра, но вряд ли будет представлять точку зрения всех жителей города.

    Другой метод построения выборки — провести опрос по телефону каждого 100-го жителя города, взяв номера из телефонного справочника. Такая систематическая выборка даст информацию о точке зрения группы людей, имеющих телефон, находящихся дома и отвечающих на телефонные звони. Но она не отражает мнения всех жителей города.

    Еще один метод построить выборку может заключаться в том, чтобы опросить участников митинга, организованного несколькими политическими партиями. Такая выборкка даст информацию о жителях, активно участвующих в политической жизни города.

Итак, нужны такие способы образования выборки, которые представляли бы всю генеральную совокупность, т. е. выборка должна быть репрезентативной (представительной).

Задача 2. Определить, является ли репрезентативной выборка:

1) число автомобильных аварий в июне, если необходимо составить статистический отчет по авариям в городе за год;

2) городские жители при подсчете числа автомобилей на душу населения в стране;

3) люди в возрасте от 40 до 50 лет при выяснении рейтинга молодежной телепрограммы.

Решение

1) Выборка не является репрезентативной. Летом нет снега и наледи на дорогах, а это одна из основных причин аварий.

2) Выборка не является репрезентативной. Понятно, что в городе машин намного больше, чем в сельских районах. Это необходимо учитывать.

3) Выборка не является репрезентативной. Люди в возрасте от 40 до 50 лет едва ли проявят интерес к программе, ориентированной на молодежную аудиторию. При использовании такой выборки рейтинг может сильно упасть, но это не отразит реального положения вещей. Для формирования выборочной совокупности применяются различные способы отбора. Статистические данные должны быть представлены так, чтобы ими можно было пользоваться.

Параметры генеральной совокупности и выборки

N - генеральная совокупность, которая подразделяется на страты N 1 , N 2 и так далее.

Страты представляют собой однородные объекты с точки зрения статистических характеристик (например, население делится на страты по возрастным группам или социальной принадлежности; предприятия — по отраслям). В этом случае выборки называются стратифицированными.

N - объем выборки.

В основе статистических выводов проведенного исследования лежит распределение случайной величины Х, наблюдаемые же значения х 1 , х 2 , х 3 называются реализациями случайной величины x.

Распределение случайной величины X в генеральной совокупности носит теоретический, идеальный характер, а ее выборочный аналог является эмпирическим распределением

Для выборки же функцию распределения определить трудно, а иногда невозможно, поэтому параметры оценивают по эмпирическим данным, а затем их подставляют в аналитическое выражение, описывающее теоретическое распределение. При этом предположение о виде распределения может быть как статистически верным, так и ошибочным.

Но в любом случае восстановленное по выборке эмпирическое распределение лишь грубо характеризует истинное.

Важнейшими параметрами распределений являются математическое ожидание а и дисперсия σ 2 - мера разброса данных.

Стандартное отклонение σ - степень отклонения данных наблюдений или множеств от среднего значения.

Задача 3. Михаил вместе со своими друзьями решил измерить рост своих собак (по холке). Найдите: среднее значение; отклонение роста.

Решение

    Математическое ожидание или среднее значение можно найти по формуле:


    Теперь посчитаем отклонение роста каждой собаки от среднего или математического ожидания, то есть посчитаем дисперсию.


Стандартное отклонение это всего лишь квадратный корень из дисперсии.

σ \ = 147,32

Таким образом, зная стандартное отклонение мы знаем, что значит «нормальный рост», и что является очень высокой и очень маленькой собакой.

Ответ: 394, 21,704; 147,32.

Задача 4. Наблюдение в контрольной лаборатории за сроком годности 50 электроламп одинаковой мощности, взятых наудачу из большой партии выпущенных заводом ламп этой же мощности, привело к следующим данным о нарушении установленного гарантийного срока горения:

Отклонение в Ч

10 мального распределения, которое отражает отклонение фактического срока горения лампочек от гарантийного.

Решение.

Среднее отклонение

Таким образом, искомое нормальное распределение характеризуется следующими значениями параметров: а = 0,4; σ 2 = 318; σ = 17,8.

Отсюда плотность вероятности:

Соответствующая этой плотности функция распределения будет выглядеть: