Статистика обучения, от представления до показателей распределения данных

Статистика - это математическая наука, изучающая сбор, обработку, анализ и представление данных. Статистические данные широко используются в страховых компаниях, одна из которых заключается в определении размера премии в страховом полисе. Каждый страхователь обязан платить взнос, называемый премией. Выплачиваемый страховой взнос соответствует получаемой страховой защите.

Здесь страховая компания использует статистику, чтобы размер премии соответствовал сумме покрытия, которое может быть предоставлено страхователям. Таким образом, от этого выигрывают обе стороны.

Как упоминалось ранее, статистика не только собирает и обрабатывает, но и представляет данные. Статистика также использует несколько способов распределения данных при обработке данных. Сегодня мы обсудим типы представления, а также размер разброса данных в статистике.

Типы представления данных

Типы представления данных в статистике включают таблицы частотного распределения, гистограммы, многоугольники и огивы.

Первая форма представления данных - использование таблицы частотного распределения. Как следует из названия, мы используем таблицы для отображения типа и количества полученных данных. Таблица частотного распределения также имеет несколько типов, а именно таблицу частотного распределения для отдельных данных и групповых данных.

(Также читайте: Два данных измерений в статистике)

Единая таблица частотного распределения данных используется для представления небольших объемов данных, по крайней мере, менее 30 данных. Ниже приведен пример представления данных с использованием единой таблицы частотного распределения данных.

Приведенные ниже данные представляют собой результаты тестов 30 студентов. Подавайте в единую таблицу частотного распределения данных!

4 8 7 9 10 3 4 6 7 6 5 7 7 8 9 6 6 8 7 9 4 5 6 7 8 10 4 5 6 7

Если мы обратим внимание, наименьший полученный результат теста равен 3, а самый высокий балл - 10. Затем из этих баллов вычисляется количество студентов, которые его получают. Например, для 3 класса всего 1 ученик. В 4 классе 4 ученика и так далее. Затем этот показатель представлен в таблице, подобной следующей.

турбины на базе морской ветряной электростанции

Следующий тип таблицы частотного распределения - это таблица частотного распределения групповых данных. Эта таблица используется для представления большого количества данных, то есть более 30 данных. Давайте посмотрим на пример ниже.

Ниже приведена высота растений чили (в миллиметрах) на плантации чили. Представьте данные в таблице распределения данных группы!

123 131 120 128 126 124 125 122

121 126 124 123 122 120 125 126

123 123 134 125 125 125 126 128 135

120 126 124 133 126 127 123 126

122 125 123 132 124 124 132 128 124

В отличие от отдельных данных, здесь мы должны рассчитать количество классов и длины классов, которые будут отображаться в таблице. Используя данные выше, вот расчеты.

Много данных (n) = 40

Максимальная высота (x макс ) = 135

Минимальная высота (x мин ) = 120

Диапазон (Дж) = x макс  - x мин = 135 - 120 = 15

Количество классов (k) = 1 + 3,3 log = 1 + 3,3 log40 = 6,2868… ≈ k = 6

Длина класса (c) = J / k = 15/6 = 2,5 ≈ c = 3

По этим результатам мы можем отобразить таблицу распределения групповых данных следующим образом.

турбины на базе морской ветряной электростанции

Далее мы обсудим другие типы представления сгруппированных данных, а именно в виде гистограмм, частотных полигонов и огивов. Взгляните на приведенную ниже таблицу частот, в которой содержится информация о весе для 80 членов спортивных клубов.

турбины на базе морской ветряной электростанции

Чтобы представить данные в виде гистограммы, мы сначала строим декартову диаграмму. Ось абсцисс показывает верхнюю и нижнюю границы каждого класса, а ось ординат показывает частоту.

статистика4 (1)

В отличие от гистограммы, многоугольный график частот берет среднее значение интервала классов и отображает его линиями в соответствии с частотой.

статистика5 (1)

Наконец, представление данных использует положительную совокупную или отрицательную частотную кривую. Сначала отметьте совокупные значения частоты каждого класса интервалов на оси ординат. Затем отметьте координаты точек в соответствии с парами верхней границы класса интервала и накопленной частоты. Соедините точки плавной кривой.

Размер распространения данных

В статистике существует два типа измерения данных, а именно размер концентрации данных и размер распределения данных. В чем объяснение и в чем разница?

Размер центра обработки данных - это значение, которое представляет расположение данных. В измерении, ориентированном на данные, есть среднее значение, мода и медиана.

Среднее или среднее - это частное между суммой всех наблюдаемых данных с большим количеством данных. Мы можем сформулировать среднее значение следующим образом.

Среднее = (сумма всех данных) / (много данных)

Чтобы лучше понять, давайте поработаем над следующей примерной проблемой. Количество часов в неделю, необходимых 5 людям для социальной активности в их среде, составляет 10, 7, 13, 20 и 15 часов. Определите среднее количество часов в неделю, которые они тратят на общественную деятельность!

Исходя из вышеперечисленных задач, мы можем ввести числа в формулу следующим образом.

Среднее значение = (10 + 7 + 13 + 20 + 15) / 5 = 65/5 = 13

Это означает, что среднее количество часов, которое они тратят на общественную деятельность, составляет 13 часов.

Помимо среднего или среднего, есть еще режимы. Режим - это значение, которое чаще всего встречается в данных. Давайте посмотрим на пример следующей проблемы.

Ниже приведены данные о весе (в килограммах) некоторых учеников класса 7. Определите режим данных!

32, 35, 33, 32, 34, 31, 35, 35, 31, 34, 35, 3

Прежде всего, мы должны подсчитать, сколько раз каждое значение появляется в данных. Основываясь на этих данных, мы получаем 31 (x3), 32 (x2), 33 (x1), 34 (x2) и 35 (x4). Поскольку 35 встречается наиболее часто, режим данных выше - 35.

Последний тип центрирующей меры - это медиана. Медиана делит данные на две равные части, так что медиана является средним значением отсортированных данных.

Чтобы определить медиану, мы сначала должны отсортировать все данные в порядке убывания или возрастания. Во-вторых, определите много данных и обозначьте их как «n». Если n нечетное, мы используем следующую формулу.

Медиана = количество данных - ((n + 1) / 2)

Между тем, если n четное, мы используем формулу ниже.

Медиана = (данные ith (n / 2) + данные ith (n / 2 + 1)) / 2

Второе измерение данных в статистике - это мера разброса данных. Размер разброса данных - это значение, которое указывает, как далеко данные находятся от центра обработки данных. Размер распределения данных состоит из диапазона, квартиля и межквартильного диапазона.

Диапазон - это разница между наибольшим значением данных и наименьшим значением данных. Мы можем достичь охвата, вычитая самые большие данные из самых маленьких. Например, если в одном классе самый высокий ученик имеет рост 160 см, а самый низкий ученик имеет рост 143 см, мы получим вылет 23 см.

Между тем квартиль - это группировка статистических данных на четыре равные части. Размер квартиля делится на 3: нижний квартиль (Q 1 ), средний квартиль (Q 2 или медиана) и верхний квартиль (Q 3 ). Чтобы определить каждый квартиль, мы должны предпринять несколько шагов.

Сначала отсортируйте данные в порядке возрастания или убывания. Во-вторых, определите среднее или медианное значение данных. В-третьих, определите нижний квартиль (Q 1 ), который представляет собой среднее значение группы данных ниже медианы (Q 2) . Наконец, определите верхний квартиль (Q 3 ), который представляет собой среднее значение набора данных выше медианы (Q 2) .

Последний тип меры распределения данных - это межквартильный размах. Межквартильный размах - это разница между верхним и нижним квартилями. Формула следующая.

Q d = Q 3 - Q 1