Исследовательский проект на научную конференцию
Вложение | Размер |
---|---|
nachalnaya_statisticheskaya_obrabotka_informatsii.doc | 621.5 КБ |
Начальная статистическая обработка информации
или как я работал статистиком.
г. Калуга
Автор: Гапеенко Дмитрий (МБОУ “Лицей № 48 ” г. Калуги, 10 “А” класс)
Введение.
“Математика имеет репутацию самой отвлеченной науки. В то же время никто не смеет считать ее бесполезной наукой, наоборот – это самая нужная наука. И вот получается, казалось бы, противоречивое положение: с одной стороны – самая отвлеченная и оторванная от жизни наука, а с другой стороны – самая нужная наука. Это кажущееся противоречие объясняется тем, что математика имеет два аспекта: теоретический, где она рассуждает о самых общих и далеких от жизни вещах, и прикладной, где она касается самых практически необходимых вещей.”
Это был отрывок из статьи академика П. С. Александрова “Математика и человеческая культура”. Математика является учебным предметом, которому придается чрезвычайно большое значение на всех ступенях общего образования. Но, к сожалению, в школе больше изучается теоретическая (или, как ее еще называют, чистая) математика и почти совсем не рассматриваются ее приложения.
В школьной программе по математике с 5 класса изучается раздел “Элементы статистики и теории вероятностей”. В своей работе я хочу показать возможности практического применения методов математической статистики, рассмотрев задачи, возникающие в реальной жизни. Для обработки результатов исследования я использовал приложение Microsoft Excel.
Что такое статистика?
Статистика знает всё.
И. Ильф, Е. Петров “Двенадцать стульев”.
В энциклопедическом словаре можно найти следующее толкование интересующего нас слова. Статистика (от лат. status – состояние) – получение, обработка, анализ и публикация информации, характеризующей количественные закономерности жизни общества в неразрывной связи с их качественным содержанием. В естественных науках понятие “статистика” означает анализ массовых явлений, основанный на применении методов теории вероятностей.
Таким образом, статистика занимается подбором и анализом интересующей людей количественной информации. Так что именно статистика помогает учителю вывести итоговую оценку по предмету ученику, который в течение года демонстрировал различный уровень знаний, получая при этом разные оценки. Статистика помогает определить, например, рейтинг теннисиста в мировой классификации, подсчитав и проанализировав его результаты в различных турнирах. Однако наибольшую пользу приносит статистика при изучении массовых явлений. Почему, например, медики утверждают, что курение опасно для здоровья человека? К выводу о вреде курения врачи всего мира пришли не сразу, а лишь после анализа множества наблюдений за здоровьем курящих людей, сравнивая частоту заболеваний различными болезнями среди курящих и некурящих людей.
После рассмотрения последнего примера может возникнуть вопрос: насколько правомочен вывод о вреде курения для всех людей планеты, если исследования проводились на относительно небольшой (в сравнении с миллиардным населением планеты) группе людей? Но именно так и поступают в статистических исследованиях: рассматривают и изучают многочисленную часть объектов из всех объектов явления (ее называют выборкой). При этом все объекты называют генеральной совокупностью. По результатам наблюдения за массовой выборкой делают выводы обо всей генеральной совокупности.
Занимаясь темой “Начальная статистическая обработка информации”, я получил от моего учителя Смирновой И. Н. задание: выяснить какие суммы тратят учащиеся 7-х классов, питаясь в школьном буфете.
В результате сбора всех данных, полученная информация была необозримой. Человеческий мозг слабоват для анализа таких объемов информации. Единственный выход – это преобразовать первоначальные данные, получить несколько характеристик начальной информации и в дальнейшем уже оперировать с этими характеристиками.
Цель начальной статистической обработки информации – представить информацию статистического исследования в компактной, обозримой и понятной форме.
Задача о питании школьников.
Еще раз сформулирую задачу, полученную моего учителя: выяснить, какие суммы тратят учащиеся 7-х классов, питаясь в буфете лицея.
Уже на этапе сбора данных для статистического исследования возникает масса непростых проблем, от решения которых во многом будет зависеть объективность полученной информации и достоверность выводов, которые потом будут сделаны на ее основе. Как, например, организовать социологический опрос, чтобы полученные в нем данные отражали реальную картину? Сколько человек нужно опросить? Как организовать их выбор?
Для того чтобы выборка была репрезентативной, я решил провести опрос ≈50% случайно отобранных учеников из каждого класса после 5 урока. Им всем задавался один вопрос: “Какую сумму ты сегодня потратил в школьном буфете?” Опрос дал следующие результаты:
10,15,10,15,0,15,20,0,10,15,20,5,0,20,20,15,10,8,20,20,7,6,10,10,8,4,0,15,13,6,8,0,10,10,6,7,13,11,5,4,5,15,10,7,9,6,8,0,0,9,0,20,8,20.
С моим учителем математики Смирновой И. Н. мы решили рассмотреть следующие задачи начальной статистической обработки информации:
РЕШЕНИЕ:
n | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 |
xi | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 4 | 4 | 5 | 5 | 5 | 6 | 6 | 6 | 6 | 7 | 7 | 7 | 8 | 8 | 8 |
24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 |
8 | 8 | 9 | 9 | 10 | 10 | 10 | 10 | 10 | 10 | 10 | 10 | 10 | 11 | 13 | 13 | 15 | 15 | 15 | 15 | 15 | 15 |
46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 |
15 | 20 | 20 | 20 | 20 | 20 | 20 | 20 | 20 |
.
Значения признака (xi) | 0 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 15 | 20 |
Количество учащихся (mi) | 8 | 2 | 3 | 4 | 3 | 5 | 2 | 9 | 1 | 2 | 7 | 8 |
В полученном ряду .
xi | 0 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 15 | 20 |
wi (≈ ) | 0,15 | 0,04 | 0,06 | 0,07 | 0,06 | 0,09 | 0,04 | 0,17 | 0,02 | 0,04 | 0,13 | 0,15 |
Интервалы | [0; 3] | (3; 6] | (6; 9] | (9; 12] | (12; 15] | (15; 18] | (18; 21] |
mi | 8 | 9 | 10 | 10 | 9 | 0 | 8 |
Если в промежуточный интервал включаются варианты, числовые значения которых больше или равны нижней границы и меньше верхней границы, то частоты (или частости) интервалов будут другими (см. табл. 1.4)
Интервалы | [0; 3) | [3; 6) | [6; 9) | [9; 12) | [12; 15) | [15; 18) | [18; 21) |
mi | 8 | 5 | 12 | 12 | 2 | 7 | 8 |
С одной стороны, в интервальном ряду потеряна первоначальная точная информация, с другой стороны, наглядно видна качественная оценка распределения данных.
Построим полигон дискретного вариационного ряда частостей (см. табл. 1.2). Для построения полигона распределения дискретного вариационного ряда на оси абсцисс откладываются варианты, а на оси ординат – частоты (или частости). Полученные точки соединяют отрезками. (Диаграмма построена в программе Excel.)
Гистограмма интервального вариационного ряда.
xi | Частости mi (≈ %) | Накопленные частости vi (≈ %) |
0 | 14,81 | 14,81 |
4 | 3,70 | 18,52 |
5 | 5,56 | 24,07 |
6 | 7,41 | 31,48 |
7 | 5,56 | 37,04 |
8 | 9,26 | 46,30 |
9 | 3,70 | 50,00 |
10 | 16,67 | 66,67 |
11 | 1,85 | 68,52 |
13 | 3,70 | 72,22 |
15 | 12,96 | 85,19 |
20 | 14,81 | 100 |
На оси абсцисс прямоугольной системы координат откладываются значения признака, а по оси ординат – соответствующие им накопленные частости (или частоты). Кумулята дискретного вариационного ряда представляет собой ступенчатую разрывную линию, имеющую конечные разрывы в точках, соответствующих значениям признака, вариантам.
Рассчитаем среднюю сумму потраченных денег для дискретного вариационного ряда в табл. 1.1 по формуле .
.
А для интервального вариационного ряда по данным табл. 1.4 в формуле для нахождения в качестве значений признака принимаются середины интервалов. Теперь расчет средней арифметической примет вид:
.
Для расчета дисперсии в интервальном вариационном ряде (см. табл. 1.4) используем формулу , заменяя серединами интервалов.
Расчет средней арифметической и дисперсии удобно осуществлять при помощи расчетной таблицы в Excel.
xi | mi | (xi - x)2mi | x | 10,2 | |
1,5 | 8 | 605,52 | |||
4,5 | 5 | 162,45 | |||
7,5 | 12 | 87,48 | |||
10,5 | 12 | 1,08 | |||
13,5 | 2 | 21,78 | |||
16,5 | 7 | 277,83 | |||
19,5 | 8 | 691,92 | |||
Σ | 54 | 1848,06 |
Найдем дисперсию дискретного вариационного ряда по формуле , где .
, и среднее квадратичное отклонение (руб.)
Выводы:
Заключение.
Статистика имеет многовековую историю. Уже в древнем мире вели статистический учет населения. Однако произвольные толкования статистических данных, отсутствие строгой научной базы статистических прогнозов позволили в конце XIX века английскому премьер-министру Б. Дизраэли заметить: “Есть три вида лжи: обычная ложь, наглая ложь и статистика”. В XX веке появилась математическая статистика – наука, основанная на законах теории вероятностей. Соединение накопленных к этому времени практических методов обработки данных с математическим аппаратом теории вероятностей превратило эти две отрасли человеческого знания в мощный инструмент для исследования законов природы и общества.
Разбираться в азах статистики необходимо каждому человеку хотя бы ради того, чтобы не “попасться на удочку” пристрастных или нечистоплотных высказываний прессы, средств массовой информации, отдельных политиков или экономистов.
Изучая литературу по статистике, я узнал, что статистический анализ применяется не только в естественных и экономических науках и при организации производства, но и в гуманитарных науках:
Сейчас я учусь в 10 физико-математическом классе и я еще не знаю точно, какую профессию я выберу, но я уверена, что в моей будущей профессии мне обязательно пригодится знание основ статистики.
Список литературы.
Гораздо больше риска в приобретении знаний, чем в покупке съестного
Кто грамотней?
Филимоновская игрушка
Под парусами
Карты планет и спутников Солнечной системы