«Я на обед ем капусту, мой сосед ест котлеты, а в среднем мы с ним едим голубцы». Как понимать статистику

Почти под каждым постом, который затрагивает вопрос средней зарплаты в уездном городе N, обязательно появится комментарий с подобной шуткой (или любой другой ее вариант — про макароны по-флотски или среднюю температуру по больнице с учетом умерших). Давайте разберемся, почему эта шутка плохая. И дело не только в том, что она не смешная и повторяется вместе с каждой публикацией статистических показателей.

Многие уже поняли, что среднее арифметическое зарплат и его динамика не лучший способ анализа благосостояния граждан уездного города N, и начали требовать медианных значений. Это здравое желание, но, к сожалению, медиана тоже не всегда дает результат, нужный недовольным комментаторам. Как же перестать ненавидеть Росстат и зажравшихся энчан и полюбить статистику?

«Есть три вида лжи: маленькая ложь, большая ложь и статистика»

(2-е место в хит-параде шуток про статистику).

Сами по себе данные не хорошие и не плохие. Вопрос только в том, что мы видим за этими числами. Чтобы лучше понимать, о чем нам хочет сказать очередной пресс-релиз комитета статистики уездного города N, нужно говорить со статистической наукой на одном языке. Конечно, среднее арифметическое — это далеко не все, а лишь одна из характеристик выборки. К сожалению, в школе вся математическая статистика сводится исключительно к нему. Возможно, именно потому, что жители N не знают других терминов, пресс-секретарь статистического ведомства публикует именно эту характеристику (нет, совсем не потому, что мэру нужно отчитаться).

Допустим, сегодня вышел пресс-релиз:

На центральной площади перед ратушей уездного города N провели выборочный опрос и выяснилось, что средний заработок энчан составляет 60 у. е. В паблике «Подслушано N» сразу начались словесные баталии. Появились комментарии о том, что ни у кого из знакомых автора зарплаты больше 30 у. е. нет, а такое значение возможно только потому, что статистическое ведомство лжет или у мэра зарплата в 10 000 у. е. Ну и обязательная шутка про голубцы, куда же без нее.

Кто же лжет в славном городе N: мэр, статистическое ведомство или же кто-то еще?

Чтобы разобраться, начнем с понятия выборки. Правильно сформировать выборку для опроса — особый квест. Очевидно, что если бы мы могли опросить всех горожан, то получили бы информацию о доходах всей популяции. Эта выборка точно была бы репрезентативной. Однако мы можем опросить не всех, а только некоторую часть жителей. И чем меньше людей участвует в опросе, тем ниже репрезентативность данных.

Можно ли считать выборку случайных людей на центральной площади репрезентативной? Однозначного ответа нет. На этот показатель может влиять день недели (будний/выходной), приезд делегации из столичного города M и еще очень много других факторов. В идеале после опроса все демографические соотношения (мужчины/женщины, дети/взрослые/пенсионеры и прочие) должны совпадать с общегородской статистикой — для этого и проводится перепись населения. Если выборка не отвечает этим требованиям, то она нерепрезентативна, а значит, это ошибка и доверять такому отчету нельзя.

Допустим, что выборка была репрезентативной, но данные для большинства горожан всё равно удивительные. Они таких зарплат даже не видят. Чтобы понять, почему среднее арифметическое позволяет довольно точно оценить знания школьников, посчитав средний балл за контрольную, не очень помогает оценить среднюю температуру по больнице и совершенно не работает при оценке доходов населения, нам понадобится понятие дисперсии.

Дисперсия — это мера «разброса» случайной величины от ее самого вероятного значения. У учеников оценка может быть от 2 до 5. Если мы считаем, что наиболее вероятная оценка у школьников 3,5, то мы имеем дисперсию, равную 1,5. Это небольшая дисперсия. Она позволяет нам говорить о том, что среднее арифметическое класса достаточно показательно, если мы хотим сравнить, какой класс знает математику лучше. При помощи такой аргументации гораздо проще объяснить маме тройку, чем доказывать, что у всех вообще два. Согласитесь, «Мама, я сделал вывод, что моя тройка с плюсом выше среднего арифметического в классе, что говорит о том, что я заслуживаю поощрения, а не наказания» звучит гораздо убедительнее, чем «Мама! Да у всех вообще двойки!».

В случае со средней температурой по больнице всё становится интереснее. Дисперсия температуры у живого человека не такая уж большая — от примерно +34 до +42 °С при максимально ожидаемой +36,6 °С. Это позволяет нам говорить, что среднее арифметическое достаточно показательно для оценки ситуации. Можно сказать, что в среднем пациенты в инфекционном отделении теплее пациентов в травматологическом. Однако всё меняется, если добавить труп с комнатной температурой. Это увеличивает дисперсию и приводит к тому, что среднее становится совершенно нерепрезентативным.

Точно так же можно посмотреть на статистику среднего возраста рождения первого/второго/третьего ребенка у женщины. Почему все учитывают именно женщин, а не мужчин? С агрегацией данных по мужчинам возникает много проблем: разная дисперсия по сравнению с женщинами (у женщин период, когда они могут иметь детей, гораздо короче, чем у мужчин), принципиально разное количество детей, которые могут появиться в течение жизни, сложности с достоверным установлением отцовства.

Несколько лет назад одна лаборатория опубликовала статистику, согласно которой около 10 % тестов на отцовство были отрицательными. Человек, который не знаком со статистикой, мог бы предположить, что 10 % детей воспитываются не своими родителями. Это одна из классических ловушек восприятия статистической информации, которая хорошо накладывается на предыдущие выводы по поводу однородности выборки:

«Никогда не переносите данные опроса на всю популяцию, если не убедились в корректности выборки».

В нашем случае отцовство действительно не подтвердилось в 10 % тестов, но что это была за выборка? Это люди, которые уже настолько сомневались в отцовстве, что пошли проверять его в лабораторию.

Перейдем к нашему вопросу с зарплатами. Дисперсия у зарплат может более чем в 10 раз превышать наиболее вероятный доход. Именно из-за этого говорить о среднем арифметическом как о репрезентативном показателе зарплаты гражданина из массы совершенно бессмысленно.

Понять, что происходит с зарплатами в городе N, помогут медиана и мода.

Медиана — это значение, при котором половина измерений будут больше нее, а половина — меньше нее.

Мода — самое часто встречающееся значение.

Посмотрим, что насчитал нам статистический орган города N. Пресс-секретарь утверждает, что распределение по полу, возрасту, месту жительства и виду деятельности совпадает с общегородским, то есть опрос репрезентативен.

На горизонтальной оси отображается уровень зарплаты, который указал житель во время опроса, а на вертикальной — количество людей с указанными зарплатами

В нашем городе получились следующие показатели:

Средняя зарплата составила 60 у. е., однако такой зарплатой и выше могут похвастаться только 12 тысяч из 43 тысяч опрошенных, то есть около четверти населения N. Такое неравенство не может не вызывать удивления у жителей, и чем больше будет дисперсия по зарплатам в нашем городе, тем меньше энчане будут доверять значению средней зарплаты.

Посмотрим теперь на моду и медиану.

Медиана составит 40 у. е., а мода — 30 у. е. Мода — высокий пик на графике в 15 тысяч человек, примерно такого результата горожане и ожидают.

В моде практически каждый житель города узнает себя, своего знакомого или, по крайней мере, не удивится такому значению.
В нашем случае мода немного больше, но тоже не вызовет особого возмущения.

Каждая характеристика распределения позволяет что-то понять о распределении, однако даже все вместе они могут подводить. Например, модальное значение может быть совершенно случайным на малых выборках или если мы попробуем спрашивать о зарплате у людей с точностью до копейки. Тогда три человека с абсолютно одинаковой зарплатой могут иметь самое частое значение в выборке.

Другая ситуация — если у нас есть два равных пика. Например, в N не одно, а два градообразующих предприятия, причем одно из них в четыре раза успешнее другого. Мы получим вот такое распределение по зарплатам:

Здесь у нас получатся две моды: 30 и 120. Медиана будет 65, а средняя зарплата по городу будет 76. Полноценную картину может дать только общий набор данных.

Где и как мы можем применить эти знания в реальной жизни? Не стоит воспринимать контринтуитивную статистику как заведомый обман, но и доверять ей на все сто не надо. Статистика ради статистики — удел весьма своеобразных людей, вся остальная статистика собирается под конкретные запросы и задачи. Если же всплывают какие-нибудь данные, которые вызывают массовые бугурты, — возможно, эту информацию собирали не для общего пользования. Опять же, любые данные, которые вызвали у вас вопросы, можно проверить на адекватность, размер выборки и сохранение пропорций. Если отнестись к этому с чуть большим уважением и любопытством, можно открыть для себя огромный мир данных, из которых можно получать очень любопытные зависимости и последовательности.

Дерзайте знать!

Источник: knife.media

Поделись
с друзьями!

431

• Жизнь

17 месяцев

Фибоначчи повсюду!

Числа Фибоначчи названы в честь Леонардо Фибоначчи из города Пизы (современная Италия). На самом деле эти числа были известны задолго до Фибоначчи ещё в древней Индии, где они использовались в метрическом стихосложении.

Леонардо Фибоначчи первым ввёл эту числовую последовательность в западноевропейской математической науке в своей важной книге «Liber Abaci» («Книга абака») в 1202 году. Он использовал эту последовательность чисел, когда пытался объяснить рост популяции кроликов.

Фибоначчи рассматривает гипотетическую ситуацию, когда в поле появляется пара кроликов. Они спариваются в конце месяца и в конце второго месяца самка производит еще одну пару. Кролики никогда не умирают, спариваются ровно через месяц, и самки всегда производят пару (один самец, одна самка). Вопрос, который поставил Фибоначчи был следующим: сколько пар будет через один год? Если посчитать, то окажется, что количество пар в конце N-го месяца равно Fn или N-му числу Фибоначчи. Таким образом, количество пар кроликов через 12 месяцев будет F12 или 144.

Числа Фибоначчи и золотое сечение

Как известно, последовательность Фибоначчи начинается с 1 и 1, после чего каждое новое число является результатом сложения двух предыдущих чисел:
1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, …
Если разделить два последовательных числа в этом ряду, например 144/89, в конечном итоге получится число 1,618, которое называется «Золотое число» или «Золотое сечение».

Фибоначчи повсюду!

Последовательное приближение соотношения двух соседних чисел ряда Фибоначчи к Золотому сечению.

Пропорция золотого сечения считается эстетически приятной и из-за этого многие художники и архитекторы, в том числе Сальвадор Дали и Ле Корбюзье использовали её в своих работах.

Последовательность Фибоначчи и Золотое сечение тесно взаимосвязаны. Отношение последовательных чисел Фибоначчи сходится и приближается к золотому сечению, а выражение замкнутой формулы для последовательности Фибоначчи включает Золотое сечение.

Золотой прямоугольник (розовый) с длинной стороной a и короткой стороной b, и находящийся рядом с ним квадрат со стороной длиной a, создадут подобный золотой прямоугольник с длинной стороной а + b и короткой стороной a. Это изображение иллюстрирует взаимосвязь отношений (a+b)/a = a/b.

Спираль Фибоначчи или золотая спираль — это последовательность соединенных четвертей окружностей, вписанных внутри массивов квадратов со сторонами равными числам Фибоначчи. Квадраты идеально подходят друг к другу из-за природы последовательности Фибоначчи, в которой следующее число равно сумме двух перед ним (см.предыдущий рисунок). Любые два последовательных числа Фибоначчи имеют отношение, очень близкое к золотому сечению, которое составляет примерно 1.618034. Чем больше пара чисел Фибоначчи, тем ближе это приближение. Спираль и результирующий прямоугольник называются золотым прямоугольником.

Почему эта последовательность настолько уникальна

Числа Фибоначчи описывают различные явления в искусстве, музыке и природе. Числа спиралей на большинстве шишек и ананасах равны числам Фибоначчи. Расположение листьев и ветвей на стеблях многих растений соответствуют числам Фибоначчи. На пианино количество белых (8) клавиш и черных (5) клавиш в каждой октаве (13) являются числами Фибоначчи. Длины и ширины многих прямоугольных предметов, таких как учетные карточки, окна, игральные карты и пр. соответствуют последовательным числам ряда Фибоначчи.

Числа Фибоначчи в природе

Подсолнухи являются отличными примерами последовательности Фибоначчи, потому что семена в центре цветка организованы в два набора спиралей — короткие, идущие по часовой стрелке от центра, и более длинные — против часовой стрелки. Если считать спирали последовательно, то, видимо, всегда найдутся числа Фибоначчи.

Последовательность Фибоначчи можно также увидеть в форме или разделении ветвей дерева. Основной ствол будет расти до тех пор, пока он не создаст ветвь, которая создает две точки роста. Затем один из новых стеблей разветвляется на два, в то время как другой находится в состоянии покоя. Такая картина ветвления повторяется для каждого из новых стеблей. Корневая система и даже водоросли также демонстрируют эту закономерность.

Вот еще несколько примеров, где вы можете найти спираль Фибоначчи в природе.

Неудивительно, что спиральные галактики также следуют знакомой схеме Фибоначчи. Млечный Путь имеет несколько спиральных рукавов, каждый из которых представляет логарифмическую спираль около 12 градусов.

Числа Фибоначчи в теле человека

Есть много примеров соотношений частей тела человека на основе последовательности Фибоначчи, например рука и, в частности, кости пальца.

Каждая кость указательного пальца, от кончика до основания запястья, больше предыдущей примерно на коэффициент Фибоначчи 1,618, что соответствует числам Фибоначчи 2, 3, 5 и 8.

Числа Фибоначчи в биржевой торговле

Последовательность Фибоначчи является инструментом технического анализа, используемым профессиональными трейдерами в сочетании с другими инструментами для расчета прогноза потенциального конца коррекции, принимая процент от предыдущего движения.

Считается, что во время мощного рыночного движения, цены могут откатываться на 23,6% (это соответствует отношению числа ряда Фибоначчи на позиции N к числу на позиции N+3), 38,2% (соответствует отношению числа ряда Фибоначчи на позиции N к числу на позиции N+2) или 50% (половина). Эти уровни коррекции Фибоначчи считаются «нормальными». Если же цена падает на 61,2% (отношение двух соседних чисел ряда Фибоначчи — позиции N и N+1) и более, то это серьезный сигнал вероятного разворота тренда.

Числа Фибоначчи в фотографии и искусстве

В фотографии сетка фи (phi) является интерполяцией спирали Фибоначчи и в наши дни считается фундаментальным методом для создания приятной композиции в кадре. Цель состоит в том, чтобы выровнять объект по линиям, созданным спиралью, или использовать её в качестве разделителя для создания правильного ощущения кадра.

Сетка фи (красные линии) и спираль Фиббоначи в кадре.

Имеется много примеров, когда последовательность Фибоначчи появляется вокруг нас, и мы не обращаем внимания на это математическое чудо, которое кажется таинственным фактором, приносящим универсальную форму гармонии элементам математического музыкального искусства природы.

И еще немного фундаментального числа!

Источник: medium.com

Поделись
с друзьями!

2155

180

• Культура, искусство

Feeling Moment

58 месяцев

Притча о границах сознания: математик Джордж Данциг

Мотивирующая притча, основанная на реальных событиях!

В 1939 году 25-летний математик Джордж Данциг учился в Калифорнийском университете. Однажды он на 20 минут опоздал на пару по статистике. Тихонько вошел, сел за парту и завертел головой, пытаясь понять, что пропустил.

На доске были записаны условия двух задач.

«Ага», подумал Данциг, «ясно — это, видимо, домашнее задание к следующей паре». Студент переписал задачи в тетрадь и стал слушать профессора.
Дома он трижды пожалел о том, что опоздал на пару. Задачи были действительно сложными. Данциг думал, что, вероятно, пропустил что-то важное для их решения. Однако делать было нечего. Через несколько дней напряженной работы он все же решил эти задачи. Довольный заскочил к профессору и отдал тетрадь.

Профессор — его звали Ежи Нейман, если кому интересно — рассеянно принял задание. Да, мол, хорошо. Он как-то не смог сразу вспомнить, что не задавал студентам ничего подобного…

Когда спустя некоторое время он таки просмотрел то, что принес ему ученик, у него просто глаза на лоб полезли. Он вспомнил, что действительно в начале одной из лекций рассказывал студентам условия двух этих задач.

Двух теорем, которые на тот момент ещё не были доказаны!

Однако Данциг просто прослушал ту часть лекции, в котором говорилось о сложности этих задач. И решил их.

Иногда вы можете сделать невозможное. Если только не убедите себя сами в том, что это невозможное — невозможно.

Источник: elims.org.ua

Поделись
с друзьями!