У data scientist-ів сотні розподілів ймовірності на будь-який смак. З чого почати?
Data science, чим би вона там не була - та ще штука. Від якогось гуру на ваших сходках або хакатонах можна почути:«Data scientist розбирається в статистиці краще, ніж будь-який програміст». Прикладні математики так мстять за те, що статистика вже не так на слуху, як в золоті 20е. У них навіть з цього приводу є своя несмішна діаграма Відня. І ось, значить, раптово ви, програміст, виявляєтеся абсолютно не при справах у бесіді про довірчі інтервали, замість того, щоб звично бурчати на аналітиків, які ніколи не чули про проект Apache Bikeshed, щоб розподілено форматувати коментарі. Для такої ситуації, щоб бути в струмені і знову стати душею компанії - вам потрібен експрес-курс за статистикою. Може, не досить глибокий, щоб ви все розуміли, але цілком достатній, щоб так могло здатися на перший погляд.
Ймовірнісні розподілу - це основа статистики, так само як структури даних - основа computer science. Якщо хочете говорити мовою data scientist-а - треба починати з їх вивчення. В принципі можна, якщо пощастить, робити прості аналізи, використовуючи R або scikit-learn взагалі без розуміння розподілів, так само як можна написати програму на Java без розуміння хешфункцій. Але рано чи пізно це закінчиться сльозами, помилками, помилковими результатами або - набагато гірше - охами і випученими очима від старших статистиків.
Існують сотні різних розподілів, деякі з яких на слух звучать як чудовиська середньовічних легенд, типу Muth або Lomax. Тим не менш, на практиці більш-менш часто використовуються близько 15. Які вони, і які розумні фрази про них потрібно запам'ятати?
Отже, що таке розподіл ймовірності?
Весь час щось відбувається: кидаються кубики, йде дощ, під'їжджають автобуси. Після того, як це щось сталося, можна бути впевненим у певному результаті: кубики випали на 3 і 4, випало 2.5 см дощу, автобус під'їхав через 3 хвилини. Але до цього моменту ми можемо говорити тільки про те, наскільки кожен результат можливий. Розподілення ймовірності описують те, як ми бачимо ймовірність кожного результату, що, найчастіше, набагато цікавіше, ніж знати тільки один, найбільш можливий результат. Розподілення бувають різних форм, але строго одного розміру: сума всіх ймовірностей у розподілі - завжди 1.
Наприклад, підкидання правильної монетки має два результати: вона впаде або орлом, або решкою (припускаючи, що вона не приземлиться на ребро і її не стягне в повітрі чайка). Перед кидком ми віримо, що з шансом 1 до 2 або з імовірністю 0.5 вона впаде орлом. Точно так само, як і решкою. Це розподіл ймовірності двох результатів кидка, і, якщо ви уважно прочитали цю пропозицію, то ви вже зрозуміли розподіл Бернуллі.
Незважаючи на екзотичні назви, поширені розподілі пов'язані один з одним досить інтуїтивними і цікавими способами, що дозволяють легко їх згадувати і впевнено про них міркувати. Деякі природно йдуть, наприклад, з розподілу Бернуллі. Час показати карту цих зв'язків.
Кожен розподіл ілюструється прикладом її функції щільності розподілу (ФПР). Ця стаття тільки про ті розподілі, у яких результати - поодинокі числа. Тому горизонтальна вісь кожного графіка - набір можливих чисел-результатів. Вертикальна - ймовірність кожного результату. Деякі розподілі дискретні - у них результати повинні бути цілими числами, типу 0 або 5. Такі позначаються рідкісними лініями, по одній на кожен результат, з висотою, що відповідає ймовірності даного результату. Деякі - безперервні, у них результати можуть прийняти будь-яке чисельне значення, типу -1.32 або 0.005. Ці зображення відображаються щільними кривими з областями під секціями кривої, які дають ймовірності. Сума висот ліній і областей під кривими - завжди 1.
Роздрукуйте, відріжте по пунктирній лінії і носіть з собою в гаманці. Це - ваш путівник в країні розподілів і їх родичів.
Бернуллі і рівномірне
Ви вже зустрілися з розподілом Бернуллі вище, з двома результатами - орлом або рішкою. Уявіть його тепер як розподіл над 0 і 1, 0 - орел, 1 - решка. Як вже зрозуміло, обидва результати рівномовірні, і це відображено на діаграмі. ФПР Бернуллі містить дві лінії однакової висоти, що представляють 2 рівновірогідні результати: 0 і 1 відповідно.
Розподіл Бернуллі може представляти і нерівномовірні результати, типу кидка неправильної монетки. Тоді ймовірність орла буде не 0.5, а якась інша величина p, а ймовірність решки - 1-p. Як і багато інших розподілів, це насправді ціле сімейство розподілів, які задаються певними параметрами, як p вище. Коли будете думати «Бернуллі» - думайте про «кидок (можливо, неправильної) монетки».
Звідси досить невеликий крок до того, щоб представити розподіл поверх декількох рівновірогідних результатів: рівномірний розподіл, характеризований плоскою ФПР. Уявіть правильний гральний кубик. Його результати 1-6 рівномовірні. Його можна вказати для будь-якої кількості результатів n, і навіть у вигляді безперервного розподілу.
Думайте про рівномірний розподіл як про «правильний гральний кубик».
Біноміальне і гіпергеометричне
Біноміальний розподіл можна уявити як суму результатів тих речей, які слідують розподілу Бернуллі.
Киньте чесну монету два рази - скільки разів буде орел? Це число підкоряється біноміальному розподілу. Його параметри - n, кількість випробувань, і p - ймовірність «успіху» (у нашому випадку - орла або 1). Кожен кидок - розподілений по Бернуллі результат, або випробування. Використовуйте біноміальний розподіл, коли рахуєте кількість успіхів у речах типу кидка монети, де кожен кидок не залежить від інших і має однакову ймовірність успіху.
Або уявіть урну з однаковою кількістю білих і чорних куль. Закрийте очі, витягніть кулю, запишіть її колір і поверніть її назад. Повторіть. Скільки разів витягнулася чорна куля? Це число також підпорядковується біноміальному розподілу.
Цю дивну ситуацію ми уявили, щоб було легше зрозуміти сенс гіпергеометричного розподілу. Це розподіл того ж числа, але в ситуації якби ми не повертали кулі назад. Воно, безумовно, двоюрідний брат біноміального розподілу, але не таке ж, оскільки ймовірність успіху змінюється з кожною витягнутою кулею. Якщо кількість куль досить велика в порівнянні з кількістю витягувань - то ці розподілу практично однакові, так як шанс успіху змінюється з кожним витягуванням вкрай незначно.
Коли десь говорять про витягування куль з урн без повернення, практично завжди безпечно увірнути «так, гіпергеометричний розподіл», тому що в житті я ще не зустрічав нікого, хто реально наповнював би урни кулями і потім витягав їх і повертав, або навпаки. У мене навіть знайомих немає з урнами. Ще частіше цей розподіл має спливати при виборі значущого підмножини деякої генеральної сукупності в якості вибірки.
Прим. переклад.
Тут може бути не дуже зрозуміло, а раз туторіал і експрес-курс для новачків - треба б роз'яснити. Генеральна сукупність - є щось, що ми хочемо статистично оцінити. Для оцінки ми вибираємо деяку частину (підмножину) і виробляємо необхідну оцінку на ній (тоді це підмножина називається вибіркою), припускаючи, що для всієї сукупності оцінка буде схожою. Але щоб це було вірно, часто потрібні додаткові обмеження на визначення підмножини вибірки (або навпаки, за відомою вибіркою нам треба оцінити, чи описує вона досить точно сукупність).
Практичний приклад - нам потрібно вибрати від компанії в 100 осіб представників для поїздки на E3. Відомо, що в ній 10 осіб вже їздили в минулому році (але ніхто не зізнається). Скільки мінімум потрібно взяти, щоб у групі з великою ймовірністю опинився хоча б один досвідчений товариш? В даному випадку генеральна сукупність - 100, вибірка - 10, вимоги до вибірки - хоча б один, що вже їздив на E3.
У вікіпедії є менш кумедний, але більш практичний приклад про браковані деталі в партії.
Пуассон
Що щодо кількості замовників, які телефонують по гарячій лінії в техпідтримку кожну хвилину? Це результат, чий розподіл на перший погляд біноміальний, якщо рахувати кожну секунду як випробування Бернуллі, протягом якої замовник або не подзвонить (0), або зателефонує (1). Але електропостачальні організації прекрасно знають: коли вимикають електрику - за секунду можуть зателефонувати двоє або навіть більше сотні людей. Уявити це як 60000 мілісекундних випробувань теж не допоможе - випробувань більше, ймовірність дзвінка в мілісекунду менше, навіть якщо не враховувати двох і більше одночасно, але, технічно - це все ще не випробування Бернуллі. Тим не менш, спрацьовує логічне міркування з переходом до нескінченності. Нехай n прагне до нескінченності, а p - до 0, і так, щоб np було постійним. Це як ділити на все більш малі частки часу з все менш малою ймовірністю дзвінка. У межі ми отримаємо розподіл Пуассона.
Так само, як і біноміальний, розподіл Пуассона - це розподіл кількості: кількості разів того, як щось станеться. Вона параметрується не ймовірністю p і кількістю випробувань n, але середньою інтенсивністю, що, в аналогії з біноміальним, просто постійне значення np. Розподіл Пуассона - те, про що треба згадувати, коли йде мова про підрахунок подій за певний час при постійній заданій інтенсивності.
Коли є щось, типу приходу пакетів на роутер або появи покупців у магазині або щось, що очікує в черзі - думайте «Пуассон».
Прим. переклад.
Я б місці автора я розповів про відсутність пам'яті у Пуассона і Бернуллі (розподілів, а не людей) і запропонував би в розмові увірнути щось розумне про парадокс закону великих чисел як його наслідок.
Геометричне і негативне біноміальне
З простих випробувань Бернуллі з'являється інший розподіл. Скільки разів монетка випаде решкою, перш ніж випасти орлом? Кількість решок підпорядковується геометричному розподілу. Як і розподіл Бернуллі, воно параметризується ймовірністю успішного результату, p. Воно не параметризується числом n, кількістю кидків-випробувань, тому що число невдалих випробувань якраз і є результат.
Якщо біноміальний розподіл це «скільки успіхів», то геометричний це «Скільки невдач до успіху?».
Негативний біноміальний розподіл - просте узагальнення попереднього. Це кількість невдач до того, як буде r, а не 1, успіхів. Тому воно додатково параметризується цим r. Іноді його описують як число успіхів до r невдач. Але, як каже мій лайф-коуч: «Ти сам вирішуєш, що є успіх, а що - невдача», так що це теж саме, якщо при цьому не забути, що ймовірність p теж повинна правильною ймовірністю успіху або невдачі відповідно.
Якщо потрібен буде жарт для зняття напруги, можна згадати, що біноміальний і гіпергеометричний розподіл - це очевидна пара, але і геометричний і негативний біноміальний так само вельми схожі, після чого заявити «Ну і хто ж так їх все називає, а?»
Експоненціальне і Вейбула
Знову про дзвінки в техпідтримку: скільки пройде до наступного дзвінка? Розподіл цього часу очікування ніби геометричний, тому що кожна секунда, поки ніхто не дзвонить - це як неуспіх, до секунди, поки, нарешті, дзвінок не відбудеться. Кількість невдач - це як кількість секунд, поки ніхто не дзвонив, і це практично час до наступного дзвінка, але «практично» нам недостатньо. Суть в тому, що цей час буде сумою цілих секунд, і, таким чином, не вийде порахувати очікування всередині цієї секунди до безпосередньо дзвінка.
Ну і, як і раніше, переходимо в геометричному розподілі до межі, щодо тимчасових часток - і вуаля. Отримуємо експоненціальний розподіл, який точно описує час до дзвінка. Це безперервний розподіл, перше таке у нас, тому що результат не обов'язково в цілих секундах. Як і розподіл Пуассона, він параметризується інтенсивністю.
Повторюючи зв'язок біноміального з геометричним, Пуассонівське «скільки подій за час?» пов'язано з експоненціальним «скільки до події?». Якщо є події, кількість яких на одиницю часу підпорядковується розподілу Пуассона, то час між ними підпорядковується експоненціальному розподілу з тим же параметром. Це відповідність між двома розподілами необхідно відзначати, коли обговорюється будь-яке з них.
Експоненційний розподіл повинен приходити на розум при роздумі про «час до події», можливо, «час до відмови». По факту, це така важлива ситуація, що існують більш узагальнені розподілу щоб описати напрацювання-на-відмову, типу розподілу Вейбула. У той час, як експоненціальний розподіл підходить, коли інтенсивність - зносу, або відмов, наприклад - постійна, розподіл Вейбула може моделювати збільшується (або зменшується) з часом інтенсивність відмов. Експоненціальне, загалом-то, приватний випадок.
Думайте «Вейбул» коли розмова заходить про напрацювання-на-відмову.
Нормальне, логнормальне, Стьюдента і хі-квадрат
Нормальний, або гаусово, розподіл, напевно, один з найважливіших. Його колоколоподібна форма дізнається відразу. Як і e, це особливо цікава сутність, яка проявляється скрізь, навіть із зовні найпростіших джерел. Візьміть набір значень, що підкоряються одному розподілу - кожному! - і складіть їх. Розподіл їх суми підпорядковується (приблизно) нормальному розподілу. Чим більше речей підсумовується - тим ближче їх сума відповідає нормальному розподілу (підступ: розподіл доданків має бути передбачуваним, бути незалежним, він прагне лише нормального). Те, що це так, незважаючи на вихідний розподіл - це приголомшливо.
Прим. переклад.
Мене здивувало, що автор не пише про необхідність порівнянного масштабу підсумованих розподілів: якщо одне суттєво домінує треба іншими - сходитися буде вкрай погано. І, загалом-то, абсолютна взаємна незалежність необов'язкова, достатня слабка залежність.
Ну зійде, напевно, для вечірок, як він написав.
Це називається «центральна гранична теорема», і треба знати, що це, чому так названо і що означає, інакше моментально засміють.
У її розрізі, нормальне пов'язане з усіма розподілами. Хоча, в основному, його пов'язують з розподілами всяких сум. Сума випробувань Бернуллі слідує біноміальному розподілу і, зі збільшенням кількості випробувань, цей біноміальний розподіл стає все ближче в нормальному розподілу. Аналогічно і його двоюрідний брат - гіпергеометричний розподіл. Розподіл Пуассона - гранична форма біноміального - так само наближається до нормального зі збільшенням параметра інтенсивності.
Результати, які підпорядковуються логнормальному розподілу, дають значення, логарифм яких нормально розподілено. Або по-іншому: експонента нормально розподіленого значення логнормально розподілена. Якщо суми - нормально розподілені, то запам'ятайте так само, що твори розподілені логнормально.
t-Розподіл Стьюдента - це основа t-тесту, який багато нестатистиків вивчають в інших областях. Воно використовується для припущень про середній нормальний розподіл і так само прагне до нормального розподілу зі збільшенням свого параметра. Відмінна особливість t-розподілу - його хвости, які товщі, ніж у нормального розподілу.
Якщо товстохвостий анекдот недостатньо розгойдав вашого сусіда - переходьте в досить кумедній байці про пиво. Більше 100 років тому Гіннесс використовував статистику, щоб поліпшити свій стаут. Тоді Вільям Сілі Госсет і винайшов повністю нову статистичну теорію для поліпшеного вирощування ячменю. Держсет переконав боса, що інші пивовари не зрозуміють, як використовувати його ідеї, і отримав дозвіл на публікацію, але під псевдонімом «Стьюдент». Найвідоміше досягнення Держсету - якраз це самий t-розподіл, який, можна сказати, названо на честь нього.
Нарешті, розподіл хі-квадрат - розподіл сум квадратів нормально-розподілених величин. На цьому розподілі побудований тест хі-квадрат, який сам заснований на сумі квадратів різниць, які повинні бути нормально розподілені.
Гамма і бета
У цьому місці, якщо ви вже заговорили про щось хі-квадратне, розмова починається всерйоз. Ви вже, можливо, говорите зі справжніми статистиками, і, напевно, варто вже відкланюватися, оскільки можуть спливти речі типу гамма-розподілу. Це узагальнення і експоненціального, і хі-квадрат розподілу. Як і експоненційний розподіл, він використовується для складних моделей часів очікування. Наприклад, гамма-розподіл з'являється, коли моделюється час до наступних n подій. Воно з'являється в машинному навчанні як «сполучений апріорний розподіл» до парочки інших розподілів.
Не вступайте в розмову про ці сполучені розподілі, але якщо все-таки доведеться, не забудьте сказати про бета-розподіл, тому що воно пов'язане апріорне до більшості згаданих тут розподілів. Data-scientist-и впевнені, що воно саме для цього і зроблено. Згадайте про це ненароком і йдіть до дверей.
Початок мудрості
Розподіл ймовірності - це те, про що не можна знати занадто багато. По справжньому зацікавлені можуть звернутися до цієї супердеталізованої карти всіх розподілів ймовірності. Сподіваюся, цей жартівливий путівник дасть вам впевненість здаватися «в темі» в сучасній технокультурі. Або, принаймні, спосіб з високою ймовірністю визначити, коли треба йти на менш ботанську вечірку.
Шон Овен - директор Data Science в Cloudera, Лондон. До Клаудери він заснував Myrrix Ltd. (зараз проект Oryx) для комерціоналізації широкомасштабних рекомендаційних систем в реальному часі на Hadoop. Він так само контриб'ютор Apache Spark і співавтор O'Reilly Media's Advanced Analytics with Spark