Статистика та візуалізація даних в науках про життя
Цей курс присвячений основним методам статистичного аналізу та представлення даних, які використовуються в біології. Він навчить правильно розраховувати довірчі інтервали для значень, будувати та використовувати калібрувальні криві, порівнювати середні значення вибірок, проводити статистичні тести та дисперсійний аналіз (ANOVA), обирати, який тест використовувати для аналізу, знаходити параметри для рівнянь нелінійний регресії, а також представляти дані в чіткій та зрозумілій формі. Всі розглянуті статистичні тести широко використовуються в наукових публікаціях в галузі біологічних наук. Курс також містить розділ, присвячений плануванню експериментів, і підходами до побудови графіків для статей у міжнародних наукових журналах.
Популяція. Діапазон. Варіаційні ряди. Вибірка. Методи вибірки та рандомізація. Середнє значення. Медіана. Квартилі та процентилі. Розподіли ймовірностей: нормальний, біноміальний, Пуассона, Пірсона та інші.
Систематичні похибки, випадкові похибки, грубі похибки. Причини похибок вимірювання: інструментальні похибки, похибки методу та похибки спостерігача. Як похибки можуть впливати на аналіз та інтерпретацію даних? Мінімізація похибок вимірювання: калібрування, повторні вимірювання, методи корекції похибок. Абсолютні та відносні похибки. Поширення похибок. Методи кількісної оцінки невизначеності, спричиненої помилками вимірювання.
Середньоквадратичне відхилення. Стандартна похибка середнього. значення. Z-критерій. Довірчий інтервал. Статистичні гіпотези. T-критерій Стьюдента. Значення P: визначення, інтерпретація, поширені помилки. Тести на нормальність.
Вибір типу графіка. Коли (не) використовувати гістограми. Бокс- та стріп-плоти, X-Y точкові графіки. Логіка та послідовність у кольоровому кодуванні даних. Баланс між розміром та інформацією. Текстові позначки, легенда діаграми, підписи до діаграми, підписи осей.
Рандомізований, факторний та інші. Відтворюваність. Як розрахувати необхідний обсяг вибірки? Планування опитувань, розробка анкет та інтерпретація результатів.
Дисперсійний аналіз (ANOVA). Тести на однорідність розподілу. Множинне тестування. Тест Тьюкі на достовірність відмінностей. Тест Даннета. Тест Шеффе. Поправки для множинного тестування.
Аналіз ненормально розподілених даних. Критерій хі- квадрат (χ2). Аналіз виживання. U-критерій Манна-Уітні. Критерій Краскла-Волліса.
Середнє, медіана, мода, розмах, дисперсія, середньоквадратичне відхилення. Виконання статистичних тестів за допомогою Python (t-тест, критерій хі-квадрат, ANOVA). Робота з промахами: видалення, трансформація, заміна.
Коефіцієнт кореляції Пірсона. Коефіцієнт кореляції рангів Спірмена. Лінійна регресія. Калібрувальна крива. Апроксимація методом найменших квадратів. Аналіз відхилень: визначення, графіки відхилень, перевірка припущень лінійної регресії.
Експоненціальна, логарифмічна, поліноміальна, степенева, сигмоїдальна та інші. Методи оцінювання параметрів нелінійної регресії, такі як метод найменших квадратів та оцінка максимальної правдоподібності. Процес побудови нелінійної кривої, яка найкраще апроксимує дані. Надмірна та недостатня апроксимація. Вибір моделі. Застосування нелінійної регресії.
Растрові та векторні зображення. Програмне забезпечення та типи файлів. Представлення кольорів (CMYK, RGB, HSL). Як розповісти історію за допомогою даних. Як керувати поглядом читача: контраст і виділення. Читабельність графіків. Шрифти, товщина ліній. Ієрархія. Вирівнювання.
Імпорт даних. Візуалізація.
Програмне забезпечення Origin.