Вступ до R та РНК-секвенування
Вступ до R та РНК-секвенування: БІОЛОГІЯ ПООДИНОКИХ КЛІТИН ТА ПРОСТОРОВА БІОЛОГІЯ:
Цей курс розроблений для оснащення студентів набором навичок у програмуванні на R, аналізі даних та передових біоінформатичних технологіях, особливо в транскриптоміці поодиноких клітин та просторовому протео-транскриптомному аналізі. Навчальна програма поділена на два взаємопов'язані модулі, що забезпечують безперервний перехід від загальних навичок аналізу даних в R до спеціалізованих застосувань у біоінформатиці.
Перший модуль зосереджений на розвитку основних компетенцій у написанні скриптів на R та навігації в RStudio. Студенти навчаться впроваджувати найкращі практики для відтворюваності аналізів у контрольованому середовищі (наприклад, з використанням Renv та conda), займатимуться візуалізацією даних та створенням структурованих звітів з аналізу даних за допомогою Rmarkdown та Shiny. Крім того, модуль вводить застосування статистичних методів у R, базовий аналіз тексту та вступні техніки машинного навчання, забезпечуючи міцну основу для подальшого вивчення в обраних студентами галузях аналізу даних. Викладання здійснюється через поєднання лекцій та практичних семінарів. Під час цих сесій студенти беруть участь у живому аналізі даних під керівництвом досвідчених інструкторів, виконують інтерактивні оцінювання та мають численні можливості ставити запитання.
Другий модуль зосереджений на біоінформатиці транскриптоміки поодиноких клітин та просторового протео-транскриптомного аналізу. Цей просунутий сегмент наголошує на обробці даних та класичному подальшому аналізі з використанням R та відповідних пакетів, одночасно вводячи ключові концепції мультиомічного аналізу, включаючи інтеграцію даних з scATAC-seq та CITE-seq. Студенти отримають практичний досвід роботи з техніками просторової біології, такими як 10x Visium, 10x Visium HD та Imaging Mass Cytometry, що дозволить їм оцінювати ідентичність клітин та експресію маркерів у мікросередовищі тканин. Модуль включає добровільні керовані командні фінальні проєкти, що готують студентів до незалежної роботи в реальних умовах.
Кожна сесія складається з основної активності (лекція або семінар), за якою слідують сесії питань та відповідей, розв'язання проблем та обговорення. У разі залучення кількох інструкторів проводяться панельні дискусії, що забезпечують всебічне охоплення актуальних технік та живий аналіз даних.
Протягом курсу студенти поділяються на невеликі групи для стимулювання спільного навчання та отримують домашні завдання для закріплення знань та покращення навичок розв'язання проблем – однак усі сесії проводяться як спільний трек. Заохочується співпраця з одногрупниками та інструкторами, а також використання генеративних моделей для розв'язання проблем, хоча плагіат суворо заборонено. Буде надана окрема інструкція про етичне застосування генеративних моделей.
Весь зміст курсу викладається українською мовою, доповнений необхідною англійською термінологією та базовими знаннями, необхідними для ефективного використання пакетів R.
Курс завершується фінальним оцінюванням, що складається з питань з множинним вибором за змістом Модуля 2, з вимогою мінімального прохідного балу 70% для успішного завершення. Крім того, студенти беруть участь у командному проєкті з аналізу даних експресії з опублікованих наборів даних. Курс завершиться презентаціями цих проєктів та зворотним зв’язком від інструкторів.
Огляд можливостей R та RStudio, введення в базовий синтаксис R та типи даних (числові, логічні, рядки, вектори, списки, матриці, датафрейми, дати, фактори тощо) та операції з ними.
Зміст: Введення в цикли (цикли while, for) та функції. Використання функцій через apply та map як альтернативи циклам.
Введення в пакет Tidyverse та його можливості. Введення в завантаження даних, їх дослідження та маніпулювання даними з використанням пакету Tidyverse.
Введення у візуалізацію даних з пакетом ggplot2. Дослідження різних типів графіків для різних типів даних. Налаштування графіків за допомогою різних палітр кольорів, тем тощо.
Завантаження, очищення текстових даних. Введення в біграми та нграми. Створення хмар слів. Аналіз контексту. Введення в моделювання тем.
Використання RMarkdown для створення динамічних та відтворюваних звітів. Теми включають форматування, вбудовування візуалізацій, параметризацію звітів для різних виходів та найкращі практики документування проєктів для сприяння співпраці та публікації.
Методи копіювання даних з електронних таблиць та завантаження даних, збережених у форматі з розділеними комами. Обчислення середнього, медіани та дисперсії в базовому оточенні R. Тестування на нормальність та рівність дисперсій. Параметричні парні порівняння та аналіз дисперсії з використанням пакетів 'base', 'DescTools' та 'coin'.
Графіки в 'base' та 'ggplot2' та спеціалізованих пакетах ('corrplot', 'pROC' тощо): діаграми, таблиці кореляцій, трендові лінії, біплоти, теплові карти, дендрограми, крива операторної характеристики приймача (ROC), співвідношення шансів.
Для чого використовують регресійний аналіз, використання простої лінійної регресії. Включення категоріальних даних та взаємодій у регресії. Інтерпретація результатів регресій. Робота з мультиколінеарністю та гетероскедастичністю. Регресійний аналіз з бінарними залежними змінними.
Введення в техніки обробки даних в R з використанням пакетів таких як dplyr та tidyr. Навчання очищенню, трансформації та маніпулюванню наборами даних для підготовки їх до аналізу. Теми включають фільтрацію, вибір, мутування, підсумовування даних та обробку відсутніх значень для забезпечення цілісності та придатності даних.
Просунуті стратегії маніпулювання даними в R, включаючи зміну форми даних, об'єднання кількох наборів даних та роботу зі складними структурами даних. Дослідження найкращих практик для ефективної обробки даних, оптимізації продуктивності коду та автоматизації повторюваних завдань для спрощення робочого процесу аналізу даних.
Зміст: Введення в відтворювані дослідження та важливість відтворюваних пайплайнів в аналізі даних. Огляд Docker та концепцій контейнеризації, адаптованих для середовищ R. Покроковий посібник зі створення контейнерів Docker для проєктів R для забезпечення консистентності на різних системах. Створення та управління скриптами R та їх залежностями всередині контейнерів Docker. Найкращі практики контролю версій, автоматизації та документування в відтворюваних робочих процесах. Демонстрація: Побудова простого відтворюваного R-пайплайну з використанням Docker, включаючи налаштування середовища, виконання скриптів та управління контейнерами.
Введення в Conda та її роль в управлінні середовищами та пакетами для проєктів з науки про дані. Встановлення Conda на різних операційних системах та налаштування базових середовищ. Створення, клонування та управління середовищами Conda для ефективного управління залежностями різних проєктів. Встановлення та оновлення пакетів з використанням Conda, включаючи роботу зі складними залежностями та каналами. Інтеграція середовищ Conda з популярними IDE та інструментами, такими як Jupyter Notebook та RStudio. Найкращі практики спільного використання середовищ та відтворюваності за допомогою файлів environment.yml. Вирішення поширених проблем в середовищах Conda та оптимізація продуктивності середовища.
Коротке введення в типи машинного навчання, реалізація пакетів R для класифікації та регресії (caret, randomForest тощо).
Зміст: Створення інтерактивних веб-додатків з R. Формування макетів, тем, графіки та взаємодія з користувачами (зворотний зв’язок, завантаження, вивантаження).
Порівняльний аналіз R та Python для біоінформатики та застосувань в науці про дані. Обговорення сильних та слабких сторін кожної мови, сценаріїв, коли одна може мати переваги, взаємодії між R та Python, та найкращі практики інтеграції обох інструментів у єдиний робочий процес. Дослідження ключових бібліотек та фреймворків, що підтримують просунутий аналіз даних в обох середовищах.
Серія зустрічей, присвячених розробці власного воркфлоу R на основі публічно доступного набору даних, включаючи дослідницький, статистичний аналіз, візуалізацію та звітність відповідно до найкращих практик.
Серія зустрічей, присвячених розробці власного воркфлоу R на основі публічно доступного набору даних, включаючи дослідницький, статистичний аналіз, візуалізацію та звітність відповідно до найкращих практик.
Серія зустрічей, присвячених розробці власного воркфлоу R на основі публічно доступного набору даних, включаючи дослідницький, статистичний аналіз, візуалізацію та звітність відповідно до найкращих практик.
Серія зустрічей, присвячених розробці власного воркфлоу R на основі публічно доступного набору даних, включаючи дослідницький, статистичний аналіз, візуалізацію та звітність відповідно до найкращих практик.
Технології масового паралельного секвенування (секвенування за синтезом, нанопори), підготовка бібліотек, експериментальний дизайн, вихідні файли та загальні етапи попередньої обробки рідків.
Теорія та практика з аналізу головних компонент (PCA), багатовимірного масштабування (MDS), tSNE, UMAP.
Введення в основний набір даних, що використовується в курсі. Проходження основних етапів та скриптів з використанням набору даних та пакету Seurat. Це включає контроль якості, відбір ознак, нормалізацію даних, лінійну та нелінійну зниження вимірності, кластеризацію, анотування типів клітин та ідентифікацію маркерів.
Просунуті техніки аналізу, включаючи аналіз траєкторій, диференціальний аналіз експресії між умовами та інтеграцію додаткових модальностей даних для покращення біологічних інсайтів.
Введення в пакет Harmony. Встановлення, введення в набори даних для навчання. Інтеграція даних з Harmony з використанням пакету Seurat.
Огляд технологій секвенування з довгими прочитаннями, порівняння їх переваг та недоліків порівняно з короткими прочитаннями та обговорення їх впливу на аналіз транскриптомів.
Огляд технологій. Основні підходи до інтеграції даних.
Деталі підготовки зразків ATAC-seq та відповідні міркування. Приклади застосування.
Проходження основних етапів аналізу scATAC-seq з пакетом Signac. Інтеграція scRNAseq-ATACseq: аналіз зважених найближчих сусідів, ідентифікація генів/вибір маркерів типів клітин та візуалізація профілів доступності хроматину. Аналіз збагачення мотивів зв’язування факторів транскрипції.
Принципи та практики CITE-seq, охоплюючи підготовку зразків, маркування антитілами та належне використання техніки.
Практичне введення в інтеграцію та аналіз даних CITE-seq для одночасного профілювання транскриптомів та експресії білків на одноклітинному рівні.
Просунуті техніки кластеризації: дослідження сучасних алгоритмів кластеризації, пристосованих для високовимірних даних, включаючи методи на основі графів та щільності. Алгоритмічні підходи до оцінки кластеризації (стабільність кластерів, силует кластерів). За межами UMAP: огляд альтернативних технік зниження вимірності (наприклад, PHATE).
Інструменти для просторового аналізу тканинних та клітинних структур, у поєднанні з мультиплексними техніками збору даних. Ілюстрація їх використання для вивчення мікросередовищ пухлин та клітинної гетерогенності.
Огляд технології просторової транскриптоміки 10x Visium та її можливостей у картографуванні експресії генів у тканинних січеннях. Методи виявлення та розуміння складних взаємодій між різними типами клітин у їхньому тканинному контексті. Підходи до інтеграції даних просторової транскриптоміки з іншими наборами даних та просунуті техніки візуалізації для інтерпретації патернів просторової експресії генів.
Огляд технології Imaging Mass Cytometry, включаючи її принципи, інструментальні засоби та застосування в аналізі високовимірних клітинних даних.
Основи аналізу даних Imaging Mass Cytometry, включаючи попередню обробку даних, нормалізацію та початкові техніки дослідницького аналізу.
Просунуті стратегії аналізу даних Imaging Mass Cytometry, такі як розпізнавання просторових патернів, ідентифікація популяцій клітин та інтеграція з іншими омічними даними.
Введення в репозиторії даних та відкритої науки (ENA, NCBI, OSF, Zenodo). Керування даними при розробці спільних проєктів та на високопродуктивних комп'ютерах/кластерах. Використання даних відповідно до принципів FAIR.
Презентація проєктів студентів та зворотний зв’язок від інструкторів. Ці дві сесії залучають усіх інструкторів.
Презентація проєктів студентів та зворотний зв’язок від інструкторів. Ці дві сесії залучають усіх інструкторів.