Вступ до R та РНК-секвенування

Загальний опис

Вступ до R та РНК-секвенування: БІОЛОГІЯ ПООДИНОКИХ КЛІТИН ТА ПРОСТОРОВА БІОЛОГІЯ:

Цей курс розроблений для оснащення студентів набором навичок у програмуванні на R, аналізі даних та передових біоінформатичних технологіях, особливо в транскриптоміці поодиноких клітин та просторовому протео-транскриптомному аналізі. Навчальна програма поділена на два взаємопов'язані модулі, що забезпечують безперервний перехід від загальних навичок аналізу даних в R до спеціалізованих застосувань у біоінформатиці.

Перший модуль зосереджений на розвитку основних компетенцій у написанні скриптів на R та навігації в RStudio. Студенти навчаться впроваджувати найкращі практики для відтворюваності аналізів у контрольованому середовищі (наприклад, з використанням Renv та conda), займатимуться візуалізацією даних та створенням структурованих звітів з аналізу даних за допомогою Rmarkdown та Shiny. Крім того, модуль вводить застосування статистичних методів у R, базовий аналіз тексту та вступні техніки машинного навчання, забезпечуючи міцну основу для подальшого вивчення в обраних студентами галузях аналізу даних. Викладання здійснюється через поєднання лекцій та практичних семінарів. Під час цих сесій студенти беруть участь у живому аналізі даних під керівництвом досвідчених інструкторів, виконують інтерактивні оцінювання та мають численні можливості ставити запитання.

Другий модуль зосереджений на біоінформатиці транскриптоміки поодиноких клітин та просторового протео-транскриптомного аналізу. Цей просунутий сегмент наголошує на обробці даних та класичному подальшому аналізі з використанням R та відповідних пакетів, одночасно вводячи ключові концепції мультиомічного аналізу, включаючи інтеграцію даних з scATAC-seq та CITE-seq. Студенти отримають практичний досвід роботи з техніками просторової біології, такими як 10x Visium, 10x Visium HD та Imaging Mass Cytometry, що дозволить їм оцінювати ідентичність клітин та експресію маркерів у мікросередовищі тканин. Модуль включає добровільні керовані командні фінальні проєкти, що готують студентів до незалежної роботи в реальних умовах.
Кожна сесія складається з основної активності (лекція або семінар), за якою слідують сесії питань та відповідей, розв'язання проблем та обговорення. У разі залучення кількох інструкторів проводяться панельні дискусії, що забезпечують всебічне охоплення актуальних технік та живий аналіз даних.

 

Деталі навчального плану

Протягом курсу студенти поділяються на невеликі групи для стимулювання спільного навчання та отримують домашні завдання для закріплення знань та покращення навичок розв'язання проблем – однак усі сесії проводяться як спільний трек. Заохочується співпраця з одногрупниками та інструкторами, а також використання генеративних моделей для розв'язання проблем, хоча плагіат суворо заборонено. Буде надана окрема інструкція про етичне застосування генеративних моделей.

Весь зміст курсу викладається українською мовою, доповнений необхідною англійською термінологією та базовими знаннями, необхідними для ефективного використання пакетів R.

Курс завершується фінальним оцінюванням, що складається з питань з множинним вибором за змістом Модуля 2, з вимогою мінімального прохідного балу 70% для успішного завершення. Крім того, студенти беруть участь у командному проєкті з аналізу даних експресії з опублікованих наборів даних. Курс завершиться презентаціями цих проєктів та зворотним зв’язком від інструкторів.

Модуль1. ВСТУП ДО R ДЛЯ БІОЛОГІВ ТА БІОІНФОРМАТИКІВ
Сесія 1. Синтаксис R та типи даних

Огляд можливостей R та RStudio, введення в базовий синтаксис R та типи даних (числові, логічні, рядки, вектори, списки, матриці, датафрейми, дати, фактори тощо) та операції з ними.
 

Сесія 2. Оптимізація коду з використанням циклів та функцій

Зміст: Введення в цикли (цикли while, for) та функції. Використання функцій через apply та map як альтернативи циклам.
 

Сесія 3. Введення в Tidyverse

Введення в пакет Tidyverse та його можливості. Введення в завантаження даних, їх дослідження та маніпулювання даними з використанням пакету Tidyverse.
 

Сесія 4. Візуалізація даних

Введення у візуалізацію даних з пакетом ggplot2. Дослідження різних типів графіків для різних типів даних. Налаштування графіків за допомогою різних палітр кольорів, тем тощо.
 

Сесія 5. Аналіз текстових даних

Завантаження, очищення текстових даних. Введення в біграми та нграми. Створення хмар слів. Аналіз контексту. Введення в моделювання тем.
 

Сесія 6. RMarkdown та звітність по проєкту

Використання RMarkdown для створення динамічних та відтворюваних звітів. Теми включають форматування, вбудовування візуалізацій, параметризацію звітів для різних виходів та найкращі практики документування проєктів для сприяння співпраці та публікації.
 

Сесія 7. Статистика в R 1

Методи копіювання даних з електронних таблиць та завантаження даних, збережених у форматі з розділеними комами. Обчислення середнього, медіани та дисперсії в базовому оточенні R. Тестування на нормальність та рівність дисперсій. Параметричні парні порівняння та аналіз дисперсії з використанням пакетів 'base', 'DescTools' та 'coin'.
 

Сесія 8. Статистика в R 2

Графіки в 'base' та 'ggplot2' та спеціалізованих пакетах ('corrplot', 'pROC' тощо): діаграми, таблиці кореляцій, трендові лінії, біплоти, теплові карти, дендрограми, крива операторної характеристики приймача (ROC), співвідношення шансів.
 

Сесія 9. Введення в регресійний аналіз

Для чого використовують регресійний аналіз, використання простої лінійної регресії. Включення категоріальних даних та взаємодій у регресії. Інтерпретація результатів регресій. Робота з мультиколінеарністю та гетероскедастичністю. Регресійний аналіз з бінарними залежними змінними.
 

Сесія 10. Обробка даних 1

Введення в техніки обробки даних в R з використанням пакетів таких як dplyr та tidyr. Навчання очищенню, трансформації та маніпулюванню наборами даних для підготовки їх до аналізу. Теми включають фільтрацію, вибір, мутування, підсумовування даних та обробку відсутніх значень для забезпечення цілісності та придатності даних.
 

Сесія 11. Обробка даних 2

Просунуті стратегії маніпулювання даними в R, включаючи зміну форми даних, об'єднання кількох наборів даних та роботу зі складними структурами даних. Дослідження найкращих практик для ефективної обробки даних, оптимізації продуктивності коду та автоматизації повторюваних завдань для спрощення робочого процесу аналізу даних.
 

Сесія 12. Відтворювані R-пайплайни. R + Docker

Зміст: Введення в відтворювані дослідження та важливість відтворюваних пайплайнів в аналізі даних. Огляд Docker та концепцій контейнеризації, адаптованих для середовищ R. Покроковий посібник зі створення контейнерів Docker для проєктів R для забезпечення консистентності на різних системах. Створення та управління скриптами R та їх залежностями всередині контейнерів Docker. Найкращі практики контролю версій, автоматизації та документування в відтворюваних робочих процесах. Демонстрація: Побудова простого відтворюваного R-пайплайну з використанням Docker, включаючи налаштування середовища, виконання скриптів та управління контейнерами.
 

Сесія 13. Створення та робота в середовищах Conda

Введення в Conda та її роль в управлінні середовищами та пакетами для проєктів з науки про дані. Встановлення Conda на різних операційних системах та налаштування базових середовищ. Створення, клонування та управління середовищами Conda для ефективного управління залежностями різних проєктів. Встановлення та оновлення пакетів з використанням Conda, включаючи роботу зі складними залежностями та каналами. Інтеграція середовищ Conda з популярними IDE та інструментами, такими як Jupyter Notebook та RStudio. Найкращі практики спільного використання середовищ та відтворюваності за допомогою файлів environment.yml. Вирішення поширених проблем в середовищах Conda та оптимізація продуктивності середовища.
 

Сесія 14. Введення в машинне навчання з R

Коротке введення в типи машинного навчання, реалізація пакетів R для класифікації та регресії (caret, randomForest тощо).

Сесія 15. Веб-додатки з Shiny

Зміст: Створення інтерактивних веб-додатків з R. Формування макетів, тем, графіки та взаємодія з користувачами (зворотний зв’язок, завантаження, вивантаження).

 

Сесія 16. R проти Python

Порівняльний аналіз R та Python для біоінформатики та застосувань в науці про дані. Обговорення сильних та слабких сторін кожної мови, сценаріїв, коли одна може мати переваги, взаємодії між R та Python, та найкращі практики інтеграції обох інструментів у єдиний робочий процес. Дослідження ключових бібліотек та фреймворків, що підтримують просунутий аналіз даних в обох середовищах.
 

Сесія 17. Мастер-класи для малих груп з аналізу даних для командних проєктів

Серія зустрічей, присвячених розробці власного воркфлоу R на основі публічно доступного набору даних, включаючи дослідницький, статистичний аналіз, візуалізацію та звітність відповідно до найкращих практик.

Сесія 18. Мастер-класи для малих груп з аналізу даних для командних проєктів

Серія зустрічей, присвячених розробці власного воркфлоу R на основі публічно доступного набору даних, включаючи дослідницький, статистичний аналіз, візуалізацію та звітність відповідно до найкращих практик.

Сесія 19. Мастер-класи для малих груп з аналізу даних для командних проєктів

Серія зустрічей, присвячених розробці власного воркфлоу R на основі публічно доступного набору даних, включаючи дослідницький, статистичний аналіз, візуалізацію та звітність відповідно до найкращих практик.

Сесія 20. Мастер-класи для малих груп з аналізу даних для командних проєктів

Серія зустрічей, присвячених розробці власного воркфлоу R на основі публічно доступного набору даних, включаючи дослідницький, статистичний аналіз, візуалізацію та звітність відповідно до найкращих практик.

Модуль 2. БІОЛОГІЯ ПООДИНОКИХ КЛІТИН ТА ПРОСТОРОВА БІОЛОГІЯ: СУЧАСНИЙ СТАН ТА ДАНІ
Сесія 1. Введення в технології секвенування

Технології масового паралельного секвенування (секвенування за синтезом, нанопори), підготовка бібліотек, експериментальний дизайн, вихідні файли та загальні етапи попередньої обробки рідків.
 

Сесія 2. Основи візуалізації багатовимірних даних

Теорія та практика з аналізу головних компонент (PCA), багатовимірного масштабування (MDS), tSNE, UMAP.
 

​​​​​​​Сесія 3. Аналіз даних секвенування РНК поодиноких клітин 1

Введення в основний набір даних, що використовується в курсі. Проходження основних етапів та скриптів з використанням набору даних та пакету Seurat. Це включає контроль якості, відбір ознак, нормалізацію даних, лінійну та нелінійну зниження вимірності, кластеризацію, анотування типів клітин та ідентифікацію маркерів.
 

Сесія 4. Аналіз даних секвенування РНК поодиноких клітин 2

Просунуті техніки аналізу, включаючи аналіз траєкторій, диференціальний аналіз експресії між умовами та інтеграцію додаткових модальностей даних для покращення біологічних інсайтів.
 

Сесія 5. Інтеграція різноманітних наборів даних з Harmony

Введення в пакет Harmony. Встановлення, введення в набори даних для навчання. Інтеграція даних з Harmony з використанням пакету Seurat.
 

Сесія 6. Секвенування РНК поодиноких клітин з довгими прочитаннями

Огляд технологій секвенування з довгими прочитаннями, порівняння їх переваг та недоліків порівняно з короткими прочитаннями та обговорення їх впливу на аналіз транскриптомів.
 

Сесія 7. Введення в мультиоміку поодиноких клітин

Огляд технологій. Основні підходи до інтеграції даних.
 

Сесія 8. ATAC-seq поодиноких клітин

Деталі підготовки зразків ATAC-seq та відповідні міркування. Приклади застосування.
 

Сесія 9. Бімодальний інтегративний аналіз даних RNA+ATAC-seq з поодиноких клітин

Проходження основних етапів аналізу scATAC-seq з пакетом Signac. Інтеграція scRNAseq-ATACseq: аналіз зважених найближчих сусідів, ідентифікація генів/вибір маркерів типів клітин та візуалізація профілів доступності хроматину. Аналіз збагачення мотивів зв’язування факторів транскрипції.
 

Сесія 10. Клітинне індексування транскриптомів та епітопів (CITE-seq)

Принципи та практики CITE-seq, охоплюючи підготовку зразків, маркування антитілами та належне використання техніки.
 

Сесія 11. Секвенування РНК поодиноких клітин + CITE-seq: інтеграція даних та аналіз

Практичне введення в інтеграцію та аналіз даних CITE-seq для одночасного профілювання транскриптомів та експресії білків на одноклітинному рівні.
 

Сесія 12. Датасети: кластеризація та зниження вимірності (про що не пишуть в підручниках та окрім UMAP)

Просунуті техніки кластеризації: дослідження сучасних алгоритмів кластеризації, пристосованих для високовимірних даних, включаючи методи на основі графів та щільності. Алгоритмічні підходи до оцінки кластеризації (стабільність кластерів, силует кластерів). За межами UMAP: огляд альтернативних технік зниження вимірності (наприклад, PHATE).
 

Сесія 13. Огляд просторових та мультиплексних технологій та їх застосування в трансляційній онкології

Інструменти для просторового аналізу тканинних та клітинних структур, у поєднанні з мультиплексними техніками збору даних. Ілюстрація їх використання для вивчення мікросередовищ пухлин та клітинної гетерогенності.
 

Сесія 14. 10x Visium + HD: експресія генів та мікросередовища тканин

Огляд технології просторової транскриптоміки 10x Visium та її можливостей у картографуванні експресії генів у тканинних січеннях. Методи виявлення та розуміння складних взаємодій між різними типами клітин у їхньому тканинному контексті. Підходи до інтеграції даних просторової транскриптоміки з іншими наборами даних та просунуті техніки візуалізації для інтерпретації патернів просторової експресії генів.
 

Сесія 15. Введення в Imaging Mass Cytometry

Огляд технології Imaging Mass Cytometry, включаючи її принципи, інструментальні засоби та застосування в аналізі високовимірних клітинних даних.
 

Сесія 16. Аналіз даних Imaging Mass Cytometry 1

Основи аналізу даних Imaging Mass Cytometry, включаючи попередню обробку даних, нормалізацію та початкові техніки дослідницького аналізу.
 

Сесія 17. Аналіз даних Imaging Mass Cytometry 2

Просунуті стратегії аналізу даних Imaging Mass Cytometry, такі як розпізнавання просторових патернів, ідентифікація популяцій клітин та інтеграція з іншими омічними даними.
 

Сесія 18. Відтворювані звіти та дотримання принципів FAIR у аналізі даних поодиноких клітин

Введення в репозиторії даних та відкритої науки (ENA, NCBI, OSF, Zenodo). Керування даними при розробці спільних проєктів та на високопродуктивних комп'ютерах/кластерах. Використання даних відповідно до принципів FAIR.
 

Сесія 19. Презентації проєктів 1

Презентація проєктів студентів та зворотний зв’язок від інструкторів. Ці дві сесії залучають усіх інструкторів.
 

Сесія 20. Презентації проєктів 2

Презентація проєктів студентів та зворотний зв’язок від інструкторів. Ці дві сесії залучають усіх інструкторів.

Рівень
Бакалавранти, магістранти, аспіранти
Практичні заняття
40 занять по 1,5 години
Тривалість
13.01-27.04.2025
Мова
Українська
Сертифікат
2 кредити ЄКТС
Викладачі

Доцент кафедри біохімії та біотехнології Прикарпатського національного університету імені Василя Стефаника, м. Івано-Франківськ

PhD кандидат з персоналізованої медицини та мультиоміки окремих клітин, Медичний Центр Університету Гронінгену, Нідерланди

Лікар-дослідник та науковий співробітник Медичного університету Відня

Біоінформатик, співзасновник та колишній технічний директор компанії HTuO Biosciences Inc. (м. Ванкувер, Канада).

Магістрантка в Університеті Шербруку, Канада