Вступ до R та РНК-секвенування

Загальний опис

Вступ до R та РНК-секвенування: БІОЛОГІЯ ПООДИНОКИХ КЛІТИН ТА ПРОСТОРОВА БІОЛОГІЯ:

Цей курс розроблений для оснащення студентів набором навичок у програмуванні на R, аналізі даних та передових біоінформатичних технологіях, особливо в транскриптоміці поодиноких клітин та просторовому протео-транскриптомному аналізі. Навчальна програма поділена на два взаємопов'язані модулі, що забезпечують безперервний перехід від загальних навичок аналізу даних в R до спеціалізованих застосувань у біоінформатиці.

Перший модуль зосереджений на розвитку основних компетенцій у написанні скриптів на R та навігації в RStudio. Студенти навчаться впроваджувати найкращі практики для відтворюваності аналізів у контрольованому середовищі (наприклад, з використанням Renv та conda), займатимуться візуалізацією даних та створенням структурованих звітів з аналізу даних за допомогою Rmarkdown та Shiny. Крім того, модуль вводить застосування статистичних методів у R, базовий аналіз тексту та вступні техніки машинного навчання, забезпечуючи міцну основу для подальшого вивчення в обраних студентами галузях аналізу даних. Викладання здійснюється через поєднання лекцій та практичних семінарів. Під час цих сесій студенти беруть участь у живому аналізі даних під керівництвом досвідчених інструкторів, виконують інтерактивні оцінювання та мають численні можливості ставити запитання.

Другий модуль зосереджений на біоінформатиці транскриптоміки поодиноких клітин та просторового протео-транскриптомного аналізу. Цей просунутий сегмент наголошує на обробці даних та класичному подальшому аналізі з використанням R та відповідних пакетів, одночасно вводячи ключові концепції мультиомічного аналізу, включаючи інтеграцію даних з scATAC-seq та CITE-seq. Студенти отримають практичний досвід роботи з техніками просторової біології, такими як 10x Visium, 10x Visium HD та Imaging Mass Cytometry, що дозволить їм оцінювати ідентичність клітин та експресію маркерів у мікросередовищі тканин. Модуль включає добровільні керовані командні фінальні проєкти, що готують студентів до незалежної роботи в реальних умовах.
Кожна сесія складається з основної активності (лекція або семінар), за якою слідують сесії питань та відповідей, розв'язання проблем та обговорення. У разі залучення кількох інструкторів проводяться панельні дискусії, що забезпечують всебічне охоплення актуальних технік та живий аналіз даних.

Деталі навчального плану

Протягом курсу студенти поділяються на невеликі групи для стимулювання спільного навчання та отримують домашні завдання для закріплення знань та покращення навичок розв'язання проблем – однак усі сесії проводяться як спільний трек. Заохочується співпраця з одногрупниками та інструкторами, а також використання генеративних моделей для розв'язання проблем, хоча плагіат суворо заборонено. Буде надана окрема інструкція про етичне застосування генеративних моделей.

Весь зміст курсу викладається українською мовою, доповнений необхідною англійською термінологією та базовими знаннями, необхідними для ефективного використання пакетів R.

Курс завершується фінальним оцінюванням, що складається з питань з множинним вибором за змістом Модуля 2, з вимогою мінімального прохідного балу 70% для успішного завершення. Крім того, студенти беруть участь у командному проєкті з аналізу даних експресії з опублікованих наборів даних. Курс завершиться презентаціями цих проєктів та зворотним зв’язком від інструкторів.

Форма реєстрації

Модуль1. ВСТУП ДО R ДЛЯ БІОЛОГІВ ТА БІОІНФОРМАТИКІВ

Сесія 1. Синтаксис R та типи даних

Дарія МИХАЙЛИШИНА

Огляд можливостей R та RStudio, введення в базовий синтаксис R та типи даних (числові, логічні, рядки, вектори, списки, матриці, датафрейми, дати, фактори тощо) та операції з ними.

Сесія 2. Оптимізація коду з використанням циклів та функцій

Дарія МИХАЙЛИШИНА

Зміст: Введення в цикли (цикли while, for) та функції. Використання функцій через apply та map як альтернативи циклам.

Сесія 3. Введення в Tidyverse

Дарія МИХАЙЛИШИНА

Введення в пакет Tidyverse та його можливості. Введення в завантаження даних, їх дослідження та маніпулювання даними з використанням пакету Tidyverse.

Сесія 4. Візуалізація даних

Дарія МИХАЙЛИШИНА

Введення у візуалізацію даних з пакетом ggplot2. Дослідження різних типів графіків для різних типів даних. Налаштування графіків за допомогою різних палітр кольорів, тем тощо.

Сесія 5. Аналіз текстових даних

Дарія МИХАЙЛИШИНА

Завантаження, очищення текстових даних. Введення в біграми та нграми. Створення хмар слів. Аналіз контексту. Введення в моделювання тем.

Сесія 6. RMarkdown та звітність по проєкту

Олександр ШИНКАРЕНКО

Використання RMarkdown для створення динамічних та відтворюваних звітів. Теми включають форматування, вбудовування візуалізацій, параметризацію звітів для різних виходів та найкращі практики документування проєктів для сприяння співпраці та публікації.

Сесія 7. Статистика в R 1

Дмитро ГОСПОДАРЬОВ

Методи копіювання даних з електронних таблиць та завантаження даних, збережених у форматі з розділеними комами. Обчислення середнього, медіани та дисперсії в базовому оточенні R. Тестування на нормальність та рівність дисперсій. Параметричні парні порівняння та аналіз дисперсії з використанням пакетів 'base', 'DescTools' та 'coin'.

Сесія 8. Статистика в R 2

Дмитро ГОСПОДАРЬОВ

Графіки в 'base' та 'ggplot2' та спеціалізованих пакетах ('corrplot', 'pROC' тощо): діаграми, таблиці кореляцій, трендові лінії, біплоти, теплові карти, дендрограми, крива операторної характеристики приймача (ROC), співвідношення шансів.

Сесія 9. Введення в регресійний аналіз

Дарія МИХАЙЛИШИНА

Для чого використовують регресійний аналіз, використання простої лінійної регресії. Включення категоріальних даних та взаємодій у регресії. Інтерпретація результатів регресій. Робота з мультиколінеарністю та гетероскедастичністю. Регресійний аналіз з бінарними залежними змінними.

Сесія 10. Обробка даних 1

Олександр ШИНКАРЕНКО

Введення в техніки обробки даних в R з використанням пакетів таких як dplyr та tidyr. Навчання очищенню, трансформації та маніпулюванню наборами даних для підготовки їх до аналізу. Теми включають фільтрацію, вибір, мутування, підсумовування даних та обробку відсутніх значень для забезпечення цілісності та придатності даних.

Сесія 11. Обробка даних 2

Олександр ШИНКАРЕНКО

Просунуті стратегії маніпулювання даними в R, включаючи зміну форми даних, об'єднання кількох наборів даних та роботу зі складними структурами даних. Дослідження найкращих практик для ефективної обробки даних, оптимізації продуктивності коду та автоматизації повторюваних завдань для спрощення робочого процесу аналізу даних.

Сесія 12. Відтворювані R-пайплайни. R + Docker

Олександр ПЕТРЕНКО

Зміст: Введення в відтворювані дослідження та важливість відтворюваних пайплайнів в аналізі даних. Огляд Docker та концепцій контейнеризації, адаптованих для середовищ R. Покроковий посібник зі створення контейнерів Docker для проєктів R для забезпечення консистентності на різних системах. Створення та управління скриптами R та їх залежностями всередині контейнерів Docker. Найкращі практики контролю версій, автоматизації та документування в відтворюваних робочих процесах. Демонстрація: Побудова простого відтворюваного R-пайплайну з використанням Docker, включаючи налаштування середовища, виконання скриптів та управління контейнерами.

Сесія 13. Створення та робота в середовищах Conda

Олександр ПЕТРЕНКО

Введення в Conda та її роль в управлінні середовищами та пакетами для проєктів з науки про дані. Встановлення Conda на різних операційних системах та налаштування базових середовищ. Створення, клонування та управління середовищами Conda для ефективного управління залежностями різних проєктів. Встановлення та оновлення пакетів з використанням Conda, включаючи роботу зі складними залежностями та каналами. Інтеграція середовищ Conda з популярними IDE та інструментами, такими як Jupyter Notebook та RStudio. Найкращі практики спільного використання середовищ та відтворюваності за допомогою файлів environment.yml. Вирішення поширених проблем в середовищах Conda та оптимізація продуктивності середовища.

Сесія 14. Введення в машинне навчання з R

Валерія ВАСИЛЬЄВА

Коротке введення в типи машинного навчання, реалізація пакетів R для класифікації та регресії (caret, randomForest тощо).

Сесія 15. Веб-додатки з Shiny

Валерія ВАСИЛЬЄВА

Зміст: Створення інтерактивних веб-додатків з R. Формування макетів, тем, графіки та взаємодія з користувачами (зворотний зв’язок, завантаження, вивантаження).

Сесія 16. R проти Python

Олександр ШИНКАРЕНКО

Порівняльний аналіз R та Python для біоінформатики та застосувань в науці про дані. Обговорення сильних та слабких сторін кожної мови, сценаріїв, коли одна може мати переваги, взаємодії між R та Python, та найкращі практики інтеграції обох інструментів у єдиний робочий процес. Дослідження ключових бібліотек та фреймворків, що підтримують просунутий аналіз даних в обох середовищах.

Сесія 17. Мастер-класи для малих груп з аналізу даних для командних проєктів

Дарія МИХАЙЛИШИНА

Серія зустрічей, присвячених розробці власного воркфлоу R на основі публічно доступного набору даних, включаючи дослідницький, статистичний аналіз, візуалізацію та звітність відповідно до найкращих практик.

Сесія 18. Мастер-класи для малих груп з аналізу даних для командних проєктів

ОЛЕКСАНДР ШИНКАРЕНКО

Сесія 19. Мастер-класи для малих груп з аналізу даних для командних проєктів

Дмитро ГОСПОДАРЬОВ

Сесія 20. Мастер-класи для малих груп з аналізу даних для командних проєктів

Олександр ПЕТРЕНКО

Модуль 2. БІОЛОГІЯ ПООДИНОКИХ КЛІТИН ТА ПРОСТОРОВА БІОЛОГІЯ: СУЧАСНИЙ СТАН ТА ДАНІ

Сесія 1. Введення в технології секвенування

Валерія ВАСИЛЬЄВА Анна ДІАМАНТ

Технології масового паралельного секвенування (секвенування за синтезом, нанопори), підготовка бібліотек, експериментальний дизайн, вихідні файли та загальні етапи попередньої обробки рідків.

Сесія 2. Основи візуалізації багатовимірних даних

Сергій НАУМЕНКО

Теорія та практика з аналізу головних компонент (PCA), багатовимірного масштабування (MDS), tSNE, UMAP.

Сесія 3. Аналіз даних секвенування РНК поодиноких клітин 1

Марина КОРШЕВНЮК

Введення в основний набір даних, що використовується в курсі. Проходження основних етапів та скриптів з використанням набору даних та пакету Seurat. Це включає контроль якості, відбір ознак, нормалізацію даних, лінійну та нелінійну зниження вимірності, кластеризацію, анотування типів клітин та ідентифікацію маркерів.

Сесія 4. Аналіз даних секвенування РНК поодиноких клітин 2

Марина КОРШЕВНЮК

Просунуті техніки аналізу, включаючи аналіз траєкторій, диференціальний аналіз експресії між умовами та інтеграцію додаткових модальностей даних для покращення біологічних інсайтів.

Сесія 5. Інтеграція різноманітних наборів даних з Harmony

Ігор АРЕФ'ЄВ

Введення в пакет Harmony. Встановлення, введення в набори даних для навчання. Інтеграція даних з Harmony з використанням пакету Seurat.

Сесія 6. Секвенування РНК поодиноких клітин з довгими прочитаннями

Анна ДІАМАНТ

Огляд технологій секвенування з довгими прочитаннями, порівняння їх переваг та недоліків порівняно з короткими прочитаннями та обговорення їх впливу на аналіз транскриптомів.

Сесія 7. Введення в мультиоміку поодиноких клітин

Марина КОРШЕВНЮК

Огляд технологій. Основні підходи до інтеграції даних.

Сесія 8. ATAC-seq поодиноких клітин

Деталі підготовки зразків ATAC-seq та відповідні міркування. Приклади застосування.

Сесія 9. Бімодальний інтегративний аналіз даних RNA+ATAC-seq з поодиноких клітин

Марина КОРШЕВНЮК

Проходження основних етапів аналізу scATAC-seq з пакетом Signac. Інтеграція scRNAseq-ATACseq: аналіз зважених найближчих сусідів, ідентифікація генів/вибір маркерів типів клітин та візуалізація профілів доступності хроматину. Аналіз збагачення мотивів зв’язування факторів транскрипції.

Сесія 10. Клітинне індексування транскриптомів та епітопів (CITE-seq)

Владислав КАВАКА

Принципи та практики CITE-seq, охоплюючи підготовку зразків, маркування антитілами та належне використання техніки.

Сесія 11. Секвенування РНК поодиноких клітин + CITE-seq: інтеграція даних та аналіз

Владислав КАВАКА

Практичне введення в інтеграцію та аналіз даних CITE-seq для одночасного профілювання транскриптомів та експресії білків на одноклітинному рівні.

Сесія 12. Датасети: кластеризація та зниження вимірності (про що не пишуть в підручниках та окрім UMAP)

Олександр ПЕТРЕНКО

Просунуті техніки кластеризації: дослідження сучасних алгоритмів кластеризації, пристосованих для високовимірних даних, включаючи методи на основі графів та щільності. Алгоритмічні підходи до оцінки кластеризації (стабільність кластерів, силует кластерів). За межами UMAP: огляд альтернативних технік зниження вимірності (наприклад, PHATE).

Сесія 13. Огляд просторових та мультиплексних технологій та їх застосування в трансляційній онкології

Інструменти для просторового аналізу тканинних та клітинних структур, у поєднанні з мультиплексними техніками збору даних. Ілюстрація їх використання для вивчення мікросередовищ пухлин та клітинної гетерогенності.

Сесія 14. 10x Visium + HD: експресія генів та мікросередовища тканин

Олександр ПЕТРЕНКО

Огляд технології просторової транскриптоміки 10x Visium та її можливостей у картографуванні експресії генів у тканинних січеннях. Методи виявлення та розуміння складних взаємодій між різними типами клітин у їхньому тканинному контексті. Підходи до інтеграції даних просторової транскриптоміки з іншими наборами даних та просунуті техніки візуалізації для інтерпретації патернів просторової експресії генів.

Сесія 15. Введення в Imaging Mass Cytometry

Олена МЕЛЬНИК

Огляд технології Imaging Mass Cytometry, включаючи її принципи, інструментальні засоби та застосування в аналізі високовимірних клітинних даних.

Сесія 16. Аналіз даних Imaging Mass Cytometry 1

Олена МЕЛЬНИК

Основи аналізу даних Imaging Mass Cytometry, включаючи попередню обробку даних, нормалізацію та початкові техніки дослідницького аналізу.

Сесія 17. Аналіз даних Imaging Mass Cytometry 2

Олена МЕЛЬНИК

Просунуті стратегії аналізу даних Imaging Mass Cytometry, такі як розпізнавання просторових патернів, ідентифікація популяцій клітин та інтеграція з іншими омічними даними.

Сесія 18. Відтворювані звіти та дотримання принципів FAIR у аналізі даних поодиноких клітин

Олександр ПЕТРЕНКО

Введення в репозиторії даних та відкритої науки (ENA, NCBI, OSF, Zenodo). Керування даними при розробці спільних проєктів та на високопродуктивних комп'ютерах/кластерах. Використання даних відповідно до принципів FAIR.

Сесія 19. Презентації проєктів 1

Анна ДІАМАНТ

Презентація проєктів студентів та зворотний зв’язок від інструкторів. Ці дві сесії залучають усіх інструкторів.

Сесія 20. Презентації проєктів 2

Марина КОРШЕВНЮК

Розклад занять

Дата	Час	Тема	Викладач
13.01.2025 Понеділок	19:00	Синтаксис R та типи даних	Дарія МИХАЙЛИШИНА
17.01.2025 П'ятниця	19:00	Оптимізація коду з використанням циклів та функцій	Дарія МИХАЙЛИШИНА
20.01.2025 Понеділок	19:00	Введення в Tidyverse	Дарія МИХАЙЛИШИНА
24.01.2025 П'ятниця	19:00	Візуалізація даних	Дарія МИХАЙЛИШИНА
27.01.2025 Понеділок	19:00	Аналіз текстових даних	Дарія МИХАЙЛИШИНА
31.01.2025 П'ятниця	19:00	RMarkdown та звітність по проекту	Олександр ШИНКАРЕНКО
03.02.2025 Понеділок	19:00	Статистика в R 1	Дмитро ГОСПОДАРЬОВ
07.02.2025 П'ятниця	19:00	Статистика в R 2	Дмитро ГОСПОДАРЬОВ
10.02.2025 Понеділок	19:00	Введення в регресійний аналіз	Дарія МИХАЙЛИШИНА
14.02.2025 П'ятниця	19:00	Обробка даних 1	Олександр ШИНКАРЕНКО
17.02.2025 Понеділок	19:00	Обробка даних 2	Олександр ШИНКАРЕНКО
19.02.2025 Середа	19:00	Введення в технології секвенування	*Валерія ВАСИЛЬЄВА Анна ДІАМАНТ*
21.02.2025 П'ятниця	19:00	Відтворювані R-пайплайни. R + Docker	*Олександр ПЕТРЕНКО*
22.02.2025 Субота	19:00	Основи візуалізації багатовимірних даних	*Сергій НАУМЕНКО*
24.02.2025 Понеділок	19:00	Створення та робота в середовищах Conda	*Олександр ПЕТРЕНКО*
26.02.2025 Середа	19:00	Аналіз даних секвенування РНК поодиноких клітин 1	*Марина КОРШЕВНЮК*
01.03.2025 Субота	19:00	Введення в машинне навчання з R	*Валерія ВАСИЛЬЄВА*
02.03.2025 Неділя	19:00	Аналіз даних секвенування РНК поодиноких клітин 2	*Марина КОРШЕВНЮК*
03.03.2025 Понеділок	19:00	Веб-додатки з Shiny	*Валерія ВАСИЛЬЄВА*
05.03.2025 Середа	19:00	Інтеграція різноманітних наборів даних з Harmony	*Ігор АРЕФ'ЄВ*
07.03.2025 П'ятниця	19:00	R проти Python	Олександр ШИНКАРЕНКО
Впродовж 1 модуля		Майстер-класи для малих груп з аналізу даних для командних проектів.	Дарія МИХАЙЛИШИНА Олександр ШИНКАРЕНКО Дмитро ГОСПОДАРЬОВ *Олександр ПЕТРЕНКО*
09.03.2025 Неділя	19:00	Секвенування РНК поодиноких клітин з довгими прочитаннями	*Анна ДІАМАНТ*
12.03.2025 Середа	19:00	Введення в мультиоміку поодиноких клітин	*Марина КОРШЕВНЮК*
16.03.2025 Неділя	19:00	ATAC-seq поодиноких клітин
19.03.2025 Середа	19:00	Бімодальний інтегративний аналіз даних RNA+ATAC-seq з поодиноких клітин	*Марина КОРШЕВНЮК*
23.03.2025 Неділя	19:00	Клітинне індексування транскриптомів та епітопів (CITE-seq)	*Владислав КАВАКА*
26.03.2025 Середа	19:00	Секвенування РНК поодиноких клітин + CITE-seq: інтеграція даних та аналіз	*Владислав КАВАКА*
30.03.2025 Неділя	19:00	Датасети: кластеризація та зниження вимірності (про що не пишуть в підручниках та окрім UMAP)	*Олександр ПЕТРЕНКО*
02.04.2025 Середа	19:00	Огляд просторових та мультиплексних технологій та їх застосування в трансляційній онкології
06.04.2025 Неділя	19:00	10x Visium + HD: експресія генів та мікросередовища тканин	*Олександр ПЕТРЕНКО*
09.04.2025 Середа	19:00	Введення в Imaging Mass Cytometry	*Олена МЕЛЬНИК*
13.04.2025 Неділя	19:00	Аналіз даних Imaging Mass Cytometry 1	*Олена МЕЛЬНИК*
16.04.2025 Середа	19:00	Аналіз даних Imaging Mass Cytometry 2	*Олена МЕЛЬНИК*
20.04.2025 Неділя	19:00	Відтворювані звіти та дотримання принципів FAIR у аналізі даних поодиноких клітин	*Олександр ПЕТРЕНКО*
23.04.2025 Середа	19:00	Презентації проектів 1	*Анна ДІАМАНТ*
27.04.2025 Неділя	19:00	Презентації проектів 2	*Марина КОРШЕВНЮК*

Викладачі

Вступ до R та РНК-секвенування

Дмитро Господарьов

Марина Коршевнюк

Олександр Петренко

Олександр Шинкаренко

Валерія Васильєва