Вступ до R та РНК-секвенування

Загальний опис

Вступ до R та РНК-секвенування: БІОЛОГІЯ ПООДИНОКИХ КЛІТИН ТА ПРОСТОРОВА БІОЛОГІЯ:

Цей курс розроблений для оснащення студентів набором навичок у програмуванні на R, аналізі даних та передових біоінформатичних технологіях, особливо в транскриптоміці поодиноких клітин та просторовому протео-транскриптомному аналізі. Навчальна програма поділена на два взаємопов'язані модулі, що забезпечують безперервний перехід від загальних навичок аналізу даних в R до спеціалізованих застосувань у біоінформатиці.

Перший модуль зосереджений на розвитку основних компетенцій у написанні скриптів на R та навігації в RStudio. Студенти навчаться впроваджувати найкращі практики для відтворюваності аналізів у контрольованому середовищі (наприклад, з використанням Renv та conda), займатимуться візуалізацією даних та створенням структурованих звітів з аналізу даних за допомогою Rmarkdown та Shiny. Крім того, модуль вводить застосування статистичних методів у R, базовий аналіз тексту та вступні техніки машинного навчання, забезпечуючи міцну основу для подальшого вивчення в обраних студентами галузях аналізу даних. Викладання здійснюється через поєднання лекцій та практичних семінарів. Під час цих сесій студенти беруть участь у живому аналізі даних під керівництвом досвідчених інструкторів, виконують інтерактивні оцінювання та мають численні можливості ставити запитання.

Другий модуль зосереджений на біоінформатиці транскриптоміки поодиноких клітин та просторового протео-транскриптомного аналізу. Цей просунутий сегмент наголошує на обробці даних та класичному подальшому аналізі з використанням R та відповідних пакетів, одночасно вводячи ключові концепції мультиомічного аналізу, включаючи інтеграцію даних з scATAC-seq та CITE-seq. Студенти отримають практичний досвід роботи з техніками просторової біології, такими як 10x Visium, 10x Visium HD та Imaging Mass Cytometry, що дозволить їм оцінювати ідентичність клітин та експресію маркерів у мікросередовищі тканин. Модуль включає добровільні керовані командні фінальні проєкти, що готують студентів до незалежної роботи в реальних умовах.
Кожна сесія складається з основної активності (лекція або семінар), за якою слідують сесії питань та відповідей, розв'язання проблем та обговорення. У разі залучення кількох інструкторів проводяться панельні дискусії, що забезпечують всебічне охоплення актуальних технік та живий аналіз даних.

 

Деталі навчального плану

Протягом курсу студенти поділяються на невеликі групи для стимулювання спільного навчання та отримують домашні завдання для закріплення знань та покращення навичок розв'язання проблем – однак усі сесії проводяться як спільний трек. Заохочується співпраця з одногрупниками та інструкторами, а також використання генеративних моделей для розв'язання проблем, хоча плагіат суворо заборонено. Буде надана окрема інструкція про етичне застосування генеративних моделей.

Весь зміст курсу викладається українською мовою, доповнений необхідною англійською термінологією та базовими знаннями, необхідними для ефективного використання пакетів R.

Курс завершується фінальним оцінюванням, що складається з питань з множинним вибором за змістом Модуля 2, з вимогою мінімального прохідного балу 70% для успішного завершення. Крім того, студенти беруть участь у командному проєкті з аналізу даних експресії з опублікованих наборів даних. Курс завершиться презентаціями цих проєктів та зворотним зв’язком від інструкторів.

Модуль1. ВСТУП ДО R ДЛЯ БІОЛОГІВ ТА БІОІНФОРМАТИКІВ
Сесія 1. Синтаксис R та типи даних
Дарія МИХАЙЛИШИНА

Огляд можливостей R та RStudio, введення в базовий синтаксис R та типи даних (числові, логічні, рядки, вектори, списки, матриці, датафрейми, дати, фактори тощо) та операції з ними.
 

Сесія 2. Оптимізація коду з використанням циклів та функцій
Дарія МИХАЙЛИШИНА

Зміст: Введення в цикли (цикли while, for) та функції. Використання функцій через apply та map як альтернативи циклам.
 

Сесія 3. Введення в Tidyverse
Дарія МИХАЙЛИШИНА

Введення в пакет Tidyverse та його можливості. Введення в завантаження даних, їх дослідження та маніпулювання даними з використанням пакету Tidyverse.
 

Сесія 4. Візуалізація даних
Дарія МИХАЙЛИШИНА

Введення у візуалізацію даних з пакетом ggplot2. Дослідження різних типів графіків для різних типів даних. Налаштування графіків за допомогою різних палітр кольорів, тем тощо.
 

Сесія 5. Аналіз текстових даних
Дарія МИХАЙЛИШИНА

Завантаження, очищення текстових даних. Введення в біграми та нграми. Створення хмар слів. Аналіз контексту. Введення в моделювання тем.
 

Сесія 6. RMarkdown та звітність по проєкту
Олександр ШИНКАРЕНКО

Використання RMarkdown для створення динамічних та відтворюваних звітів. Теми включають форматування, вбудовування візуалізацій, параметризацію звітів для різних виходів та найкращі практики документування проєктів для сприяння співпраці та публікації.
 

Сесія 7. Статистика в R 1
Дмитро ГОСПОДАРЬОВ

Методи копіювання даних з електронних таблиць та завантаження даних, збережених у форматі з розділеними комами. Обчислення середнього, медіани та дисперсії в базовому оточенні R. Тестування на нормальність та рівність дисперсій. Параметричні парні порівняння та аналіз дисперсії з використанням пакетів 'base', 'DescTools' та 'coin'.
 

Сесія 8. Статистика в R 2
Дмитро ГОСПОДАРЬОВ

Графіки в 'base' та 'ggplot2' та спеціалізованих пакетах ('corrplot', 'pROC' тощо): діаграми, таблиці кореляцій, трендові лінії, біплоти, теплові карти, дендрограми, крива операторної характеристики приймача (ROC), співвідношення шансів.
 

Сесія 9. Введення в регресійний аналіз
Дарія МИХАЙЛИШИНА

Для чого використовують регресійний аналіз, використання простої лінійної регресії. Включення категоріальних даних та взаємодій у регресії. Інтерпретація результатів регресій. Робота з мультиколінеарністю та гетероскедастичністю. Регресійний аналіз з бінарними залежними змінними.
 

Сесія 10. Обробка даних 1
Олександр ШИНКАРЕНКО

Введення в техніки обробки даних в R з використанням пакетів таких як dplyr та tidyr. Навчання очищенню, трансформації та маніпулюванню наборами даних для підготовки їх до аналізу. Теми включають фільтрацію, вибір, мутування, підсумовування даних та обробку відсутніх значень для забезпечення цілісності та придатності даних.
 

Сесія 11. Обробка даних 2
Олександр ШИНКАРЕНКО

Просунуті стратегії маніпулювання даними в R, включаючи зміну форми даних, об'єднання кількох наборів даних та роботу зі складними структурами даних. Дослідження найкращих практик для ефективної обробки даних, оптимізації продуктивності коду та автоматизації повторюваних завдань для спрощення робочого процесу аналізу даних.
 

Сесія 12. Відтворювані R-пайплайни. R + Docker
Олександр ПЕТРЕНКО

Зміст: Введення в відтворювані дослідження та важливість відтворюваних пайплайнів в аналізі даних. Огляд Docker та концепцій контейнеризації, адаптованих для середовищ R. Покроковий посібник зі створення контейнерів Docker для проєктів R для забезпечення консистентності на різних системах. Створення та управління скриптами R та їх залежностями всередині контейнерів Docker. Найкращі практики контролю версій, автоматизації та документування в відтворюваних робочих процесах. Демонстрація: Побудова простого відтворюваного R-пайплайну з використанням Docker, включаючи налаштування середовища, виконання скриптів та управління контейнерами.
 

Сесія 13. Створення та робота в середовищах Conda
Олександр ПЕТРЕНКО

Введення в Conda та її роль в управлінні середовищами та пакетами для проєктів з науки про дані. Встановлення Conda на різних операційних системах та налаштування базових середовищ. Створення, клонування та управління середовищами Conda для ефективного управління залежностями різних проєктів. Встановлення та оновлення пакетів з використанням Conda, включаючи роботу зі складними залежностями та каналами. Інтеграція середовищ Conda з популярними IDE та інструментами, такими як Jupyter Notebook та RStudio. Найкращі практики спільного використання середовищ та відтворюваності за допомогою файлів environment.yml. Вирішення поширених проблем в середовищах Conda та оптимізація продуктивності середовища.
 

Сесія 14. Введення в машинне навчання з R
Валерія ВАСИЛЬЄВА

Коротке введення в типи машинного навчання, реалізація пакетів R для класифікації та регресії (caret, randomForest тощо).

Сесія 15. Веб-додатки з Shiny
Валерія ВАСИЛЬЄВА

Зміст: Створення інтерактивних веб-додатків з R. Формування макетів, тем, графіки та взаємодія з користувачами (зворотний зв’язок, завантаження, вивантаження).

 

Сесія 16. R проти Python
Олександр ШИНКАРЕНКО

Порівняльний аналіз R та Python для біоінформатики та застосувань в науці про дані. Обговорення сильних та слабких сторін кожної мови, сценаріїв, коли одна може мати переваги, взаємодії між R та Python, та найкращі практики інтеграції обох інструментів у єдиний робочий процес. Дослідження ключових бібліотек та фреймворків, що підтримують просунутий аналіз даних в обох середовищах.
 

Сесія 17. Мастер-класи для малих груп з аналізу даних для командних проєктів
Дарія МИХАЙЛИШИНА

Серія зустрічей, присвячених розробці власного воркфлоу R на основі публічно доступного набору даних, включаючи дослідницький, статистичний аналіз, візуалізацію та звітність відповідно до найкращих практик.

Сесія 18. Мастер-класи для малих груп з аналізу даних для командних проєктів
ОЛЕКСАНДР ШИНКАРЕНКО

Серія зустрічей, присвячених розробці власного воркфлоу R на основі публічно доступного набору даних, включаючи дослідницький, статистичний аналіз, візуалізацію та звітність відповідно до найкращих практик.

Сесія 19. Мастер-класи для малих груп з аналізу даних для командних проєктів
Дмитро ГОСПОДАРЬОВ

Серія зустрічей, присвячених розробці власного воркфлоу R на основі публічно доступного набору даних, включаючи дослідницький, статистичний аналіз, візуалізацію та звітність відповідно до найкращих практик.

Сесія 20. Мастер-класи для малих груп з аналізу даних для командних проєктів
Олександр ПЕТРЕНКО

Серія зустрічей, присвячених розробці власного воркфлоу R на основі публічно доступного набору даних, включаючи дослідницький, статистичний аналіз, візуалізацію та звітність відповідно до найкращих практик.

Модуль 2. БІОЛОГІЯ ПООДИНОКИХ КЛІТИН ТА ПРОСТОРОВА БІОЛОГІЯ: СУЧАСНИЙ СТАН ТА ДАНІ
Рівень
Бакалавранти, магістранти, аспіранти
Практичні заняття
40 занять по 1,5 години
Тривалість
13.01-27.04.2025
Мова
Українська
Сертифікат
2 кредити ЄКТС
Розклад занять
Дата Час Тема Викладач
13.01.2025 Понеділок 19:00 Синтаксис R та типи даних Дарія МИХАЙЛИШИНА
17.01.2025 П'ятниця 19:00 Оптимізація коду з використанням циклів та функцій Дарія МИХАЙЛИШИНА
20.01.2025 Понеділок 19:00 Введення в Tidyverse Дарія МИХАЙЛИШИНА
24.01.2025 П'ятниця 19:00 Візуалізація даних Дарія МИХАЙЛИШИНА
27.01.2025 Понеділок  19:00 Аналіз текстових даних Дарія МИХАЙЛИШИНА
31.01.2025 П'ятниця  19:00 RMarkdown та звітність по проекту Олександр ШИНКАРЕНКО
03.02.2025 Понеділок 19:00 Статистика в R 1 Дмитро ГОСПОДАРЬОВ
07.02.2025 П'ятниця 19:00 Статистика в R 2 Дмитро ГОСПОДАРЬОВ
10.02.2025 Понеділок 19:00 Введення в регресійний аналіз Дарія МИХАЙЛИШИНА
14.02.2025 П'ятниця 19:00 Обробка даних 1 Олександр ШИНКАРЕНКО
17.02.2025 Понеділок 19:00 Обробка даних 2 Олександр ШИНКАРЕНКО
19.02.2025 Середа 19:00 Введення в технології секвенування Валерія ВАСИЛЬЄВА      Анна ДІАМАНТ
21.02.2025 П'ятниця 19:00 Відтворювані R-пайплайни. R + Docker Олександр ПЕТРЕНКО
22.02.2025 Субота 19:00 Основи візуалізації багатовимірних даних Сергій НАУМЕНКО
24.02.2025 Понеділок 19:00 Створення та робота в середовищах Conda Олександр ПЕТРЕНКО
26.02.2025 Середа 19:00 Аналіз даних секвенування РНК поодиноких клітин 1 Марина КОРШЕВНЮК
01.03.2025 Субота 19:00 Введення в машинне навчання з R Валерія ВАСИЛЬЄВА
02.03.2025 Неділя  19:00 Аналіз даних секвенування РНК поодиноких клітин 2 Марина КОРШЕВНЮК
03.03.2025 Понеділок 19:00 Веб-додатки з Shiny Валерія ВАСИЛЬЄВА
05.03.2025 Середа 19:00 Інтеграція різноманітних наборів даних з Harmony Ігор АРЕФ'ЄВ
07.03.2025 П'ятниця 19:00 R проти Python Олександр ШИНКАРЕНКО
Впродовж 1 модуля    Майстер-класи для малих груп з аналізу даних для командних проектів. Дарія МИХАЙЛИШИНА  Олександр ШИНКАРЕНКО  Дмитро ГОСПОДАРЬОВ  Олександр ПЕТРЕНКО  
09.03.2025 Неділя 19:00 Секвенування РНК поодиноких клітин з довгими прочитаннями Анна ДІАМАНТ
12.03.2025 Середа 19:00 Введення в мультиоміку поодиноких клітин Марина КОРШЕВНЮК
16.03.2025 Неділя 19:00 ATAC-seq поодиноких клітин  
19.03.2025 Середа 19:00 Бімодальний інтегративний аналіз даних RNA+ATAC-seq з поодиноких клітин Марина КОРШЕВНЮК
23.03.2025 Неділя 19:00 Клітинне індексування транскриптомів та епітопів (CITE-seq) Владислав КАВАКА
26.03.2025 Середа 19:00 Секвенування РНК поодиноких клітин + CITE-seq: інтеграція даних та аналіз Владислав КАВАКА
30.03.2025 Неділя  19:00 Датасети: кластеризація та зниження вимірності (про що не пишуть в підручниках та окрім UMAP) Олександр ПЕТРЕНКО 
02.04.2025 Середа 19:00 Огляд просторових та мультиплексних технологій та їх застосування в трансляційній онкології  
06.04.2025 Неділя 19:00 10x Visium + HD: експресія генів та мікросередовища тканин Олександр ПЕТРЕНКО
09.04.2025 Середа 19:00 Введення в Imaging Mass Cytometry Олена МЕЛЬНИК
13.04.2025 Неділя  19:00 Аналіз даних Imaging Mass Cytometry 1 Олена МЕЛЬНИК
16.04.2025 Середа  19:00 Аналіз даних Imaging Mass Cytometry 2 Олена МЕЛЬНИК
20.04.2025 Неділя  19:00 Відтворювані звіти та дотримання принципів FAIR у аналізі даних поодиноких клітин Олександр ПЕТРЕНКО 
23.04.2025 Середа 19:00 Презентації проектів 1 Анна ДІАМАНТ
27.04.2025 Неділя 19:00 Презентації проектів 2 Марина КОРШЕВНЮК

 

Викладачі

Доцент кафедри біохімії та біотехнології Прикарпатського національного університету імені Василя Стефаника, м. Івано-Франківськ

PhD кандидат з персоналізованої медицини та мультиоміки окремих клітин, Медичний Центр Університету Гронінгену, Нідерланди

Лікар-дослідник та науковий співробітник Медичного університету Відня

Біоінформатик, співзасновник та колишній технічний директор компанії HTuO Biosciences Inc. (м. Ванкувер, Канада).

Магістрантка в Університеті Шербруку, Канада