РНК-секвенування: аналіз даних в R
Цей практичний курс надає підготовку з біоінформатичного аналізу експресії генів, зосереджуючись на аналізі РНК-секвенування з використанням R, R Studio та різних пакетів R. Крім того, курс знайомить з основними концепціями аналізу РНК-секвенування поодиноких клітин.
Всі наші викладачі є практикуючими біоінформатиками, які виконують біоінформатичні аналізи в рамках своїх робочих обов'язків або академічних досліджень. Їхній досвід викладання ґрунтується на їхній професійній діяльності та попередньому досвіді викладання на курсах НУО "Геноміка UA".
Кожне заняття складається з 30-хвилинної вступної лекції та 90-хвилинного практичного заняття. Під час цих занять студенти будуть займатися аналізом реальних даних під керівництвом інструктора, брати участь в інтерактивному оцінюванні та матимуть можливість ставити запитання.
Курс починається з R boot camp, який знайомить новачків з мовою програмування R та R Studio, а також слугує повторенням для тих, хто вже знайомий з R. Після цього курс охоплює низку тем, включаючи основи аналізу експресії генів, просунуті підходи до роботи з R, диференціальний аналіз експресії за допомогою DESeq2, візуалізацію даних, функціональний аналіз та аналіз транскриптомів поодиноких клітин.
Курс завершується підсумковим оцінюванням у формі тестів з декількома варіантами відповідей.
Крім того, курс включає командний проект, в якому студенти аналізують дані експресії з загальнодоступного набору даних, починаючи з матриці прочитань. Викладачі надають набір даних та об'єднують студентів у невеликі групи по 2-3 учасники. Кульмінацією курсу є дві заключні сесії, зосереджені на студентських презентаціях та зворотному зв'язку від викладачів. Хоча ці міні-проекти не оцінюються, успішні команди отримають додаткові сертифікати від ГО "Геноміка UA", підписані викладачами.
Всі тренінги проводитимуться українською мовою, але оскільки біоінформатика документується англійською мовою, а в цій галузі використовується усталена англійська термінологія, на кожній сесії буде надано необхідну довідкову інформацію.
Навігація у RStudio, знайомство зі структурою R-скриптів. Поняття про класи та типи даних. Базове написання коду, включаючи синтаксис, нарізку даних, підстановку та перетворення. Застосування циклів, розгалужень (if-else) та створення функцій.
Завантаження та експорт файлів. Ілюстрація основних кроків у дослідженні даних. Коротке порівняння базових можливостей R та Tidyverse. Візуалізація даних та інтерпретація графіків.
Вступ до аналізу експресії генів та даних РНК-секвенування. Планування та дизайн експерименту. Сирі дані. Метадані. Типи та методи нормалізації. P-значення та поправки на множинне тестування. Негативний біноміальний розподіл та дані експресії генів.
Знайомство з набором даних, що використовуються в курсі. Розгляд основних етапів та скриптів для аналізу експресії генів в обраному наборі даних.
Тест на нормальність, перетворення даних, тест на гомоскедастичність. Розуміння коваріації та кореляції, перевірка гіпотез (t-тест, ANOVA).
Попередня обробка та анотація генів, “exploratory” аналіз, включаючи зниження вимірності (PCA, t-SNE), вплив нормалізації на зниження вимірності.
Вибір тестів DESeq2, визначення критеріїв диференціальної експресії генів, попарне тестування, множинне порівняння груп, інтерпретація результатів, інструменти диференціальної експресії за межами DESeq2.
Вступ до візуалізації даних. ggplot2. Базові графіки. Визначення середнього, медіани та моди. Вибір і застосування параметричних і непараметричних тестів. Коробка та скрипковий графік. Аналіз головних компонент та t-SNE.
Діаграми Венна та діаграми UpSet. Графіки типу «вулкан». Теплові карти. Інтерактивні графіки. Кращі практики Rmarkdown. Вбудовування таблиць і файлів. Структура звіту bulk RNA-Seq.
Функціональні підходи: збагачення генних наборів, аналіз сигнальних шляхів. Робота з базами даних GO, Reactome та KEGG.
Основи теорії графів та мережевого аналізу. Коекспресія генів, транскрипційна регуляція, ідентифікація хаб-генів та інтерпретація.
Вступ до аналізу РНК-секвенування поодиноких клітин з використанням Seurat та наборів даних PBMC: нормалізація, кластеризація, диференціальна експресія між кластерами та між станами.
Аналіз одноклітинного РНК-секвенування: візуалізації. Методи деконволюції експресійних сигнатур.
Презентація студентських проектів та зворотній зв'язок від викладачів.