
Среда программирования: R
Название работы: Exercise 7. The task of this exercise is to train a DNA sequence classifier. Упражнение 7. Обучить классификатор последовательностей ДНК
Вид работы: Лабораторная работа
Тематика работы: Прочие
Объем программы: 4 (по десятибалльной шкале)
Уровень сложности: 7 (по десятибалльной шкале)
Разработчик (автор):
Программист сайта kursovik.com
(письмо автору)
Данная работа написана ЧЕЛОВЕКОМ без использования ИИ
Ключевые слова: Классификатор последовательностей ДНК, R-код, workspace sequences train, JKU Moodle, объект R, коэффициент длины, xTrain, объект DNAStringSet, последовательности длины, пакет Bioconductor kebabs, для обучения модели, предсказывает класс, гиперпараметры SVM, загрузите тест, R workspace, данные RData
Функции программы:
Разработать программу на R в соответствии с заданием:
Упражнение 7.
Задача этого упражнения - обучить классификатор последовательностей ДНК. С этой целью загрузите программу R workspace sequences train.RData из JKU Moodle. Это рабочее пространство содержит два объекта R, которые следует использовать для классификации последовательностей:
yTrain: коэффициент длины 635.
xTrain: объект DNAStringSet, который содержит 635 последовательностей длиной 601.
Используйте пакет Bioconductor kebabs для обучения модели, которая предсказывает класс. Какое ядро и другие гиперпараметры SVM вы используете, зависит от вас. Однако вам следует попробовать по крайней мере пять различных ядер (включая также одно позиционно-зависимое ядро). Выполните перекрестную проверку, чтобы найти лучшее ядро и наилучшие параметры. Тщательно задокументируйте то, что вы сделали. Кроме того, загрузите тест последовательностей R workspace.Данные RData. Он содержит объект DNAStringSet xTest. Используйте свою модель, чтобы предсказать этикетку для этих 424 тестовых образцов. Кроме того, попробуйте получить некоторую интерпретацию для модели, которую вы обучили (например путем вычисления весов признаков и/или профилей прогнозирования).
Отправьте следующее:
1. Файл рабочей области R с числовым вектором yTest, который содержит прогнозы для 424 тестовых выборок (коэффициент со значениями, как в обучающем наборе).
2. Полный R-код, который вы использовали для выбора модели и для обучения конечных моделей.
3. Отчет, в котором освещается ваш подход и результаты, а также интерпретационная оценка результатов.
4. В качестве альтернативы пунктам 2. и 3.: если вы используете Sweave или knitr для написания своего отчета, вы можете объединить отчет и код в исходный файл Sweave/knitr. В этом случае вам не нужно отправлять код и отчет отдельно, но, пожалуйста, отправьте исходный файл и окончательный PDF-файл.
Конкурс по анализу данных: три модели с тремя наилучшими точностями классификации на основе тестовых данных получат по три дополнительных балла каждая.
Exercise 7.
The task of this exercise is to train a DNA sequence classifier. To this end, download the R workspace sequences train.RData from JKU Moodle. This workspace contains two R objects that should be used to classify sequences:
yTrain: factor of length 635.
xTrain: DNAStringSet object which contains 635 sequences of length 601.
Use the Bioconductor package kebabs to train a model that predicts the class. Which kernel and other SVM hyperparameter you use is up to you. However, you should try at least five different kernels (also include one position-dependent kernel). Perform cross validation to find the best kernel and the best parameters. Carefully document what you did. Furthermore, download the R workspace sequences test.RData. It contains a DNAStringSet object xTest. Use your model to predict the label for these 424 test samples. Furthermore, try to obtain some interpretation for the model you have trained (e.g. by computing feature weights and/or prediction profiles).
Submit the following:
1. An R workspace file with a numeric vector yTest that contains the predictions for the 424 test samples (factor with values like in the training set).
2. The complete R code that you used for model selection and for training the final models.
3. A report highlighting your approach and results along with an interpretative assessment of the results.
4. Alternatively to 2. and 3.: if you use Sweave or knitr to write your report, you can combine report and code into the Sweave/knitr source file. In that case, you need not submit code and report separately, but please submit the source file and the final PDF.
Data analysis contest: the three models with the best three classification accuracies on the test data will receive three points extra each.
Описание (отчет): Нет, но можно заказать его написание
Пояснения к компиляции и запуску программы:
Для работы с программой нужно использовать файл "exercise7.R", например, в R-Studio.
исходники
exercise7
Отчет к программе. СодержаниеОписание решения с результатами работы программы.
Предварительный просмотр
|
Стоимость ИСХОДНОГО ТЕКСТА программы составляет 2000 руб РФ Продажа каждой работы строго учитывается, у каждой работы есть своя история продаж. |