
Среда программирования: Без программирования
Название работы: Визуализация данных. Алгоритм K-ближайших соседей. Исключение атрибутов. Использование фильтров. Лабораторная работа 3.
Вид работы: Лабораторная работа
Тематика работы: Алгоритмы, Прочие
Объем программы: 5 (по десятибалльной шкале)
Уровень сложности: 5 (по десятибалльной шкале)
Разработчик (автор):
Программист сайта kursovik.com
(письмо автору)
Данная работа написана ЧЕЛОВЕКОМ без использования ИИ
Ключевые слова: Метод ближайших соседей, визуализация данных, алгоритм K-ближайших соседей, исключение атрибутов, использование фильтров, WEKA, набор iris.arff, матрица ошибок, алгоритм IBk, ирисы Фишера, точность классификации, ошибочно классифицированные элементы, sepallength, sepalwidth, набор с тремя атрибутами, iris-versicolor
Функции программы:
Выполнить лабораторную работу в программе WEKA в соответствии с заданиями:
1) Установить программное обеспечение с открытым исходным кодом WEKA, пройдя по ссылке https://www.cs.waikato.ac.nz/ml/weka/
6) Выполнить все задания лабораторной работы №3 сначала на тренировочном примере, описанном в методических рекомендациях. Затем повторить выполнение всех этих же заданий с набором данных, заданных по варианту.
7) Составить отчёт по лабораторной работе №3.
Задание 1.
Для набора iris.arff выполните описанные действия. Посмотрите на представление набора данных при выборе других пар атрибутов.
Задание 2.
Алгоритм k-ближайших соседей (k Nearest Neighbor) определяет принадлежность классифицируемого объекта к классу исходя из принадлежности ближайших к нему объектов обучающей выборки. Исходя из визуального представления набора данных, какой класс ирисов будет определяться этим алгоритмом более точно? На вкладке Classify выберите этот алгоритм, оставьте настройки по умолчанию и кросс-валидацию для 10 подмножеств. Запустите обучение классификатора. В сформированном отчете найдите оценку точности алгоритма, проанализируйте матрицу ошибок (Confusion Matrix). Оказалось ли ваше предположение верным?
Задание 3.
Воспользуйтесь справочной системой WEKA, чтобы познакомиться с описанием параметров, которые можно задать алгоритму IBk. Какой смысл и значение по умолчанию у параметра windowSize? Когда его стоит задавать явно? Какое количество «соседей» классификатор использует по умолчанию? Проведите повторные эксперименты, используя кросс-валидацию и значения k равные 2, 3, 4. Изменилась ли точность и матрица ошибок? Исходя из описания алгоритма, что можно сказать относительно выбора значения k? Почему, на ваш взгляд, для набора «ирисы Фишера» изменение значения k несущественно влияло на точность классификации?
Задание 4.
Выполните эксперимент по визуализации ошибок. Получите информацию обо всех семи случаях неправильно классификации, добавьте ее в отчет. В окне визуализации ошибок выберите по оси X атрибут petallength, по Y – petalwidth. В какой области графика расположены ошибочно классифицированные элементы?
Задание 5.
В наборе «ирисы Фишера» уберите атрибуты sepallength и sepalwidth. Нажав кнопку Edit, просмотрите полученный новый набор. Закройте окно редактирования и сохраните набор в новый файл. В WEKA выполните классификацию с использованием алгоритма IBk с параметрами по умолчанию, а также со значениями k, равными 2, 3, 4. Что можно сказать про оценку точности классификации? В каком из восьми проведенных экспериментов (с разными значениями k на полном наборе и на наборе с удаленными атрибутами) она была наибольшей и наименьшей? Можно ли сказать, что эта разница существенна? Можно ли сказать, что исключение половины независимых атрибутов (двух из четырех) снизило точность классификации?
Задание 6.
В наборе могут оказаться повторяющиеся записи. В каких-то случаях это нормально, в других – от дубликатов надо предварительно избавиться. Используйте набор с тремя атрибутами, полученный после экспериментов из задания 5.
Для отбрасывания дубликатов примените к нему фильтр RemoveDuplicates, который находится в разделе filters->unsupervised->instance (т.е. этот фильтр, работа которого не зависит от атрибута класса, применяется к экземпляру данных целиком). Сколько элементов данных осталось после фильтрации? Как это повлияло на точность алгоритма IBk с k=2? С чем это может быть связано? Стоило в данном случае отбрасывать повторения?
Задание 7.
Отмените все изменения в наборе или заново загрузите набор iris.arff. Построим на его основе набор, в котором не будет iris-versicolor. Для этого используем фильтр RemoveWithValues, который находится в разделе filters->unsupervised->instance. Выполните настройку фильтра и примените его. По кнопке Edit на вкладке Preprocess убедитесь, что в списке осталось только два класса. Сохраните измененный набор под новым именем.
Задание 8.
Вернитесь к исходному набору данных. Что произойдет, если применить к нему фильтр RemoveWithValues с настройками по умолчанию? Как вы объясните результаты?
Задание 9.
Снова вернитесь к исходному набору. Позволяет ли WEKA одним за другим применит несколько фильтров, например RemoveDuplicates и RemoveWithValues? Были ли совпадающие записи в исходном наборе? Если да, к каким классам они относились?
Описание (отчет):
Есть
на 32 страниц, посмотреть оглавление
Перед покупкой готовой работы не забудьте проверить её оригинальность. Запросить у администратора проверку текущей оригинальности работы по версии системы Антиплагиат.РУ
Отчет к программе. СодержаниеОписание заданий, решения и скриншоты.
Предварительный просмотр
Отчет к программе. СодержаниеСкриншот общего задания.
|
Стоимость ОТЧЕТА составляет 3100 руб РФ Стоимость НЕБОЛЬШОГО ОТЧЕТА составляет 0 руб РФ Продажа каждой работы строго учитывается, у каждой работы есть своя история продаж. |