🇨🇦 Летом 1935 г. Эдгар Андерсон отправился в Канаду. На полуострове Гаспе в провинции Квебек он обнаружил на одном пастбище 2 обширные популяции ирисов Iris versicolor и Iris setosa. И замерил морфометрию цветков. По результатам поездки Андерсон выпустил статью на 3 страницы — публикация была по современным меркам несерьезная и соответствовала скорее запискам путешественника. Скажем, там не было статистики (потому что и статистики тогда не было).
☘️ Мистер Андерсон — американский ботаник, прославившийся трудами по генетике гибридизации растений. Он занимался изучением ирисов, исследуя их географическую изменчивость. В 1929 г. Андерсон получил стипендию на работу в институте садоводства Джона Иннеса в Великобритании, где познакомился с Рональдом Фишером.
Известно письмо Андерсона Фишеру, датируемое 19 декабря 1935 г., в котором ботаник пишет, что измерил по 50 образцов двух ирисов I. versicolor and I. setosa в Канаде и прилагает лист с данными 4 характеристик растений (стали легендой), а также записи об окраске цветков (были утеряны) ✍️
🤓 Сэр Рональд Фишер — отец современной статистики. Из-за плохого зрения он c детства развил в себе великолепное абстрактное геометрическое мышление, что позволяло ему находить изящные решения для сложных проблем. Пальцев рук и ног не хватит перечислять: неравенство Фишера, информация Фишера, точный тест Фишера, Фишеровское убегание, правило Фишера, распределение Фишера и т.д. Докинз даже назвал соотечественника величайшим биологом после Дарвина.
В 1936 г. Рональд Фишер использовал любезно предоставленные Андерсоном данные в своей статье «The use of multiple measurements in taxonomic problems», где презентовал линейный дискриминантный анализ (LDA) [метод позволяет снижать размерность и похож на PCA, только supervised]. В публикации Фишер привел и табличку с ирисами. Важно, что для иллюстрации эффективности метода Фишеру пришлось привлечь еще измерения другого вида I. virginica, которых не было в письме.
❓Откуда же они взялись? Десятилетия это оставалось загадкой. Но ученые перерыли архивы и в 2021 г. откопали, что измерения ириса виргинского взяты из более ранней статьи Андерсона. А сделаны они были в Кэмдене (штат Теннесси, США).
Вот так и родился канонический датасет «Ирисы Фишера/Андерсона». Он популярен для тестирования стат-/ML-методов классификации, кластеризации и демонстрации новинок датавиза. Это игрушечный набор данных: 150 наблюдений, 4 количественные переменные, 3 класса, 0 пропущенных значений. Но он же один из немногих, встроенных в R, а еще у него своя страница Вики.
Хэппи-энд? Подождите расходиться! Последние годы произошло падение рейтинга одобрения великого биостатистика. Многие ученые считают использование ирисов этически недопустимым. Почему? Главная причина: Фишер — евгеник. К примеру, статья о LDA была опубликована им в «Annals of eugenics» (сейчас журнал переименовали, но осадочек остался). Фишер умер в 1962 г. и до последних лет говорил всякие евгенические гадости. В 2020 г. на волне протестов в США, связанных с гибелью Джорджа Флойда, в Кембридже демонтировали витраж с «латинским квадратом», который прославлял ученого. Другие организации удалили его имя из названий престижных наград математикам и эволюционистам. В общем, Роня, у нас отмена 🥲
А на чем тестировать модели теперь? На самом деле, на замену ирисам выстроилась очередь. Бесспорно №1 — это palmerpenguins. Данные пингвинов собраны в 2007–09 гг. доктором Кристен Горман на антарктической станции Палмер. Это отличный датасет — 8 колонок, 344 наблюдения, есть NA. Не стыдно юзать и цитировать 🐧
install.packages("palmerpenguins")
М-да, только свыклись, что sepal и petals — чашелистики и лепестки, а теперь зубрим названия частей тела пингвинов: bill — клюв, flipper— плавник... Зато увеличиваем английский вокабуляр на датасетах 🇬🇧
И последнее. Обращаемся не к Рональду, а Дональду: не надо вводить тарифы против пингвинов — нам еще на них тренироваться!
☘️ Мистер Андерсон — американский ботаник, прославившийся трудами по генетике гибридизации растений. Он занимался изучением ирисов, исследуя их географическую изменчивость. В 1929 г. Андерсон получил стипендию на работу в институте садоводства Джона Иннеса в Великобритании, где познакомился с Рональдом Фишером.
Известно письмо Андерсона Фишеру, датируемое 19 декабря 1935 г., в котором ботаник пишет, что измерил по 50 образцов двух ирисов I. versicolor and I. setosa в Канаде и прилагает лист с данными 4 характеристик растений (стали легендой), а также записи об окраске цветков (были утеряны) ✍️
🤓 Сэр Рональд Фишер — отец современной статистики. Из-за плохого зрения он c детства развил в себе великолепное абстрактное геометрическое мышление, что позволяло ему находить изящные решения для сложных проблем. Пальцев рук и ног не хватит перечислять: неравенство Фишера, информация Фишера, точный тест Фишера, Фишеровское убегание, правило Фишера, распределение Фишера и т.д. Докинз даже назвал соотечественника величайшим биологом после Дарвина.
В 1936 г. Рональд Фишер использовал любезно предоставленные Андерсоном данные в своей статье «The use of multiple measurements in taxonomic problems», где презентовал линейный дискриминантный анализ (LDA) [метод позволяет снижать размерность и похож на PCA, только supervised]. В публикации Фишер привел и табличку с ирисами. Важно, что для иллюстрации эффективности метода Фишеру пришлось привлечь еще измерения другого вида I. virginica, которых не было в письме.
❓Откуда же они взялись? Десятилетия это оставалось загадкой. Но ученые перерыли архивы и в 2021 г. откопали, что измерения ириса виргинского взяты из более ранней статьи Андерсона. А сделаны они были в Кэмдене (штат Теннесси, США).
Вот так и родился канонический датасет «Ирисы Фишера/Андерсона». Он популярен для тестирования стат-/ML-методов классификации, кластеризации и демонстрации новинок датавиза. Это игрушечный набор данных: 150 наблюдений, 4 количественные переменные, 3 класса, 0 пропущенных значений. Но он же один из немногих, встроенных в R, а еще у него своя страница Вики.
Хэппи-энд? Подождите расходиться! Последние годы произошло падение рейтинга одобрения великого биостатистика. Многие ученые считают использование ирисов этически недопустимым. Почему? Главная причина: Фишер — евгеник. К примеру, статья о LDA была опубликована им в «Annals of eugenics» (сейчас журнал переименовали, но осадочек остался). Фишер умер в 1962 г. и до последних лет говорил всякие евгенические гадости. В 2020 г. на волне протестов в США, связанных с гибелью Джорджа Флойда, в Кембридже демонтировали витраж с «латинским квадратом», который прославлял ученого. Другие организации удалили его имя из названий престижных наград математикам и эволюционистам. В общем, Роня, у нас отмена 🥲
А на чем тестировать модели теперь? На самом деле, на замену ирисам выстроилась очередь. Бесспорно №1 — это palmerpenguins. Данные пингвинов собраны в 2007–09 гг. доктором Кристен Горман на антарктической станции Палмер. Это отличный датасет — 8 колонок, 344 наблюдения, есть NA. Не стыдно юзать и цитировать 🐧
install.packages("palmerpenguins")
М-да, только свыклись, что sepal и petals — чашелистики и лепестки, а теперь зубрим названия частей тела пингвинов: bill — клюв, flipper— плавник... Зато увеличиваем английский вокабуляр на датасетах 🇬🇧
И последнее. Обращаемся не к Рональду, а Дональду: не надо вводить тарифы против пингвинов — нам еще на них тренироваться!