🔞 Автор: Владимир Шитов, @chelovek_nauk, машинлернер, биоинформатик, преподаватель ML в Бластим
👙 Однажды друг предложил проект, который до сих пор остается одним из моих любимых. Его жена занимается дизайном женского белья. Она хотела сделать лифчики удобнее для клиенток, но для этого нужно было проводить хитрые измерения, которые бы отпугнули часть покупательниц. Друг написал мне: «Ты же занимаешься машинным обучением? Мы собрали набор данных женских грудей, можешь предсказать по ним эти числа?». Загоревшись искренним научным интересом, я тут же согласился.
Данные оказались табличными. Девушки в испытательной группе провели несколько измерений: обхват груди, расположение соска и еще несколько, включая те, которые нужно было предсказать. Вздохнув от понимания, как много ценных научных данных можно было бы извлечь из картинок, я принялся за работу.
Одна из задач легко решилась простой советской регрессией, а вот с остальными было сложнее. Я решил отрисовать данные, чтобы лучше понимать, как можно предсказать другие числа. Уместить всю информацию на одном графике сперва не получалось: колонок в таблице было несколько, а стандартными методами визуализации можно худо-бедно отобразить четыре. И тут меня осенило: «Эврика, я же знаю, что эти данные кодируют!». Вот это обозначает диаметр груди, вот эти — где расположен сосок, другие — размеры тела. Можно просто взять и нарисовать ровно то, что кодируется данными, используя числа из таблицы для правильного отображения!
👙 Так получилась библиотека для визуализации многомерных данных BoobPlot. Выкладывать ее в открытый доступ я не решился: не этим хотелось бы прославиться. Но в целом ее можно использовать и для других датасетов. Есть же способ визуализации при помощи лиц, основанный на факте, что люди быстро читают информацию о мимике. По крайней мере парни быстро воспринимают информацию и о других частях тела… Я тестировал библиотеку на ирисах Фишера — такими вы их еще не видели! Но разные виды цветов определяются моментально. Быть может, этот способ визуализации однажды попадет в учебники?
👙 Однажды друг предложил проект, который до сих пор остается одним из моих любимых. Его жена занимается дизайном женского белья. Она хотела сделать лифчики удобнее для клиенток, но для этого нужно было проводить хитрые измерения, которые бы отпугнули часть покупательниц. Друг написал мне: «Ты же занимаешься машинным обучением? Мы собрали набор данных женских грудей, можешь предсказать по ним эти числа?». Загоревшись искренним научным интересом, я тут же согласился.
Данные оказались табличными. Девушки в испытательной группе провели несколько измерений: обхват груди, расположение соска и еще несколько, включая те, которые нужно было предсказать. Вздохнув от понимания, как много ценных научных данных можно было бы извлечь из картинок, я принялся за работу.
Одна из задач легко решилась простой советской регрессией, а вот с остальными было сложнее. Я решил отрисовать данные, чтобы лучше понимать, как можно предсказать другие числа. Уместить всю информацию на одном графике сперва не получалось: колонок в таблице было несколько, а стандартными методами визуализации можно худо-бедно отобразить четыре. И тут меня осенило: «Эврика, я же знаю, что эти данные кодируют!». Вот это обозначает диаметр груди, вот эти — где расположен сосок, другие — размеры тела. Можно просто взять и нарисовать ровно то, что кодируется данными, используя числа из таблицы для правильного отображения!
👙 Так получилась библиотека для визуализации многомерных данных BoobPlot. Выкладывать ее в открытый доступ я не решился: не этим хотелось бы прославиться. Но в целом ее можно использовать и для других датасетов. Есть же способ визуализации при помощи лиц, основанный на факте, что люди быстро читают информацию о мимике. По крайней мере парни быстро воспринимают информацию и о других частях тела… Я тестировал библиотеку на ирисах Фишера — такими вы их еще не видели! Но разные виды цветов определяются моментально. Быть может, этот способ визуализации однажды попадет в учебники?