Machine Learning “Hello World” – Part 03 – Visualisasi
Ok, Sekarang kita sudah memiliki pengetahuan dasar mengenai apa data yang akan kita olah. Saatnya kita memperdalam dengan visualisasi. Kita akan melihat 2 tipe plots
- Univariate plot untuk memperdalam pengetahuan tentang masing-masing attribute
- Multivariate plot untuk mempelajari tentang relasi antar attribute.
Univariate Plot
Kita akan memulai membuat plot untuk masing-masing variable. Kita beruntung karena semua attribute adalah numerik sehingga kita dapat menggunakan box and whisker plot untuk setiap attribute.
Untuk mengetahui bagaimana cara membaca whisker plot anda dapat mengikuti tutorial di khanacademy berikut ini.
Kita juga dapat membuat histogram untuk setiap input variable untuk mendapatkan gambaran mengenai probability distribution.
Untuk mengetahui lebih lanjut mengenai cara membaca atau membuat histogram anda dapat mengikuti tutorial di khan academy berikut ini
Dari gambar tersebut dapat disimpulkan bahwa 2 variable memiliki Gaussian distribution. Hal ini berguna karena kita dapat menggunakan machine learning algorithm yang bekerja bagus dengan tipe Gaussian distribution.
Untuk mengetahui lebih lanjut mengenai gaussian distribution anda dapat mengikuti tutorial di khanacademy.
https://www.khanacademy.org/math/probability/normal-distributions-a2
Multivariate Plot
Mari kita lanjutkan dengan melihat interaksi antar attribute/variable. Kita akan menggunakan scatter plot untuk pasangan semua attribute yang ada. Plot ini sangat baik digunakan untuk melihat relasi antar struktur dari variable masukan.
Kita dapat melihat bahwa terdapat struktur diagonal pada scatter plot beberapa attribute hal ini menunjukkan korelasi yang tinggi antar variable tersebut.
Pelajari scatter plot dari khan academy
Selanjutnya kita akan melanjutkan ke bagian yang paling menarik. Akhirnya kita akan melakukan evaluasi terhadap machine learning algorithm !!
Semakin menarik !
Cheers
kalau dataset.hist() tidak mau jalan
apa karena saya menggunakan anaconda 3.6