Sebelum bicara panjang lebar tentang apa itu Data Science hingga Machine Learning, ada baiknya kita mengenal lebih dulu terkait tipe data. Kenapa harus mengenal tipe data?
Mengenali tipe data itu seperti mengenal kepribadian orang, terlebih mengenal gebetan. Kita harus tau kepribadian gebetan dulu sebelum kita mengajak komunikasi, mau ngasih kado hingga mau mengenalkan ke orang tua. Layaknya gebetan, data juga harus dikenali karena akan berkaitan dengan komputasi, model hingga visualisasi. Tidak semua komputasi cocok dengan tipe data tertentu, terlebih dengan visualisasi.
Disebut dengan data kategori atau kualitatif karena data tersebut memiliki informasi dekriptif. Contoh paling mudah ketika bicara data jenis kelamin, data anak pintar, ranking kelas dan lain-lain. Data Kategori sendiri dibagi menjadi 3 (tiga) jenis, diantaranya adalah data binomial, data nominal dan data ordinal.
- Data binomial
Data yang memiliki 2 (dua) pilihan jawaban, bisa dikategorikan sebagai data binomial. Sebagai contoh data jenis kelamin, yang hanya memiliki jawaban pria atau wanita. Contoh lainnya adalah baik-buruk, ya-tidak, untuk koin bisa berupa kepala-ekor, sukses-gagal dan lain sebagainya. - Data nominal
Data kategori dengan informasi yang tidak berurutan. Ciri data nominal, posisi datanya setara dan tidak bisa dilakukan operasi matematika. Contohnya data warna (merah, hijau putih, kuning, dll), olahraga (basket, sepak bola, voli, dll), bunga (mawar, melati, anggrek, dll), dan lain sebagainya. - Data ordinal
Berbeda dengan data nominal, data ordinal berupa data kategori dengan informasi yang berurutan dan diantara data tersebut dapat berhubungan. Ciri data ordinal, posisi datanya tidak setara dan tidak bisa dilakukan operasi matematika. Contoh paling mudah yaitu data ukuran (kecil, sedang, besar), data ranking (juara 1, juara 2, juara 3), data rating (bintang 1, bintang 2, bintang 3), data pendidikan (sd, smp, sma) dan lain sebagainya.
Disebut dengan daya numerik atau data kuantitatif karena data tersebut memiliki variabel berupa bilangan atau angka. Data numerik sendiri memiliki 2 (dua) jenis, yaitu data diskrit dan data kontinyu.
- Data diskrit
Data yang bersifat putus-putus, dan bukan dalam bentuk bilangan pecahan. Data ini diperoleh dengan cara menghitung, contoh nya adalah data jumlah penduduk, data penjualan suatu barang, data jumlah suara dalam pemilihan umum dan lain sebagainya. - Data kontinyu
Data yang bersifat berkelanjutan, bisa dalam bentuk pecahan. Data ini diperoleh cara mengukur. Data kontinyu sendiri dibagi menjadi 2 (dua) jenis yaitu data interval dan data rasio.
Data interval
Data dimana jarak antar dua titik pada skala, sudah diketahui dan titik nol nya tidak pasti. Cirinya tidak ada kategorisasi atau pemberian kode seperti terjadi pada data nominal dan ordinal, juga bisa dilakukan operasi matematika. Contohnya temperatur, bisa diukur dalam Celcius atau Fahrenheit, dimana masing-masing memiliki skala sendiri.
Celcius dengan titik beku 0 derajat dan titik didih 100 derajat. Skalanya jelas, 100–0 = 100 derajat. Sedangkan Fahrenheit, titik beku pada 32 derajat dan titik didih pada 212. Skalanya jelas, 212–32= 180 derajat.
Data rasio
Data yang diperoleh dengan cara pengukuran, dimana jarak dua titik pada skala sudah diketahui, dan mempunyai titik nol yang absolut. Hal yang paling mendasar membedakan data rasio dan data interval adalah data rasio dapat dibandingkan karena titik nolnya absolut untuk skala apapun. Contohnya gaji, berat beras, panjang penggaris dan lain sebagainya. Misal perbandingan, gaji Adi 2 juta sedangkan gaji Amir 4 juta. Jelas bahwa gaji Amir 2 kali dari gaji Adi.