Bahas Karir dan Karya di Dunia Arsitek, HIMARS UMN Adakan Webinar bersama Pendiri Biro Desain LABO
April 12, 2022Yuk Mahasiswa Kenalan dengan R, Salah Satu Tools Data Science
April 19, 2022Tangerang – Melanjutkan pembahasan Python untuk pemula, DQLab dan Kominfo memberikan materi tentang Data Quality with Python for Beginner. Pada materi ini, DQLab dan Kominfo bertujuan mengenalkan kepada pemula, konsep dasar dalam data quality menggunakan Python, karena hal ini menjadi bagian paling penting dalam proses pre-analysis. Sehingga, dengan kepercayaan penuh DQLab dan Kominfo menghadirkan pembicara Shella Theresya Pandiangan selaku Data Scientist di United Tractor. Live session ini diadakan secara daring pada 4 April 2022.
Shella memulai pembahasan dengan pengertian Data quality. Data quality adalah ukuran dari kondisi data berdasarkan faktor akurasi, kelengkapan, konsistensi, reliabilitas dan mutakhir. Mengukur tingkat data quality dapat membantu mengidentifikasi kesalahan data yang perlu diselesaikan dan menilai data pada sistem TI sesuai atau tidak untuk memenuhi tujuan yang dimaksud.
“Kunci data dapat dikatakan baik adalah akurasi data. Sehingga sebelum mengolah data atau melakukan pemodelan, ada baiknya teman-teman memahami data yang dimiliki,” ujar Shella.
Data quality berada pada proses sebelum feature engineering, yakni data pre-processing dan Exploratory Data Analysis (EDA). Seperti yang sudah dijelaskan sebelumnya, EDA adalah pendekatan statistik yang bertujuan untuk menemukan dan meringkas sebuah dataset, serta mengetahui struktur dan hubungan antar variabel dalam dataset. Pada proses ini mencangkup data cleansing dan data profiling.
Data cleansing adalah proses mengidentifikasi bagian data yang salah, tidak lengkap, tidak akurat, tidak relevan atau hilang, kemudian dimodifikasi, diganti atau dihapus sesuai kebutuhan. Ketika ingin menerapkan data quality, beberapa hal yang harus diperhatikan adalah missing value, duplikasi data, anomaly dan outlier, data type, data type correction dan feature extraction.
“Sebelum melakukan cleansing, sebaiknya teman-teman tahu data operation,” kata Shella.
Baca juga Semua Jurusan Bisa Belajar Python untuk Jadi Praktisi Data Pemula yang Profesional
Dalam data operation, terdapat selection, filtering, addition, deletion, rename dan sorting. Selection adalah pemilihan data yang relevan terhadap analisis untuk diterima dari koleksi data yang ada. Filtering digunakan untuk menyaring data berdasarkan kriteria tertentu. Addition digunakan untuk menambahkan data pada kolom atau baris. Deletion artinya untuk menghapus data dari kolom. Rename digunakan untuk mengganti nama data. Terakhir, sorting digunakan untuk mengurutkan data.
Pembahasan berikutnya, Shella memberikan penjelasan tentang basic function Pandas. Yang pertama, ada head untuk menampilkan beberapa data teratas. Sedangkan kebalikannya adalah tail, untuk menampilkan beberapa data terbawah. Selanjutnya, ada describe digunakan untuk menampilkan informasi count, mean, standard deviation, minimum, maximum dan number of percentiles. Biasanya describe ini digunakan untuk data-data yang bersifat numerik. Berlanjut ke data frame yang bisa digunakan untuk menampilkan fungsi statistik, berupa mean atau min.
Untuk melihat data quality, Data Engineering harus melakukan pengecekan missing values dengan menerapkan .isnull() jika datanya berupa NaN dan .notnull() jika datanya tidak mengandung NaN. .isnull() artinya melakukan pengecekan missing value apakah ada, sedangkan .notnull() artinya melakukan pengecekan tidak adanya missing value. Namun, keduanya memiliki tujuan yang sama, yakni melakukan pengecekan terhadap missing valuenya.
“.isnull() dan .notnull() ini berlawan ya teman-teman,” ungkap Shella.
Materi tersebut menjadi pembahasan terakhir pada sesi ini. Dalam sesi ini, Shella juga memberikan beberapa penerapan langsung materi-materi yang telah ia jelaskan. Untuk menjadi seorang praktisi data, dibutuhkan keahlian bahasa pemrograman, salah satunya Python. Untuk memulainya, bisa belajar python untuk pemula terlebih dahulu hanya di DQLab.
*by Agnes Nurlisa | DQLab
Kuliah di Jakarta untuk jurusan program studi Informatika| Sistem Informasi | Teknik Komputer | Teknik Elektro | Teknik Fisika | Akuntansi | Manajemen| Komunikasi Strategis | Jurnalistik | Desain Komunikasi Visual | Film dan Animasi | Arsitektur | D3 Perhotelan , di Universitas Multimedia Nusantara. www.umn.ac.id