Kisah Inspiratif Founding Partner Alleco, Perempuan Yang Dirikan Firma Hukum Untuk Bantu Sukseskan UMKM Indonesia
Maret 9, 2022Kuliah Tamu: Komunikasi Untuk Pembangunan Berkelanjutan
Maret 10, 2022Tangerang – Masih dalam rangkaian Tetris Program, yang merupakan program DQLab yang menawarkan kesempatan untuk belajar data science secara intensif dan meraih kesempatan magang dan berkarir. Di Sesi#1 kali ini DQLab mengundang pembicara Iqbal Hanif selaku Big Data Analytics di Telkom Indonesia, yang akan menjelaskan materi tentang mengapa ETL (Extract Transform Load) dibutuhkan untuk mengelola data secara produktif. Di hari pertama ini, Iqbal akan menjelaskan detail tentang ETL untuk bekal praktek di sesi selanjutnya. Rangkaian program ini dilaksanakan secara daring, pada Kamis, 3 Maret 2022. Diharapkan melalui Tetris Program, peserta mendapatkan bekal ilmu data science untuk berkarir kedepannya.
Sebagai pengantar materi, Iqbal menjelaskan big data merupakan kontributor terbesar dalam data analytics. Menurutnya, big data memungkinkan perusahaan untuk mengumpulkan data sebanyak-banyaknya, sehingga pemikiran perusahaan mengarah pada pengolahan data agar lebih efektif. Big data memiliki karakter 5V, yakni volume, velocity, variety, veracity dan value. Dalam prosesnya, big data akan diproses menjadi sebuah dashboard. Prosesnya biasa disebut data engineering, salah satu komponennya adalah ETL.
ETL adalah singkatan dari extract, transform dan load. Yang pertama extract, proses ekstraksi dan pengumpulan data dari berbagai sumber data, seperti database, website, aplikasi, file, APIs, sensor dan lain sebagainya. Kedua transform, proses menyaring, mengolah dan menggabungkan data yang relevan agar menjadi data yang bersih dan berkualitas. Ada beragam proses transformasi yang dapat dilakukan, seperti casting/changing data type, calculating, agregating, selecting column/attribute, splitting, merging, standardizing/cleansing, joining/look up dan lain-lain. Ketiga load, proses mengirimkan data akhir yang sudah siap digunakan ke sebuah database, yang tujuannya adalah data warehouse (data lake) dan data mart.
“Proses extract itu tidak simple, perlu pendekatan yang berbeda-beda, karena data yang beragam,” ujar Iqbal.
Sebelum masuk ke pentingnya ETL, Iqbal mengawali pembahasan dengan OLTP (Online Transaction Processing) dan OLAP (Online Analytical Processing). OLTP berfokus pada transaksi, sedangkan OLAP berfokus pada analisa data bervolume besar. OLTP memiliki karakteristik seperti mengandalkan transaksi, prosesnya cepat, banyak tabel dengan ukuran kecil, tidak membutuhkan waktu yang lama dan normalisasi. Sedangkan OLAP memiliki karakteristik sebagai berikut; mengandalkan data, prosesnya relatif lama, tabel sedikit dengan ukuran besar, membutuhkan waktu yang lama dan denormalisasi. Iqbal juga memberi contoh gambaran tabel normalisasi dan denormalisasi.
Baca juga Mahasiswa Non IT Juga Bisa Belajar Machine Learning Lho!
Selanjutnya, Iqbal menjelaskan arsitektur data analytics. Berawal dari data ETL yang mencangkup customer, inventory, credit, sales, operation dan external, lalu semuanya digabung dan disimpan di data warehouse. Kemudian data warehouse dipecah berdasarkan bidang, ada marketing data mart, finance data mart dan distributor data mart. Data mart diolah BI dengan OLAP agar menghasilkan reports yang mudah dimengerti stakeholder.
Data warehouse adalah suatu database yang berisi integrasi dari seluruh sumber data yang ada pada satu organisasi/perusahaan, sehingga semua laporan diambil dari sana. Data warehouse memiliki beberapa karakteristik, yakni datanya banyak, subjectnya banyak, ukurannya besar (>100GB), waktu implementasinya berbulan-bulan bahkan bertahun-tahun. Sedangkan data mart adalah subset dari data warehouse untuk mendukung analisa/reporting suatu unit, bagian atau operasi di perusahaan. Karakteristik data mart, yaitu datanya sedikit, subjectnya single, ukuran data kecil (<100 GB) dan waktu implementasinya hanya beberapa bulan.
ETL berperan dalam mengekstrak data agar tidak mengganggu proses di operasional, mengumpulkan (rekap) data secara historis di data warehouse, memperbaiki kualitas data hingga dapat digunakan untuk analisis/reporting dan membuat proses analisis/reporting (OLAP) menjadi lebih optimal.
“ETL penting untuk mengambil data dan mengubah data tersebut agar bisa digunakan Data Scientist atau Data Analyst,” ucap Iqbal.
Iqbal memperkenalkan tiga jenis data, yakni terstruktur, semi terstruktur dan tidak terstruktur. Terstruktur memiliki ciri-ciri, berbentuk tabular, mudah dipahami manusia, kaku, diterapkan di beberapa sistem, seperti customer relationship management (CRM) & Enterprise Resource Planning (ERP). Sedangkan semi terstruktur mempunyai ciri-ciri, memiliki key dan value, terstruktur namun tidak kaku, bukan bentuk yang mudah dipahami, diterapkan dalam pengembangan aplikasi dan API. Dan tidak struktur memiliki ciri-ciri, punya banyak bentuk seperti teks, files, gambar, video, dan email, serta ekstraksi data perlu metode khusus.
Setelah pembahasan jenis data, berlanjut membahas tools. Iqbal membagi tools menjadi dua, yakni graphical user interface (GUI) dan command line interface (CUI). Dalam GUI, disebutkan Pentaho, Talend, Azure Data Factory, SQL Server dan lain-lain. Sedangkan CUI mencangkup Python, R, SQL, php, Scala dan lain sebagainya. Menurut Iqbal, tools GUI mudah dipakai dan mudah diinterpretasikan, namun relatif lambat dan beberapa fitur tidak digratiskan/berbayar. Sedangkan CUI, toolsnya memiliki keunggulan lebih cepat dan open source, namun harus belajar bahasa pemrograman/belajar coding dan sulit diinterpretasikan.
Sebagai bekal untuk sesi selanjutnya, sebelum menutup sesi#1 ini, Iqbal memberikan panduan instalasi Pentaho untuk Windows dan MacOS.
Melalui Tetris Program, DQLab memberi bekal kepada talenta data untuk berkarir di industri data sesungguhnya, dengan memberikan kesempatan beasiswa dan magang. Begitu pula dengan program DQLab lainnya, yang bisa kamu akses di DQLab.id.
*by Lathifa Lisa | DQLab
Kuliah di Jakarta untuk jurusan program studi Informatika| Sistem Informasi | Teknik Komputer | Teknik Elektro | Teknik Fisika | Akuntansi | Manajemen| Komunikasi Strategis | Jurnalistik | Desain Komunikasi Visual | Film dan Animasi | Arsitektur | D3 Perhotelan , di Universitas Multimedia Nusantara. www.umn.ac.id