Spatial data science merupakan subset dari data science. Sedangkan data science sendiri merupakan bidang studi yang menggabungkan ilmu komputer, statistik dan domain knowledge untuk mengekstraksi data guna memberikan insight dan pengetahuan yang bermakna bagi organisasi. Seorang data scientist melakukan eksplorasi data, meningkatkan kualitas data, membangun algoritma machine learning dan menjalankan proses komputasi untuk memodelkan data berbentuk angka, teks, gambar, video, audio, dan lainnya sehingga menghasilkan sistem kecerdasan buatan (artificial intelligence/AI) untuk melakukan tugas secara otomatisasi. Endingnya, proses ini menghasilkan insight yang dapat diterjemahkan manajemen organisasi dalam meng-improve decision dan strategi operasional secara presisi dan prediktif.

Maka, spatial data science adalah keilmuan tentang data dengan menggabungkan disiplin ilmu komputer, statistik, domain knowledge dan geospasial. Spatial data science dijalankan dengan metodologi analitik data, data mining, machine learning hingga deep learning guna memberikan insight geospasial atas suatu problem pada domain knowledge (core business) dan peningkatan pengambilan keputusan/kebijakan suatu organisasi. Spatial data science sebagai bagian dari data science berfokus pada pengenalan pola karakteristik entitas berbasis geospasial dengan menggunakan model analisis deskriptif atau prediktif terhadap variabel geolokasi, autokorelasi spasial, hingga variabel time-series (temporal). Spatial data science menjadikan geolokasi, jarak, dimensi dan interaksi spasial sebagai variabel utama dari dataset menggunakan model algoritma dan proses komputasi untuk menganalisis, visualisasi data, membangun model machine learning dan pada tingkatan yang lebih tinggi berupa geospatial artificial intelligence (Geo-AI).

Spatial data science melakukan ekstraksi informasi dan pengetahuan geospasial yang lebih dalam menggunakan serangkaian metode analitik dan algoritma spasial yang komprehensif, termasuk machine learning dan teknik deep learning. Secara teknis, aktivitas utama spatial data science adalah menjalankan pipeline eksplorasi dan ekstraksi data guna menyingkap pola tersembunyi dan pemodelan prediktif dari suatu dataset yang berbasis geospasial. Secara umum algoritma yang dikembangkan spatial data science terbagi menjadi 3 jenis yakni supervised learning, unsupervised learning, dan reinforcement learning.

Fenomena big data dengan karekteristik 4V yakni volume (ukuran data), variety (variasi jenis data), velocity (kecepatan pertumbuhan data), dan veracity (kualitas dan konfidensi data) menjadi faktor utama meningkatnya minat terhadap kompetensi dan profesi data science, seperti data scientist, data analyst, data engineer, data architect, machine learning engineer, dan lain-lain. Hal ini karena hampir di seluruh organisasi baik swasta maupun pemerintah tengah memberikan perhatian lebih kepada data-data yang mereka miliki untuk memberikan kontribusi dan benefit dalam pencapaian yang lebih tinggi atas tujuan dan visi organisasi. Sehingga kultur organisasi bertransformasi menjadi data-driven organization, yakni sebuah organisasi yang digerakkan oleh insight, penalaran, decision dan policy berbasis data.

Beberapa tahapan dalam spatial data science adalah spatial data engineering, exploratory spatial data analysis (ESDA), dan machine learning modeling. Spatial data engineering merupakan tahapan data pre-processing dengan melakukan transformasi feature data (feature engineering), cleaning data, dimensionality reduction, feature selection/extraction, agregasi data dan visualisasi distribusi data. ESDA adalah tahapan data pre-processing dengan melakukan eksplorasi dan investigasi atas data, memahami kedalaman dan keluasan data (dimensi data), melihat pola sebaran data spasial, mengukur level kualitas dan validitas data, dan membaca nilai korelasi atas semua variabel yang ada dalam dataset sehingga siap untuk dibawa ke tahap berikutnya yaitu machine learning modeling.

Machine learning modeling adalah tahapan inti dari spatial data science dengan terlebih dahulu mendefinisikan data train, data test dan data validation. Kemudian dilakukan pemodelan dengan algoritma tertentu berdasarkan kebutuhan analitik seperti klasifikasi, clustering, forecasting, estimasi dan asosiasi. Beberapa jenis model algoritma yang digunakan diantaranya regresi, random forest, K-means clustering, K-nearest neighbor (KNN), support vector machine (SVM), Naive Bayes, convolutional neural network (CNN), dan lain-lain. Platform yang populer digunakan dalam spatial data science adalah Anaconda (Jupyter Notebook) dan Google Colab dengan bahasa Python, atau R Studio dengan bahasa R, dan bisa juga dengan UI tools seperti RapidMiner, GeoDa, WeKa, Orange, ArcGIS Pro, dan lain-lain.

……………..

Mahmudi, alumni Teknik Geodesi UGM angkatan 1998. Antusias di bidang geospasial, data science, deep learning dan business intelligence. Sepanjang 2011 – 2021 sebagai konsultan IT di Komisi Pemberantasan Korupsi (KPK). Dan saat ini berkiprah sebagai technical advisor di Bapenda DKI Jakarta.

Comment

tulisan lainnya

Membangun Metaverse Majapahit dengan CRP (Close Range Photogrammetry) dan Drone

04.09

Siapa yang tidak kenal Majapahit? Kerajaan, atau tepatnya Kemaharajaan Majapahit karena saking besarnya wilayah

  • No React!

Geo-Intelligent Big Data menggunakan Teknologi Imaging

01.09

Imajing adalah platform smart mobile mapping system yang menggunakan teknologi geospasial 3D berbasis multi-sensor,

  • No React!