Knowledge Scraping:
Pocket book:
Di zaman yang serba trendy ini, gawai merupakan salah satu produk yang telah menjadi prioritas tinggi dalam kebutuhan hidup. Dengan adanya gawai, terdapat berbagai kegunaan yang dapat lebih mempermudah berlangsungnya kegiatan, diantaranya dalam penyimpanan dan distribusi dokumen teks, gambar, audio, hingga video. Pada Modeling Report ini, manfaat yang difokuskan dari pentingnya penggunaan gawai yaitu sebagai media penunjang operasional bisnis demi meningkatkan produktivitas kerja. Menurut Kamus Besar Bahasa Indonesia, produktivitas adalah kemampuan untuk menghasilkan sesuatu; daya produksi; keproduktifan. Hal ini sejalan dengan knowledge laporan dari DataReportal, bahwa persentase kepemilikan laptop computer di Indonesia pada tahun 2021 adalah sebesar 74,7%. Oleh karena itu, jenis gawai yang dominan digunakan guna memenuhi kebutuhan tersebut adalah laptop computer.
Berdasarkan penelitian terhadap 156 responden Mahasiswa Strata 1 Universitas Brawijaya, laptop computer memegang peranan penting sebagai sarana penunjang pembelajaran. Beberapa faktor seperti harga laptop computer yang terjangkau (di kisaran 3 s.d. 5 juta Rupiah) dan ukuran layar 15 inci keatas menjadi bahan pertimbangan yang penting bagi para responden tersebut.
Adapun, manfaat yang diperoleh dari hasil Modeling Report ini diantaranya sebagai berikut:
- Menggali faktor-faktor yang dapat mempengaruhi tarif harga laptop computer.
- Membantu para calon pelanggan dalam mempertimbangkan keputusan untuk membeli laptop computer.
- Membantu para produsen laptop computer dalam memutuskan tarif harga laptop computer terhadap kompetitor dengan mengamati harga jual yang berada di pasaran.
Knowledge yang diolah untuk memenuhi Job goal pada bagian sebelumnya merupakan Laptop Sales Dataset yang diperoleh dari Flipkart menggunakan proses Net Scraping. Pada dataset tersebut, terdapat kolom knowledge berisi:
- model = merek dari produk laptop computer yang dijual di Flipkart.
- cpu = perangkat keras pemroses knowledge utama pada laptop computer.
- ram = komponen untuk menyimpan knowledge sementara ketika laptop computer sedang dijalankan.
- operating_system = sistem yang mengatur sumber daya dari perangkat keras dan perangkat lunak serta sebagai daemon untuk laptop computer.
- storage = perangkat keras untuk menyimpan knowledge dalam laptop computer.
- screen_size = ukuran layar laptop computer.
- profit = program promosi penjualan yang dijadikan sebagai suatu nilai tambah atau keuntungan dalam pembelian produk laptop computer.
- value = tarif harga yang ditetapkan oleh para produsen produk laptop computer (dalam satuan Rupee India sesuai dengan negara asal on-line retailer Flipkart).
Variabel dependen yang dinotasikan dengan y (goal variabel yang dituju) adalah kolom “value”, sedangkan variabel independen yang dinotasikan dengan X adalah faktor-faktor yang mempengaruhi y, yaitu kolom model, cpu, ram, operating_system, storage, screen_size, dan profit. Maka dari itu, perlu dilakukan regresi knowledge menggunakan enam algoritma yang meliputi Linear Regression, Okay-Nearest Neighbours, Gaussian Naïve Bayes, Help Vector Machine, Choice Tree, dan Random Forest.
Pada tahap awal, perlu dilakukan pengumpulan dataset dari sumber knowledge primer dengan menggunakan Net Scraping melalui coding berikut ini
Lalu, pengolahan knowledge diawali dengan import library yang dibutuhkan serta load sumber dataset
Berikutnya, menampilkan informasi berupa nilai dan tipe knowledge dari setiap column yang tersedia.
Terdapat tipe knowledge berupa Object (String) pada beberapa kolom, dimana seharusnya kolom-kolom tersebut lebih tepat menggunakan tipe knowledge Integer, yakni ram, screen_size, dan value. Maka, yang perlu dilakukan adalah dikonversi terlebih dahulu.
Berlanjut dengan menampilkan deskripsi dari masing-masing kolom tersebut. Terlihat bahwa kapasitas RAM paling besar adalah 16 GB, Display screen Measurement paling besar seukuran 17 inci, dan harga paling mahal yaitu 137.900 Rupee India (setara sekitar 26,1 juta Rupiah Indonesia).
Kemudian, melakukan pengecekan lacking worth. Tampak bahwa knowledge yang telah dilakukan Net Scraping tidak memiliki nilai yang kosong.
Selanjutnya, untuk memvisualisasikan penyebaran knowledge antarkolom dapat melalui Seaborn
Langkah pre-processing knowledge dimulai dengan melakukan label encoding.
Setelah encoding, dilakukan pengecekan kembali dan dapat terlihat bahwa tipe datanya telah berubah keseluruhan menjadi Integer.
Berikutnya, pemisahan dataset menjadi x dan y menggunakan loc.
Selanjutnya, dapat melangsungkan normalisasi knowledge numerik dengan MinMaxScaler()
Setelah dataset dibagi menjadi x = atribut dan y = class, kemudian dipisahkan menjadi knowledge coaching dan testing menggunakan train_test_split()
Modeling regresi dilakukan dengan 6 algoritma.
a. Linear Regression menggunakan LinearRegression(). Diperoleh hasil
- R² = 0.553996
- MAE = 10432.981456
- RMSE = 13057.525797
b. Okay-Nearest Neighbours menggunakan KNeighborsRegressor(n_neighbors=2). Diperoleh hasil
- R² = 0.998333
- MAE = 141.573034
- RMSE = 798.353040
c. Gaussian Naïve Bayes menggunakan GaussianNB(). Diperoleh hasil
- R² = 0.996360
- MAE = 164.847512
- RMSE = 1179.567894
d. Help Vector Machine menggunakan SVR(kernel=’rbf’). Diperoleh hasil
- R² = 0.000816
- MAE = 14403.659625
- RMSE = 19544.044363
e. Choice Tree menggunakan DecisionTreeRegressor(). Diperoleh hasil
- R² = 0.998949
- MAE = 139.336506
- RMSE = 633.921272
f. Random Forest menggunakan RandomForestRegressor(n_estimators=100, random_state=32). Diperoleh hasil
- R² = 0.998948
- MAE = 140.784423
- RMSE = 634.034898
Berdasarkan proses modeling yang telah dilakukan, diperoleh komparasi sebagai berikut
Untuk evaluasi regresi, metrik yang digunakan adalah
- R² digunakan sebagai koefisien yang menentukan proporsi varians dalam variabel dependen yang dapat dipengaruhi oleh variabel independen. R² menunjukkan tingkat kecocokan knowledge terhadap mannequin.
- MAE (Imply Absolute Error) digunakan untuk mengukur rata-rata selisih mutlak nilai aktual dalam satu set prediksi.
- RMSE (Root Imply Sq. Error) digunakan untuk menunjukkan kesalahan prediksi mannequin rata-rata. Besaran nilainya meningkat seiring dengan jumlah kesalahan dari prediksi mannequin.
Dapat disimpulkan bahwa algoritma Choice Tree merupakan pilihan terbaik untuk kebutuhan regresi knowledge dengan goal variabel “value” pada Laptop computer Gross sales Dataset tersebut. Sebaliknya, algoritma Help Vector Machine menjadi pilihan yang terburuk.
Daftar Pustaka:
Hasil Pencarian — Kbbi daring. (n.d.). Retrieved December 12, 2022, from https://kbbi.kemdikbud.go.id/entri/produktivitas
Iqbal, M., & Suryadi, N. (n.d.). Perilaku Pembelian Laptop computer Oleh Mahasiswa strata 1 universitas brawijaya malang. Jurnal Ilmiah Mahasiswa FEB. Retrieved December 12, 2022, from https://jimfeb.ub.ac.id/index.php/jimfeb/article/view/1180
Kemp, S. (2021, November 4). Digital in Indonesia: All of the statistics you want in 2021 — DataReportal — world digital insights. DataReportal. Retrieved December 12, 2022, from https://datareportal.com/reports/digital-2021-indonesia