Augmentasi data
Bagian dari seri |
Pemelajaran mesin dan Penggalian Data |
---|
![]() |
}
Augmentasi data (bahasa Inggris: data augmentation) adalah teknik statistik yang memungkinkan estimasi maximum likelihood (peluang maksimum) dari data yang tidak lengkap.[1][2] Teknik ini memiliki peran penting dalam analisis Bayes[3] dan banyak digunakan dalam pemelajaran mesin untuk mengurangi overfitting saat melatih model[4] yang dicapai dengan melatih model menggunakan beberapa salinan data yang telah dimodifikasi secara halus dari data asli.
Teknik oversampling sintetis untuk pemelajaran mesin tradisional
suntingSynthetic Minority Over-sampling (SMOTE) adalah metode yang digunakan untuk mengatasi ketidakseimbangan data dalam pemelajaran mesin. Pada dataset yang seperti itu, jumlah sampel di setiap kelas berbeda jauh sehingga kinerja model cenderung bias. Misalnya, dalam dataset diagnosis medis yang memiliki 90 sampel orang sehat dan hanya 10 sampel pasien dengan penyakit tertentu, model algoritma tradisional akan mungkin kesulitan mengklasifikasikan kelas minoritas dengan akurat.
SMOTE mengatasi masalah tersebut dengan menghasilkan sampel sintetis untuk kelas minoritas. Sebagai contoh, jika ada 100 sampel di kelas mayoritas dan 10 sampel di kelas minoritas, SMOTE akan membuat sampel baru dengan memilih secara acak satu sampel kelas minoritas beserta tetangganya yang terdekat. Setelah itu, SMOTE akan membuat sampel baru di sepanjang garis yang menghubungkan sampel-sampel tersebut. Proses ini membantu meningkatkan representasi kelas minoritas sehingga membantu meningkatkan kinerja model.[5]
Augmentasi data untuk klasifikasi citra
suntingSaat jaringan saraf konvolusional mulai berkembang pesat pada pertengahan tahun 1990-an, ketersediaan data masih sangat terbatas, apalagi mengingat sebagian data harus disisihkan untuk pengujian. Untuk mengatasi hal ini, parap peneliti mengusulkan metode modifikasi data yang ada dengan transformasi afin untuk menghasilkan contoh baru dengan label yang sama.[6] Pendekatan ini kemudian diperkuat dengan penggunaan distorsi elastis pada tahun 2003.[7] Teknik ini menjadi sangat popler dan banyak digunakan sejak 2010-an.[8] Selain mampu meningkatkan kinerja CNN, augmentasi data juga berfungsi sebagai langkah perlindungan terhadap serangan profiling yang menargetkan CNN.[9]
Augmentasi data kini menjadi elemen penting dalam klasifikasi citra, yaitu dengan memperkaya variasi dataset pelatihan untuk meningkatkan kemampuan generalisasi dan kinerja model. Seiring perkembangannya, praktik ini telah menghadirkan berbagai teknik yang luas, termasuk transformasi geometris, penyesuaian ruang warna, dan penambahan derah (noice injection).[10]
Transformasi Geometris
suntingTransformasi geometris mengubah properti spasial gambar untuk mensimulasikan berbagai perspektif, orientasi, dan skala. Beberapa teknik yang umum digunakan meliputi:
- Rotasi: Memutar gambar dengan derajat tertentu untuk membantu model mengenali objek pada berbagai sudut.
- Pembalikan: Mencerminkan gambar secara horizontal atau vertikal untuk menambahkan variasi orientasi.
- Pemotongan (Cropping): Menghapus bagian-bagian gambar untuk memfokuskan pada fitur tertentu atau mensimulasikan tampilan yang lebih dekat.
- Translasi: Menggeser gambar ke berbagai arah yang berbeda agar model mampu memahami objek tanpa terpengaruh oleh posisi.
Transformasi Ruang Warna
suntingTransformasi ruang warna mengubah properti warna pada citra untuk mengatasi variasi pencahayaan, saturasi warna, dan kontras. Teknik-teknik yang umum digunakan meliputi:
- Penyesuaian Kecerahan: Mengubah tingkat kecerahan citra untuk mensimulasikan berbagai kondisi pencahayaan.
- Penyesuaian Kontras: Mengatur kontras agar model dapat mengenali objek dengan tingkat kejelasan yang berbeda-beda.
- Penyesuaian Saturasi: Mengubah saturasi warna untuk mengajarkan model menghadapi citra dengan intensitas warna yang beragam.
- Color Jittering: Menyesuaikan kecerahan, kontras, saturasi, dan rona secara acak untuk menambahkan variasi warna pada citra.
Penambahan derau (noice injection)
suntingPenambahan derau pada citra mensimulasikan ketidaksempurnaan di dunia nyata sehingga model dapat belajar untuk mengabaikan variasi yang tidak relevan. Teknik-teknik yang umum digunakan meliputi:
- Derau Gaussian: Menambahkan derau Gaussian untuk meniru derau dari sensor atau efek butiran pada citra.
- Salt and Paper noice: Menyisipkan piksel hitam atau putih secara acak untuk mensimulasikan debu pada sensor atau piksel mati .
Augmentasi data untuk pemrosesan sinyal
suntingPendayasahajaan residual atau blok dapat digunakan untuk augmentasi deret waktu.
Sinyal biologis
suntingAugmentasi data sintetis sangat penting untuk klasifikasi pemelajaran mesin, khususnya untuk data biologis yang cenderung berdimensi tinggi dan sulit diperoleh. Analisis dalam aplikasi kontrol robotik dan augmentasi pada subjek disabilitas dan non-disabilitas masih banyak bergantung pada pendekatan spesifik per individu. Kelangkaan data sangat terasa dalam permasalahan pemrosesan sinyal, seperti pada sinyal elektromiografi pada penderita penyakit Parkinson, yang sumbernya memang sulit untuk didapatkan. Zanini, dkk. mencatat bahwa penggunaan jaringan adversarial generatif (khususnya, DCGAN), memungkinkan proses style transfer untuk menghasilkan sinyal elektromiografi sintetis yang merepresentasikan karakteristik sinyal dari para penderita Penyakit Parkinson.[11]
Pendekatan-pendekatan ini juga penting dalam elektroensefalografi (rekaman gelombang otak). Wang, dkk. mengeksplorasi ide penggunaan jaringan saraf konvolusional dalam (deep CNN) untuk pengenalan emosi berbasis EEG. Hasil penelitian mereka meunjukkan bahwa penggunaan augmentasi data berhasil meningkatkan akurasi dalam mengenali emosi.[12]
Salah satu pendekatan umum adalah menghasilkan sinyal sintetis adalah dengan mengatur ulang komponen dari data asli. Lotte [13] mengusulkan sebuah metode “Artificial Trial Generation Based on Analogy” yang memiliki tiga contoh data yang lalu digunakan untuk menghasilkan data buatan yang adalah bagi . Sebuah transformasi kemudian dilakukan pada untuk menjadikannya lebih mirip pada . Lalu, transformasi yang sama kemudian diterapkan pada yang menghasilkan . Pendekatan ini terbukti meningkatkan kinerja pengklasifikasi Analisis Diskriminan Linear (Linear Discriminant Analysis atau LDA) pada tiga dataset yang berbeda.
Penelitian terkini menunjukkan bahwa teknik sederhana sekalipun dapat memberikan dampak signifikan. Misalnya, Freer [14] mengamati bahwa penambahan derau pada data yang telah berhasil dikumpulkan untuk menghasilkan titik-titik data tambahan dapat meningkatkan kemampuan pemelajaran beberapa model yang sebelumnya berkinerja buruk. Tsinganos, dkk.[15] meneliti pendekatan magnitudo warping, dekomposisi wavelet, dan model EMG permukaan sintetis (pendekatan generatif) untuk pengenalan gerakan tangan. Hasilnya menunjukkan peningkatan kinerja klasifikasi hingga +16% ketika data tambahan diperkenalkan selama pelatihan.
Baru-baru ini, penelitian augmentasi data mulai berfokus pada bidang pemelajaran mendalam, khususnya pada kemampuan model generatif untuk menciptakan data buatan yang kemudian dimasukkan ke dalam pelatihan model klasifikasi. Pada tahun 2018, Luo, dkk.[16] menemukan bahwa data sinyal EEG yang berguna dapat dihasilkan oleh Conditional Wasserstein Generative Adversarial Networks (GANs). Ketika data sintetis ini ditambahkan ke dalam set pelatihan dalam kerangka train-test klasik, performa klasifikasi mengalami peningkatan yang signifikan.
Sinyal mekanis
suntingPrediksi sinyal mekanis berbasis augmentasi data membuka jalan bagi teknologi generasi baru, seperti pengelolaan energi baru, bidang komunikasi 5G, dan rekayasa kontrol robotika.[17] Pada tahun 2022, Yang, dkk.,[17] mengintegrasikan constraints (kendala), optimisasi, dan kontrol ke dalam kerangka jaringan deep learning yang didukung oleh augmentasi data dan pemangkasan data (data pruning) dengan mempertimbangkan korelasi data ruang-waktu (spatio-temporal data correlation). Pendekatan ini berhasil meningkatkan interpretabilitas, keamanan, dan kemampuan pengendalian deep learning dalam proyek industri nyata melalui penggunaan persamaan pemrograman matematis eksplisit dan solusi analitis.
Lihat juga
suntingReferensi
sunting- ^ Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). "Maximum Likelihood from Incomplete Data Via the EM Algorithm". Journal of the Royal Statistical Society. Series B (Methodological). 39 (1): 1–22. doi:10.1111/j.2517-6161.1977.tb01600.x. Diarsipkan dari versi asli tanggal 2022-10-10. Diakses tanggal 2024-08-28.
- ^ Rubin, Donald (1987). "Comment: The Calculation of Posterior Distributions by Data Augmentation". Journal of the American Statistical Association. 82 (398). doi:10.2307/2289460. JSTOR 2289460. Diarsipkan dari versi asli tanggal 2024-08-07. Diakses tanggal 2024-08-28.
- ^ Jackman, Simon (2009). Bayesian Analysis for the Social Sciences. John Wiley & Sons. hlm. 236. ISBN 978-0-470-01154-6.
- ^ Shorten, Connor; Khoshgoftaar, Taghi M. (2019). "A survey on Image Data Augmentation for Deep Learning". Mathematics and Computers in Simulation. springer. 6: 60. doi:10.1186/s40537-019-0197-0.
- ^ Wang, Shujuan; Dai, Yuntao; Shen, Jihong; Xuan, Jingxue (2021-12-15). "Research on expansion and classification of imbalanced data based on SMOTE algorithm". Scientific Reports (dalam bahasa Inggris). 11 (1): 24039. Bibcode:2021NatSR..1124039W. doi:10.1038/s41598-021-03430-5. ISSN 2045-2322. PMC 8674253 Periksa nilai
|pmc=
(bantuan). PMID 34912009 Periksa nilai|pmid=
(bantuan). - ^ Yann Lecun; et al. (1995). Learning algorithms for classification: A comparison on handwritten digit recognition (Conference paper). nyuscholars.nyu.edu. World Scientific. hlm. 261–276. Diakses tanggal 14 May 2023.
- ^ Simard, P.Y.; Steinkraus, D.; Platt, J.C. (2003). "Best practices for convolutional neural networks applied to visual document analysis". Seventh International Conference on Document Analysis and Recognition, 2003. Proceedings. 1. hlm. 958–963. doi:10.1109/ICDAR.2003.1227801. ISBN 0-7695-1960-1.
- ^ A bot will complete this citation soon. Click here to jump the queue"Improving neural networks by preventing co-adaptation of feature detectors". 2012. MISSING LINK. .
- ^ Cagli, Eleonora; Dumas, Cécile; Prouff, Emmanuel (2017). "Convolutional Neural Networks with Data Augmentation Against Jitter-Based Countermeasures: Profiling Attacks Without Pre-processing". Dalam Fischer, Wieland; Homma, Naofumi. Cryptographic Hardware and Embedded Systems – CHES 2017. Lecture Notes in Computer Science (dalam bahasa Inggris). 10529. Cham: Springer International Publishing. hlm. 45–68. doi:10.1007/978-3-319-66787-4_3. ISBN 978-3-319-66787-4.
- ^ Shorten, Connor; Khoshgoftaar, Taghi M. (2019-07-06). "A survey on Image Data Augmentation for Deep Learning". Journal of Big Data. 6 (1): 60. doi:10.1186/s40537-019-0197-0. ISSN 2196-1115.
- ^ Anicet Zanini, Rafael; Luna Colombini, Esther (2020). "Parkinson's Disease EMG Data Augmentation and Simulation with DCGANs and Style Transfer". Sensors. 20 (9): 2605. Bibcode:2020Senso..20.2605A. doi:10.3390/s20092605. ISSN 1424-8220. PMC 7248755 . PMID 32375217.
- ^ Wang, Fang; Zhong, Sheng-hua; Peng, Jianfeng; Jiang, Jianmin; Liu, Yan (2018). "Data Augmentation for EEG-Based Emotion Recognition with Deep Convolutional Neural Networks". MultiMedia Modeling. Lecture Notes in Computer Science. 10705. hlm. 82–93. doi:10.1007/978-3-319-73600-6_8. ISBN 978-3-319-73599-3. ISSN 0302-9743.
- ^ Lotte, Fabien (2015). "Signal Processing Approaches to Minimize or Suppress Calibration Time in Oscillatory Activity-Based Brain–Computer Interfaces" (PDF). Proceedings of the IEEE. 103 (6): 871–890. doi:10.1109/JPROC.2015.2404941. ISSN 0018-9219. Diarsipkan dari versi asli (PDF) tanggal 2023-04-03. Diakses tanggal 2022-11-05.
- ^ Freer, Daniel; Yang, Guang-Zhong (2020). "Data augmentation for self-paced motor imagery classification with C-LSTM". Journal of Neural Engineering. 17 (1): 016041. Bibcode:2020JNEng..17a6041F. doi:10.1088/1741-2552/ab57c0. ISSN 1741-2552. PMID 31726440.
- ^ Tsinganos, Panagiotis; Cornelis, Bruno; Cornelis, Jan; Jansen, Bart; Skodras, Athanassios (2020). "Data Augmentation of Surface Electromyography for Hand Gesture Recognition". Sensors. 20 (17): 4892. Bibcode:2020Senso..20.4892T. doi:10.3390/s20174892. ISSN 1424-8220. PMC 7506981 . PMID 32872508.
- ^ Luo, Yun; Lu, Bao-Liang (2018). "EEG Data Augmentation for Emotion Recognition Using a Conditional Wasserstein GAN". 2018 40th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC). 2018. hlm. 2535–2538. doi:10.1109/EMBC.2018.8512865. ISBN 978-1-5386-3646-6. PMID 30440924.
- ^ a b Yang, Yang (2022). "Wind speed forecasting with correlation network pruning and augmentation: A two-phase deep learning method". Renewable Energy. 198 (1): 267–282. arXiv:2306.01986 . Bibcode:2022REne..198..267Y. doi:10.1016/j.renene.2022.07.125. ISSN 0960-1481.