Sejarah dari Generative Pre-trained Transformer (GPT)


30 November 2022 merupakan sebuah tanggal yang bersejarah untuk perkembangan
Artificial Intelligence di dunia komputer. ChatGPT, sebuah chatbot yang menggunakan AI dari OpenAI, pertama kali diluncurkan kepada publik pada tanggal tersebut. Dalam beberapa hari saja, sudah ada sekitar 1 juta orang yang memakai ChatGPT. Kemunculannya pun membuat banyak perusahaan mulai ikut terjun ke dunia Chatbot ini, mulai dari Microsoft yang menggaet OpenAI untuk membuat BingAI, sampai Google pun juga meluncurkan Bard pada bulan Maret 2023. Namun, perkembangan ini tidak terjadi hanya dalam 1 malam saja, terdapat berbagai tahapan yang harus dilakukan untuk merangkai ChatGPT.

GPT atau Generative Pre-trained Transformer merupakan sebuah model bahasa besar yang diperkenalkan oleh OpenAI pada tahun 2018. GPT merupakan jaringan saraf tiruan yang berdasarkan arsitektur transformer, yang dilatih tanpa pengawasan pada kumpulan data besar tanpa label.. Teknik ini berbeda dengan teknologi yang sudah ada saat itu, dimana teknologi yang lain menggunakan pelatihan dengan pengawasan dari data-data yang dilabeli secara manual. GPT terdiri dari 4 iterasi, mulai dari GPT-1 hingga GPT-4.

Model pertama dari GPT adalah GPT-1. Diluncurkan pada 11 Juni 2018, GPT-1 dilatih menggunakan 2 tahapan yang disebut “Semi-Supervised” atau semi diawasi. Tahapan pertama adalah pelatihan awal yang tidak diawasi yang berguna untuk mendapat parameter awal. Lalu yang kedua adalah penyetelan halus yang diawasi untuk mengadaptasikan parameter yang sudah terbentuk kepada target tugasnya. GPT-1 menggunakan dataset dari BookCorpus yang berisikan 7000 buku berukuran 4.5 GB yang tidak dipublikasikan dan memakai struktur transformator khusus dekoder 12 lapis dengan masked self-attention untuk melatih kebahasaannya. Terdapat 117 juta parameter di GPT-1.

Model kedua dari GPT adalah GPT-2. Diluncurkan pada 14 Februari 2019, GPT-2 menggunakan arsitektur yang sudah dimodifikasi dari GPT-1 dan menggunakan dataset dan parameter yang jauh lebih banyak dibanding GPT-1. GPT-2 dilatih dengan teknik yang sama, namun GPT-2 berlatih dengan beberapa tugas secara bersamaan. GPT-2 menggunakan dataset dari WebText yang memiliki ukuran 40 GB yang berisikan 8 juta dokumen, yang membuat GPT-2 memiliki 1.5 miliar parameter.

Pada 11 Juni 2020, model ketiga GPT, yaitu GPT-3 diluncurkan. GPT-3 masih menggunakan arsitektur yang sama, namun dimodifikasi agar mampu mengakomodasi peningkatan dataset dan parameter. Betul saja, peningkatan GPT-3 dari GPT-2 sungguh pesat. Terdapat 175 miliar parameter di GPT-3 ini. Dataset yang diambil pun sangat besar, yaitu tulisan sebesar 570 GB yang terdiri dari Wikipedia, CommonCrawl, Webtext, Books1, dan Books2. GPT-3 mampu membuat kerjaan yang bahkan sulit dibedakan apakah pekerjaan itu dibuat oleh AI atau manusia. GPT-3 ini sendiri lalu diperbaiki kembali menjadi GPT-3.5, yang dilatih dengan RLHF (Reinforcement Learning from Human Feedback). GPT-3.5 inilah yang dipakai oleh ChatGPT.

GPT-4 merupakan versi terkini dari keluarga GPT. Diluncurkan pada 14 Maret 2023, GPT-4 merupakan babak baru dari perkembangan GPT. Untuk pertama kalinya, GPT-4 mampu menerima input dalam bentuk gambar. Sayangnya, tidak ada detail yang diberikan tentang jumlah parameter dan apa dataset yang dipakai. Namun, GPT-4 telah terbukti jauh lebih mampu melakukan tugasnya dibanding GPT-3.5. Terbukti bahwa GPT-4 mampu mengerjakan banyak ujian dengan hasil yang bisa dibilang memuaskan. Menarik untuk disimak bagaimana perkembangan lebih lanjut dari GPT-4.

Referensi:
https://en.wikipedia.org/wiki/Generative_pre-trained_transformer

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

https://en.wikipedia.org/wiki/ChatGPT

https://medium.com/walmartglobaltech/the-journey-of-open-ai-gpt-models-32d95b7b7fb2

https://asset-a.grid.id/crop/0x0:0x0/x/photo/2023/03/15/gpt-4jpg-20230315053400.jpg

Joshua Evans