Di dunia chatbot AI generative saat ini, kita telah menyaksikan munculnya tiba-tiba ChatGPT dari OpenAI yang diperkenalkan pada bulan November, diikuti oleh Bing Chat pada bulan Februari dan Bard dari Google pada bulan Maret.
Kami memutuskan untuk menempatkan chatbot-chatbot ini dalam berbagai tugas untuk menentukan mana yang paling unggul di arena chatbot AI.
Karena Bing Chat menggunakan teknologi GPT-4 yang mirip dengan model ChatGPT terbaru, kami memilih untuk fokus pada dua raksasa teknologi chatbot AI, yaitu OpenAI dan Google.
Kami menguji ChatGPT dan Bard dalam tujuh kategori kritis: Dad jokes, dialog argumentasi, masalah matematika kata, ringkasan, pengambilan fakta, penulisan kreatif, dan pemrograman.
Untuk setiap uji coba, kami memberikan instruksi yang sama persis (yang disebut “prompt”) ke ChatGPT (dengan GPT-4) dan Google Bard. Kami menggunakan hasil pertama, tanpa memilih-milih.
Perlu dicatat bahwa versi ChatGPT berbasis model GPT-3.5 yang lebih awal juga tersedia, tetapi kami tidak menggunakannya dalam pengujian ini.
Karena kami hanya menggunakan GPT-4, kami akan merujuk pada ChatGPT sebagai “ChatGPT-4” dalam artikel ini untuk mengurangi kebingungan.
Tentu saja, ini bukanlah studi ilmiah dan dimaksudkan sebagai perbandingan yang menyenangkan tentang kemampuan chatbot.
Hasil dapat bervariasi antara sesi karena unsur acak, dan evaluasi lebih lanjut dengan prompt yang berbeda akan menghasilkan hasil yang berbeda
Juga, kemampuan model-model ini akan berubah dengan cepat dari waktu ke waktu karena Google dan OpenAI terus meningkatkannya. Tetapi untuk saat ini, inilah keadaan pada awal April 2023.
Daftar Isi
Dad jokes
Untuk memanaskan kontes kecerdasan kami, kami meminta ChatGPT dan Bard untuk menulis beberapa lelucon. Dan karena puncak komedi dapat ditemukan dalam bentuk Dad jokes, kami ingin tahu apakah kedua chatbot bisa membuat beberapa lelucon yang unik.
Prompt: Tulis 5 Dad jokes yang orisinal.
Benj Edwards / Ars Technica
Dari lima Dad jokes dari Bard, kami menemukan tiga di antaranya sama persis di internet dengan pencarian Google. Salah satu contohnya (tentang “anggur”) setengah diambil dari lelucon Mitch Hedberg di tweet, tetapi kata-katanya disalahgunakan dengan permainan kata yang disayangkan dan tidak ingin kami coba terjemahkan.
Dan mengherankan, ada satu lelucon yang tampaknya orisinal (tentang siput) yang tidak dapat kami temukan di tempat lain, tetapi tidak masuk akal.
Sementara itu, kelima lelucon ayah dari ChatGPT-4 tidak sama sekali orisinal, semuanya diambil sepenuhnya dari sumber lain, tetapi disampaikan dengan tepat.
Karena lelucon ayah seharusnya lebih banyak menyebabkan grogi daripada pintar, tampaknya Bard lebih unggul dari ChatGPT-4 di sini.
Bard juga mencoba membuat lelucon orisinal (sesuai instruksi kami), meskipun beberapa gagal secara memalukan (seperti layaknya ayah), bahkan sampai mengalami kesalahan tak disengaja (juga seperti ayah).
Pemenang: Bard
Dialog Argumen
Salah satu cara untuk menguji chatbot AI modern adalah dengan memintanya untuk mengasumsikan peran orang-orang yang membahas suatu topik.
Dalam hal ini, kami memberi makan Bard dan ChatGPT-4 salah satu topik yang paling penting di zaman kita: PowerPC versus Intel.
Prompt: Tulis debat 5 baris antara penggemar prosesor PowerPC dan penggemar prosesor Intel, sekitar tahun 2000.
Pertama, mari kita pertimbangkan respons Bard.
Lima baris dialog yang dihasilkannya tidak terlalu dalam dan tidak menyebutkan detail teknis yang spesifik untuk chip PowerPC atau Intel di luar umpatan generik.
Selain itu, dialog berakhir dengan “Penggemar Intel” setuju untuk tidak setuju, yang tampak sangat tidak realistis dalam subjek yang melahirkan jutaan perang api.
Sebaliknya, respons ChatGPT-4 menyebutkan chip PowerPC yang digunakan dalam komputer Apple Macintosh, melemparkan istilah seperti “arsitektur x86 Intel” dan “arsitektur berbasis RISC” PowerPC.
Bahkan, ia menyebutkan Pentium III, yang merupakan detail yang realistis untuk tahun 2000. Secara keseluruhan, argumennya jauh lebih rinci daripada hasil keluaran Bard, dan mungkin yang paling akurat, percakapannya tidak sampai pada kesimpulan – mengisyaratkan pertempuran yang tak pernah berakhir yang kemungkinan masih berlangsung di beberapa kuartal di Internet.
Pemenang: ChatGPT-4
Untuk masalah matematika
ChatGPT-4 dan Bard diuji dengan soal cerita gaya sekolah dasar. Kami memberikan masalah ini kepada masing-masing bot.
Pertanyaan: Jika Microsoft Windows 11 dikirimkan dalam disket 3,5 inci, berapa banyak disket yang dibutuhkan?
ChatGPT-4 memberikan jawaban yang tepat: “It would take approximately 183,708 floppy disks to ship Windows 11.” Ini adalah jawaban matematis yang akurat untuk masalah tersebut.
Sementara itu, Bard memberikan jawaban yang jauh dari akurat, “It would take 93,567 floppy disks to ship Windows 11.” Jawaban ini salah secara matematis dan jelas tidak masuk akal.
Pemenang: ChatGPT-4