00:00

Evolution of ChatGPT: From GPT-1 to GPT-4

The evolution of ChatGPT, a powerful chatbot based on OpenAI's GPT models, from GPT-1 to GPT-4 is discussed, highlighting the strengths and weaknesses of each version. Starting from GPT-1 in 2018 to the latest GPT-4 in 2023, improvements in parameters, capabilities, and functionalities are detailed. The chatbot's Transformer architecture, training data sources, and advancements in natural language processing are also explored.

alegri
Download Presentation

Evolution of ChatGPT: From GPT-1 to GPT-4

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Amine Karabila Matrikel Nr. 6611011 Cem Yenal Matrikel Nr. 6620866 Sandip Singh Nijher Matrikel Nr. 6608778 ChatGPT Johann Wolfgang Goethe-Universität, Frankfurt am Main Institut für Informatik Seminar: Künstliche Intelligenz Seminarleitung: Prof. Dr. Manfred Schmidt-Schauß Masterstudiengang Informatik 28. Mai 2024

  2. Gliederung 1. Natural Language Processing 5. ChatGPT – Herausforderungen und Grenzen - Limitationen und Einschränkungen - Ethische und rechtliche Aspekte - Datenschutz und Sicherheit 2. Verlauf der GPT-Serie 3. ChatGPT - Version 1 - Version 2 6. Fazit 4. ChatGPTs Transformerarchitektur - Vorherige Modelle - Aufbau der Transformerarchitektur 28. Mai 2024 2 / 72

  3. Motivation & Zielsetzung - ChatGPT im „hype“ - Aber… Was ist ChatGPT? - Ziel: Hintergründe beleuchten 28. Mai 2024 3 / 72

  4. Natural Language Processing 28. Mai 2024

  5. Natural Language Processing ? ? Menschenähnliche Konversation Komplexe Dialoge Turing-Test 28. Mai 2024 5 / 72

  6. Turing-Test - Alan Turing - Idee kam im Jahr 1950 - 1956 ausformuliert B A - Bestanden, wenn 30% der Richter sich vom Computer fünf Minuten lang täuschen lassen ? ? C 28. Mai 2024 6 / 72

  7. Verlauf der GPT-Serie 28. Mai 2024

  8. Verlauf der GPT-Serie 2021 2022 2023 2018 2019 2020 GPT-1 GPT-2 GPT-3 GPT-3.5 GPT-4 28. Mai 2024 8 / 72

  9. GPT-1 - Veröffentlicht im Jahr 2018 - Stärken:  komplexe Zusammenhänge konnten erfasst werden - Transformer Architektur - Schwächen  wiederholende Antworten  langfristige Abhängigkeiten im Text nicht nachverfolgen - Stellte andere Modelle in den Schatten - 117 Millionen Parameter - Generierung von zusammenhängender und kohärenter Sprache - Trainingsdaten: Common Crawl & BookCorpus 28. Mai 2024 9 / 72

  10. GPT-2 - Veröffentlicht im Jahr 2019 - Stärken: kohärente und zusammenhängende Texte erzeugen - 1.5 Milliarden Parameter - Schwächen komplexeren Aufgaben und Verstehen von Kontexten - Generierung von realistischer und kohärenter Sprache - Trainingsdaten: Common Crawl, BookCorpus &Webtexten - Wichtiges Tool durch menschenähnliche Antworten 28. Mai 2024 10 / 72

  11. GPT-3 - Veröffentlicht im Jahr 2020 - Fähigkeiten  Fragen beantworten, übersetzen, Texte vervollständigen uvm. - 175 Milliarden Parameter - Schwächen unangebrachte oder ungenaue Antworten - Mehrere verschiedene Datenquellen - Anspruchsvolle Antworten - zero-shot - one-shot - few-shot 28. Mai 2024 11 / 72

  12. GPT-3 zu GPT-3.5 (vgl. Fu 2023) 28. Mai 2024 12 / 72

  13. GPT-3.5 - Veröffentlicht im Jahr 2022 - Weiterentwicklung von GPT-3 - Drei Modelle mit 1.3 Milliarden, 6 Milliarden und 175 Milliarden Parametern - Reinforcement Learning mit menschlichem Feedback konnte ChatGPT trainiert werden 28. Mai 2024 13 / 72

  14. GPT-4 - Veröffentlicht im Jahr 2023 - Von OpenAI keine näheren Informationen - Multimodales Modell – Input: Text & Bild - Trainingsdaten wie bei GPT-3.5 - Spekulation 100 Billionen Parameter - 40% eher sachlich richtige Angaben - ChatGPT-2 28. Mai 2024 14 / 72

  15. ChatGPT 28. Mai 2024

  16. Version 1 - 30. November 2022 - Chatbot - Kostenlose Version - Eine Million Registrierungen in den ersten fünf Tagen - Erfolgsrezept  beeindruckende Antworten  Barrierefrei  natürliche und flüssige Konversationen vgl. Brandl et al. 2023 - Januar 2023: ChatGPT Pro 28. Mai 2024 16 / 72

  17. Version 2 - ChatGPT Pro - Zehn Milliarden US Dollar Deal mit Microsoft - Leistungsfähiger, präziser und verfügt über eine höhere Verarbeitungskapazität - Keine Information zur kommerziellen Nutzung - Weiterentwicklungen/ Möglichkeiten 28. Mai 2024 17 / 72

  18. ChatGPTs Transformerarchitektur 28. Mai 2024

  19. Die Machine-Learning-Methode vgl. Wuttke o.D 28. Mai 2024 19 / 72

  20. Recurrent Neural Networks (RNN) - "Recurrent Neural Networks" war ein Durchbruch im Machine Learning - Entwickelt im Jahre 1986 - Wegen fehlendem Fortschritt in der Rechenleistung und dem verfügbaren Datenumfang unpopulär 28. Mai 2024 20 / 72

  21. Recurrent Neural Networks (RNN) -Aufbau Antikes Griechenland ??+ ??= ?? Pythagoras Wie lautet die Formel für den Satz des Pythagoras? Aus welchem Land kam er? vgl. Li 2019 28. Mai 2024 21 / 72

  22. ChatGPT - Beispiel: Formel des Pythagoras 28. Mai 2024 22 / 72

  23. Long Short-Term Memory Networks (Aufbau) - Ct: Zellzustand (Cell State) - Ht: Versteckter Zustand (Hidden State) - xt: Eingabe (Input) - Ct-1: Vorheriger Zellzustand (Previous Cell State) vgl. Esmail o.D. 28. Mai 2024 23 / 72

  24. Long Short-Term Memory Networks (Aufbau) - Eingabe - Gates - Aktualisierung des Zellzustands - Aktualisierung des versteckten Zustands - Aussagen treffen vgl. Esmail o.D. 28. Mai 2024 24 / 72

  25. Transformerarchitektur Historie - 2017 veröffentlicht auf der „NeurIPS“ - Transformer weisen hierbei eine bessere Effizienz gegenüber Long-Short-Term-Memory- Architekturen auf - Grundarchitektur vieler vortrainierter Machine-Learning-Modelle  BERT  GPT 28. Mai 2024 25 / 72

  26. Bilder zur NeurIPS vgl. Hao 2019 28. Mai 2024 26 / 72

  27. Transformerarchitektur Historie - 2017 veröffentlicht auf der „NeurIPS“ - Transformer weisen hierbei eine bessere Effizienz gegenüber Long-Short-Term-Memory- Architekturen auf - Grundarchitektur vieler vortrainierter Machine-Learning-Modelle  BERT  GPT 28. Mai 2024 27 / 72

  28. Was ist der Transformer ? Hello, how are you? Hello, how are you? Hallo, wie geht es dir? Hallo, wie geht es dir? Englisch-Wörterbuch vgl. Doshi 2021 vgl. Doshi 2021 28. Mai 2024 28 / 72

  29. Aufbau der Transformerarchitektur Teil 1 Prompt: Übersetzte „You are welcome“ ins Spanische. vgl. Sarkar 2022 vgl. Doshi 2021 28. Mai 2024 29 / 72

  30. Embedding und Position Encoding vgl. Doshi 2021 28. Mai 2024 30 / 72

  31. Aufbau der Transformerarchitektur Teil 2 vgl. Sarkar 2022 vgl. Doshi 2021 28. Mai 2024 31 / 72

  32. Parameter der Attention vgl. Doshi 2021 28. Mai 2024 32 / 72

  33. Was bewirkt die Aufmerksamkeit? Die Katze trinkt die Milch , weil Sie durstig war. Die Katze trank die Milch, weil sie süß war. Die Die Die Die Katze Katze Katze Katze trinkt trank trinkt trank die die die die Milch Milch Milch Milch weil weil weil weil Sie Sie Sie Sie durstig süß durstig süß war war war war vgl. Doshi 2021 Auszug aus einem Beispiel 28. Mai 2024 33 / 72

  34. Recurrent Neural Networks (RNN) -Aufbau Antikes Griechenland ??+ ??= ?? Pythagoras Wie lautet die Formel für den Satz des Pythagoras? Aus welchem Land kam er? vgl. Li 2019 28. Mai 2024 34 / 72

  35. Was bewirkt die Aufmerksamkeit? Die Katze trinkt die Milch , weil Sie durstig war. Die Katze trank die Milch, weil sie süß war. Die Die Die Die Die Die Die Katze Katze Katze Katze Katze Katze Katze trinkt trank trinkt trank trinkt trinkt trinkt die die die die die die die Milch Milch Milch Milch Milch Milch Milch weil weil weil weil weil weil weil Sie Sie Sie Sie durstig süß durstig süß Sie Sie Sie war war war war durstig durstig durstig war war war Auszug aus einem Beispiel vgl. Doshi 2021 28. Mai 2024 35 / 72

  36. Parameter der „Decoder-Attention“ vgl. Doshi 2021 28. Mai 2024 36 / 72

  37. Parameter der „Encoder-Decoder-Attention“ vgl. Doshi 2021 28. Mai 2024 37 / 72

  38. Die „Multi-headAttention“ vgl. Doshi 2021 28. Mai 2024 38 / 72

  39. Die „Attention Masks“ vgl. Doshi 2021 28. Mai 2024 39 / 72

  40. Parameter der Attention vgl. Doshi 2021 28. Mai 2024 40 / 72

  41. Die „Attention Masks“ vgl. Doshi 2021 28. Mai 2024 41 / 72

  42. Aufbau der Transformerarchitektur Teil 3 Output: „De Nada“ vgl. Doshi 2021 28. Mai 2024 42 / 72

  43. Ein “Output“ generieren Teil 1 vgl. Doshi 2021 28. Mai 2024 43 / 72

  44. Ein “Output“ generieren Teil 2 vgl. Doshi 2021 28. Mai 2024 44 / 72

  45. Ein “Output“ generieren Teil 3 vgl. Doshi 2021 28. Mai 2024 45 / 72

  46. Das Training des Transformers vgl. Doshi 2021 28. Mai 2024 46 / 72

  47. Ein Maskierungsbeispiel vgl. Doshi 2021 28. Mai 2024 47 / 72

  48. Das Training des Transformers vgl. Doshi 2021 28. Mai 2024 48 / 72

  49. Das Trainieren der Verlustfunktion Zielsequenz: „De nada END“ vgl. Doshi 2021 28. Mai 2024 49 / 72

  50. ChatGPT – Herausforderungen und Einschränkungen 28. Mai 2024

More Related