Tech

ติดอยู่ในรายชื่อรอของ GPT-3 หรือไม่ ลองใช้ AI21 Jurassic-1

Transform Technology Summits เริ่มต้นวันที่ 13 ตุลาคมด้วย Low-Code/No Code: เปิดใช้งาน Enterprise Agility สมัครตอนนี้!


ในเดือนมกราคม 2020 OpenAI วาง กฎการสเกลของโมเดลภาษา: คุณสามารถปรับปรุงประสิทธิภาพของโมเดลภาษาประสาทโดยการเพิ่มข้อมูลการฝึก พารามิเตอร์โมเดลเพิ่มเติม และการคำนวณเพิ่มเติม ตั้งแต่นั้นมา มีการแข่งขันทางอาวุธเพื่อฝึกโครงข่ายประสาทเทียมขนาดใหญ่ขึ้นสำหรับการประมวลผลภาษาธรรมชาติ (NLP) และล่าสุดที่เข้าร่วมรายการคือ AI21 ที่มี โมเดลพารามิเตอร์ 178 พันล้าน

AI21 ประวัติและทีมผู้ก่อตั้ง

AI21 เป็นบริษัทสัญชาติอิสราเอลที่ก่อตั้งขึ้นในปี 2560 โดย Yoav Shoham, Ori Goshen และ Amnon Sashua ก่อนหน้านี้ Amnon ได้ก่อตั้ง Mobileye บริษัทเทคโนโลยีที่ขับเคลื่อนด้วยตัวเองซึ่งจดทะเบียนใน NYSE ซึ่ง Intel เข้าซื้อกิจการด้วยมูลค่า 15.4 พันล้านดอลลาร์ หลังจากอยู่ในสถานะล่องหนมาหลายปี AI21 ได้เปิดตัวผลิตภัณฑ์ตัวแรกคือ Wordtune ในปี 2020 เพื่อช่วยให้ผู้คนเขียนได้ดีขึ้น

เมื่อเดือนที่แล้ว บริษัท ประกาศว่าได้ฝึกอบรมและเปิดตัวสอง โมเดล NLP ขนาดใหญ่ Jurassic-1 Large และ Jurrasic-1 Jumbo ผ่านเว็บ UI แบบโต้ตอบที่เรียกว่า AI21 Studio

ตรงกันข้ามกับการเข้าถึงเบต้าแบบปิดของ OpenAI AI21 สร้างแบบจำลอง พร้อมให้ทุกคนทดลองใช้โดยไม่ต้องรอ ขนาดรุ่นและมาตรฐานประสิทธิภาพ

มีโมเดลที่ใหญ่กว่า — เช่น Chinese Wu Dao 2.0 ซึ่งมีขนาดใหญ่กว่า 10 เท่า พร้อมพารามิเตอร์ 1.75 ล้านล้าน . แต่ J-1 Jumbo ของ AI21 เป็นโมเดลภาษาอังกฤษที่ใหญ่ที่สุดที่เปิดให้บุคคลทั่วไปเข้าถึงได้

คำอธิบายภาพ: ขนาดพารามิเตอร์ GPT-3 เป็น ประมาณการไว้ที่นี่ GPT-Neo ตามที่รายงานโดย EleutherAI, J-1 ตามที่รายงานโดย AI21 หมายถึงรุ่นที่เป็นโอเพ่นซอร์ส

ศูนย์ ประสิทธิภาพของโมเดลช็อต ในการวัดประสิทธิภาพที่เป็นที่รู้จักสำหรับ J-1 Jumbo นั้นเทียบเท่ากับ GPT-3 Davinci ซึ่งเป็น OpenAI ที่ใหญ่ที่สุด รุ่น GPT-3 “Zero-shot” คือเวลาที่โมเดลไม่ได้รับการแจ้งเตือนพิเศษใดๆ และไม่มีการปรับแต่งข้อมูลการฝึกใดๆ ที่เฉพาะเจาะจงกับงาน คำบรรยายภาพ: การเปรียบเทียบการวัดประสิทธิภาพแบบ Zero-shot ตามที่รายงานโดย AI21. ตัวอย่าง

ในบทความที่แล้ว ฉันได้ยกตัวอย่างหลายตัวอย่างเพื่อ แสดงประสิทธิภาพในโลกแห่งความเป็นจริงของ GPT-Neo ให้เราตรวจสอบว่าแบบจำลองของ AI21 ทำงานได้ดีเพียงใดในทางปฏิบัติ

เสร็จสิ้นความเป็นจริง เริ่มต้นด้วยการถามคำถามเกี่ยวกับความรู้ทั่วไปเบื้องต้นเกี่ยวกับ Jurassic-1 ข้อความแจ้งของฉันต่อโมเดลมีให้ใน ตัวเอียง และการตอบสนองของโมเดลใน ตัวหนา .

สหรัฐอเมริกา ชนะ โอลิมปิก 2012 ได้กี่เหรียญ ? 104
##
สหรัฐอเมริกาชนะกี่เหรียญทองในการแข่งขันกีฬาโอลิมปิก 2016? 46

  • ##

    นั่นคือคำตอบที่ถูกต้อง!

    สิ่งที่โดดเด่น:

      โมเดลนี้ฉลาดพอที่จะเข้าใจความหมายของคำว่า “ทองคำ” ในคำถาม ในขณะที่ข้อความแจ้งกำลังพูดถึงเหรียญรางวัล

      1. J-1 Jumbo 178B ได้รับสิทธิ์นี้ แต่ J-1 Large 7.5B ไม่ทำ!
      2. ลองคำถามเดียวกันกับ 2021 O lympics ไม่ทำงาน (อาจเป็นเพราะโมเดลไม่ได้รับการฝึกฝนอย่างต่อเนื่องด้วยข้อมูลใหม่)

  • อันตรายต่อระบบประสาท! ก้าวไปอีกขั้นหนึ่ง แล้วกล่องโต้ตอบคำถาม-คำตอบสไตล์อันตรายล่ะ ขอบคุณคนดี ๆ ที่ Water Cooler Trivia (WCT) เรามีชุดคำถาม-คำตอบ เกณฑ์มาตรฐานของมนุษย์ และเกณฑ์มาตรฐานสำหรับ GPT-3 แล้ว

    ดำเนินการผ่าน 157 Jeopardy -สไตล์คำถาม WCT รุ่น J-1 Jumbo สามารถตอบได้อย่างแม่นยำ 55.4% ซึ่งเปรียบได้กับค่าเฉลี่ย 52% ของมนุษย์ที่ได้รับ WCT อย่างไรก็ตาม มันแย่กว่าอัตราความแม่นยำ 73% ของ GPT-3 อย่างเห็นได้ชัด

    สำหรับคำถาม “ง่าย” J-1 Jumbo ทำได้แย่กว่า GPT- สามเท่า 3. ในบรรดาคำถาม 58 ข้อที่ผู้เข้าร่วมเป็นมนุษย์ 90+% ถูก GPT-3 ผิด 4 ครั้ง แต่ J-1 ผิด 12 ครั้ง

    นี่คือบางส่วน ของคำถามที่ GPT-3 ถูก แต่ Jurassic-1 Jumbo ไม่ได้:

    Q: เดิมที พวกเขาถูกเรียกว่า Baby Gays จากนั้นพวกเขาก็รีแบรนด์เป็น Q-Tips โดยที่ Q ย่อมาจากคำว่าอะไรที่เกี่ยวข้องกับมาตรฐานระดับสูง?

      GPT-3: คุณภาพ
      AI21: ควอร์ต

      Q: แม้ว่าเพลงที่ได้รับความนิยมมากที่สุดในภาพยนตร์เรื่องนี้คือ “This Is Halloween” และชื่อตัวละครหลักคือ Jack Skellington ภาพยนตร์คลาสสิกลัทธิทิมเบอร์ตันปี 1993 ที่ได้รับการเสนอชื่อเข้าชิง วิชวลเอ็ฟเฟ็กต์ออสการ์รวมถึงวันหยุดอื่น ๆ ในชื่อภาพยนตร์หรือไม่

    1. GPT-3: ฝันร้ายก่อนวันคริสต์มาส


    AI21: สลีปปี้ฮอลโลว์ ภาพยนตร์ปี 1999 นำแสดงโดยจอห์นนี่ เดปป์, คริสติน่า ริชชี่, มิแรนดา ริชาร์ดสัน, แคสเปอร์

    เป็น คำถามนั้นยากขึ้น ทั้งสองรุ่นทำงานคล้ายกัน ในบรรดาคำถามที่ยากที่สุด 20 ข้อ GPT3 ผิด 13 ครั้ง และ Jurassic-1 ผิด 14 ครั้ง และคำตอบที่ไม่ถูกต้องทั้งเก้าของทั้งสองรุ่นก็เหมือนกัน กล่าวคือ ตัวแบบก็ผิดในลักษณะเดียวกัน!

    Q: สปูนเนอร์: สอง คำที่มีเสียงหรือตัวอักษรสลับกันเป็นคู่ เช่น อีกาหน้าแดงและตบอย่างแรง Spoonerism ใดที่อธิบายวัตถุทั้งสองนี้ สัตว์ปลอมตัวและอาหารมื้อใหญ่ปรุงในเตาอบ
    GPT-3: สัตว์ปลอมและอาหารจานใหญ่ปรุงในเตาอบ
    AI21: (1) สัตว์ปลอมและอาหารมื้อใหญ่ปรุงในเตาอบ (2) หุ่นจำลอง
    คำตอบที่ถูกต้อง: สัตว์ร้าย

    ถาม: Mario Lopez เป็นเจ้าภาพการแข่งขันเต้นรำเจ็ดฤดูกาลแรกของปี 2008 – 2012?
    GPT-3: เต้นรำกับดวงดาว
    AI21: เต้นรำกับดวงดาว
    คำตอบที่ถูกต้อง: ทีมเต้นที่ดีที่สุดของอเมริกา

    โมเดล J-1 บางครั้งคิดว่าตัวเองกำลังอยู่ในเกมโชว์ ซึ่งนำไปสู่ความสำเร็จที่สนุกสนานซึ่งเหมาะสมกับรายการเกมโชว์ (ได้คำตอบที่สองผิดหลังจากกลองม้วน):

    ถาม: เกมไพ่ประเภทใดที่“ หลุด” เป็นแบรนด์ของ Mattel ตั้งแต่ปี 1992 และมีการ์ดที่มีชื่อเช่น “Wild” และ “Reverse?
    AI21: อูโน่! อูโน่! อูโน่! อูโน่! อูโน่! อูโน่! UNO!
    คำตอบที่ถูกต้อง: Uno

    ถาม: ในเวอร์ชันล่าสุดของนักกีตาร์ที่ยิ่งใหญ่ที่สุดตลอดกาลของโรลลิงสโตน หมายเลข 5 เป็นชายที่มีชื่อและนามสกุลพยางค์เดียว ชายคนนี้เป็นหนึ่งในสามนักกีตาร์ของ The Yardbirds และเขาใช้เวลาหลายทศวรรษในการสำรวจเสียงกีตาร์ที่เป็นนวัตกรรมใหม่ เขาคือใคร?
    A21: (กลอง ได้โปรดเถอะ) Eric Clapton
    คำตอบที่ถูกต้อง: Jeff Beck

    สาเหตุที่เป็นไปได้สำหรับประสิทธิภาพการทำงานของ J1-Jumbo ต่ำ

    ฉันได้ทำการแก้ไขการทดสอบเล็กน้อย (บางรายการมี GPT- คำถาม & คำตอบของ 3 และบางส่วนไม่มี) และเกณฑ์มาตรฐานการให้คะแนนที่ดีที่สุดสำหรับ J1-Jumbo มาจาก “การตั้งค่าศูนย์” อย่างไรก็ตาม ตัวเลข GPT-3 ที่รายงานในที่นี้มาจากการตั้งค่า “ไม่กี่ช็อต” พร้อมพรอมต์ตัวอย่างที่ OpenAI ให้มา

    “Zero-shot” คือเมื่อโมเดล ไม่ได้รับข้อความแจ้งพิเศษใดๆ และ “ไม่กี่ช็อต” คือเมื่อมีตัวอย่างแจ้งแก่โมเดลที่แสดงงาน ตัวอย่างพรอมต์ในกรณีนี้จะเป็นกลุ่มของคู่คำถาม/คำตอบแบบสุ่ม ซึ่งจะช่วยให้โมเดลเข้าใจงานที่กำลังพยายามดำเนินการ เช่น ตอบคำถาม

    ข้อความถาม & ตอบที่ใช้สำหรับเกณฑ์มาตรฐาน GPT-3 มีแนวโน้มว่าจะได้รับการปรับแต่งและออกแบบสำหรับ ประสิทธิภาพสูงสุดกับรุ่นของ GPT-3 แต่ยังไม่มีข้อความแจ้งที่ปรับแต่ง “อย่างเป็นทางการ” สำหรับการถาม & ตอบสำหรับรุ่นของ AI21 วิศวกรรมการแจ้งเตือนที่สามารถแข่งขันกับเกณฑ์มาตรฐาน GPT-3 ดูเหมือนจะไม่ใช่เรื่องเล็กน้อย ฉันสังเกตว่าผลลัพธ์ที่สร้างขึ้นนั้นอ่อนไหวต่อการเปลี่ยนแปลงที่ดูเหมือนเล็กน้อยในข้อความแจ้ง เช่น บรรทัดว่างในตอนต้นของข้อความแจ้ง หรือการเว้นวรรคเพิ่มเติมที่ส่วนท้ายของแต่ละบรรทัดของข้อความแจ้ง หวังว่า AI21 จะนำเสนอชุดข้อความแจ้ง “ประสิทธิภาพดีที่สุด” ที่ละเอียดถี่ถ้วนเพื่อช่วยบรรเทาปัญหานี้

    คุณสามารถสำรวจการเปรียบเทียบแบบจำลองโดยละเอียด การตั้งค่าการทดสอบ และข้อมูลดิบ ที่นี่.

    การเขียนเชิงสร้างสรรค์

    ตอนนี้เรามาดูกันว่าโมเดลจะทำอย่างไรเมื่อพูดถึงการเขียนเชิงสร้างสรรค์ ฉันเลือกงานที่ค่อนข้างยาก — ช่วงเวลาหนึ่งเกี่ยวกับ Twitter ที่เขียนว่า Jerome K. Jerome ผู้ล่วงลับไปแล้ว Mario Klingemann ลองใช้ข้อความแจ้งนี้ก่อนด้วย GPT-3 และคุณสามารถเห็นการตอบสนอง GPT-3 ใน กระทู้นี้.

    ด้านล่างเป็นคำตอบโดย AI21 J-1 Jumbo (178B) . อีกครั้ง ข้อความอินพุตเป็นตัวเอียง และการตอบสนองของ J-1 เป็นตัวหนา:

    ความสำคัญของการอยู่บนทวิตเตอร์

  • โดย Jerome K. Jerome
    ลอนดอน ฤดูร้อน 1897

    มัน เป็นไปได้ว่าฉันสับสนลำดับเหตุการณ์
    เมื่อเรียนรู้พื้นฐานของการทวีตแล้วฉันก็กดต่อไป

  • และในไม่ช้าก็พบว่าตัวเอง ย้ายไปอยู่ในชั้นเรียนทวิตเตอร์

    ฉันรู้ทันทีว่าคนพวกนี้แตกต่างไปจาก
    ที่ฉันเคยรู้จักมาก่อน พวกเขาถูกเรียกว่า “ทวิตเตอร์” และ
    พวกเขาทวีต นั่นคือทั้งหมดที่ฉันรู้เกี่ยวกับพวกเขา

    พวกเขาเล่นทวิตเตอร์และเล่นทวิตเตอร์

    ตอนแรกฉันก็เล่นทวิตด้วย แต่ไม่นานฉันก็พบว่าฉัน

      ไม่สามารถอยู่ได้ด้วย Twitter เพียงอย่างเดียวและยิ่งไปกว่านั้น การสั่นไหวรบกวนธุรกิจที่จริงจังของชีวิต

      ดังนั้น ให้ยึดเอาความปรารถนาดีของประชาชนไว้ก่อน ที่รู้จักฉัน เมื่อก่อนผมเริ่มมองไปรอบๆบ้าง
      รูปแบบใหม่ของชีวิต พอเจอผู้ชายแต่งตัวเรียบร้อย
      และโฉบเฉี่ยว ด้วยซิการ์ในปากของเขา และนาฬิกาเรือนทอง
      ล่ามโซ่ไว้บนเสื้อกั๊กของเขา และแว่นสายตาของเขา ผมบอกเขาว่า “ท่านครับ อาชีพอะไรครับ” เขาพูดว่า, ” ฉันเป็นสุภาพบุรุษมืออาชีพ”

      ฉันพูดว่า “อะไรครับคุณ คุณเรียกตัวเองว่าสุภาพบุรุษเหรอ”

      เขาพูดว่า “ฉันเป็นทนายความ”

      ฉันยังลองใช้ข้อความแจ้งนี้กับรุ่น J1-Large 7.5B ด้วย หลังจากลองมาไม่กี่ครั้ง นางแบบก็ให้สิ่งที่ฉันคิดว่าเป็นงานสร้างสรรค์อย่างแท้จริง:

      ความสำคัญของการอยู่บนทวิตเตอร์
      โดย Jerome K. Jerome
      ลอนดอน ฤดูร้อน 2440

      มัน‘NS วันอาทิตย์ เรามาดื่มชากันเถอะ
      “ ฉันคิดว่า” ฉันพูด“ ว่าคุณกำลังทวีตอยู่”

    1. “ใช่แล้ว” เธอกล่าว “ฉันเล่นทวิตเตอร์ตลอดเวลา

      “ฉันทวิ เกี่ยวกับสภาพอากาศ

    2. “ ฉัน Twitter เกี่ยวกับผู้คน
      “ ฉันทวีตเกี่ยวกับหนังสือ

      “ ฉันทวีตเกี่ยวกับการเมือง

    3. “ ฉันพูดเกี่ยวกับศิลปะ
      “ ฉัน Twitter เกี่ยวกับทุกสิ่ง

      ฉันพบว่างานชิ้นนี้น่าประทับใจเพราะมันจัดการได้ ง ให้เขียนในภาษาที่ล้าสมัยด้วยร้อยแก้วที่มีจังหวะซึ่งจัดการเพื่อรักษาธีมโดยรวมของเครือข่ายสังคมออนไลน์ วิธีการ ลองใช้ Jurassic-1

      ซึ่งแตกต่างจาก GPT-3 ทุกคนสามารถเข้าถึง Jurassic-1 ได้ คุณสามารถเข้าถึงได้จาก AI21 studio (การสร้างบัญชีจำเป็นต้องมีการตรวจสอบหมายเลขโทรศัพท์)

      ระดับฟรีอนุญาตให้ใช้โทเค็น 10K ต่อวันสำหรับรุ่น Jurassic-1 178B และมากเป็นสามเท่าสำหรับรุ่น Jurassic-1 7.5B ที่เล็กกว่า นั่นก็เพียงพอแล้วที่จะลองใช้ UI ของเว็บ แต่ไม่เพียงพอที่จะใช้ API เพื่อเรียกใช้การทดสอบหรือการวัดประสิทธิภาพใดๆ

      AI21 จะทำการค้าโมเดลผ่าน ข้อเสนอที่เรียกว่า AI21 Studio ซึ่งขณะนี้อยู่ใน “เบต้าเปิดแบบจำกัด” บริษัทยังไม่ได้ประกาศรูปแบบการกำหนดราคาสำหรับการใช้งานเชิงพาณิชย์นี้ บรรทัดล่างสุด

      ประเด็นด้านความปลอดภัย จริยธรรม และอคติของ AI เป็นปัญหาที่เกี่ยวข้องกับแบบจำลองภาษาประสาท และ พวกเขายังคงอยู่กับรุ่นของ AI21 การเก็บปัญหาเหล่านั้นไว้ชั่วขณะ แบบจำลองของ AI21 ดูเหมือนจะมาแทนที่ GPT-3 ที่มีแนวโน้มดี อย่างไรก็ตาม พวกเขาล้าหลังในบางด้าน:

        พวกเขาขาดความสามารถในการใช้แบบจำลองเฉพาะเช่น “GPT -3 davinci-instruct” ซึ่งกระตุ้นให้ GPT-3 ปฏิบัติตามคำแนะนำที่ให้ไว้เป็นข้อความแจ้ง หรือ “GPT-3 codex” ที่เชี่ยวชาญด้านการเขียนโค้ด

    4. ระบบนิเวศ “พร้อมท์” ยังไม่โตเต็มที่เท่ากับ GPT-3 ข้อความแจ้งของ GPT-3 จำนวนมากไม่ได้แปลเป็น AI21 โดยตรง และยังไม่มีรายการข้อความแจ้ง “อย่างเป็นทางการ” โดยละเอียด

    5. AI21 ฟรี โควต้าโทเค็นมีข้อ จำกัด เกินไป และยังไม่มีการประกาศราคาตามการใช้งาน ซึ่งทำให้ยากต่อการวัดประสิทธิภาพหรือทำวิศวกรรมแบบทันท่วงที อย่างไรก็ตาม คุณสามารถเขียนถึงพวกเขาพร้อมคำอธิบายข้อกำหนดได้เสมอ และพวกเขายินดีที่จะเพิ่มโควต้า (เหมือนที่พวกเขาทำกับฉัน)

    6. อย่างไรก็ตาม มันยังเร็วมากสำหรับ AI21 เมื่อเวลาผ่านไป เราสามารถคาดหวังให้โมเดลภาษา AI21 เป็นทางเลือกที่ใช้งานได้แทนโมเดลภาษา OpenAI

      Abhishek Iyer เป็นผู้ก่อตั้ง ข้อความฟรี AI

      บริษัทที่เชี่ยวชาญด้านการทำเหมืองข้อความและการวิเคราะห์รีวิวของ Amazon.

      เวนเจอร์บีท

      ภารกิจของ VentureBeat คือการเป็นจัตุรัสกลางเมืองดิจิทัลสำหรับผู้มีอำนาจตัดสินใจด้านเทคนิคเพื่อรับความรู้เกี่ยวกับการเปลี่ยนแปลง เทคโนโลยีและการทำธุรกรรม ไซต์ของเราให้ข้อมูลที่จำเป็นเกี่ยวกับเทคโนโลยีข้อมูลและกลยุทธ์เพื่อเป็นแนวทางในการเป็นผู้นำองค์กรของคุณ เราขอเชิญคุณเข้าร่วมเป็นสมาชิกชุมชนของเราเพื่อเข้าถึง:

        ข้อมูลล่าสุดเกี่ยวกับเรื่องที่คุณสนใจ

      จดหมายข่าวของเรา

    7. ปิดกั้นเนื้อหาผู้นำทางความคิดและส่วนลดในการเข้าถึงกิจกรรมล้ำค่าของเรา เช่น แปลงร่าง 2021 : เรียนรู้เพิ่มเติม
    8. คุณสมบัติเครือข่าย และอื่น ๆ

      กลายเป็นสมาชิก

      จังหวัดตรังủ

    9. ธุรกิจ
    10. อาหาร ไลฟ์สไตล์ เทค พื้นที่การตลาดดิจิทัล (Digital marketing)

    Back to top button