Голем јазичен модел

Од Википедија — слободната енциклопедија

Голем јазичен модел (ГЈМ)јазичен модел заснован на невронска мрежа што се одликува со голем број параметри, кои често достигнуваат милијарди тежински коефициенти или повеќе. Овие модели се обучуваат преку ненадгледувано учење на огромни обеми необележан текст. Појавата на таквите модели, покажана со значителен напредок околу 2018 г., означува преобразувачка промена во истражувањето за обработка на природни јазици. ГЈМ-и, како BERT (двонасочни енкодерски претставувања од преобразувачи), покажале забележителна сеопфатност, извонредни во разновидна низа задачи.[1][2] Ова отстапување од традиционалниот обучен пристап на специјализирани надгледувани модели за различни задачи ја преобликувало средината на истражувањето за обработка на природни јазици, поттикнувајќи пообединета и поприлагодлива парадигма во таа област.[3]

Истакнати примери ги опфаќаат GPT-моделите на OpenAI, како што се GPT-3.5 и GPT-4, употребени во примени како ChatGPT. PaLM на Google (користен во Bard), и LLaMA на Meta се дополнителни значајни примери. Понатамошни придонеси вклучуваат BLOOM, Ernie 3.0 Titan и Anthropic's Claude 2, секој од нив покажува напредок во големите јазични модели и ги одразува различните напори за подобрување на разбирањето и создавањето природни јазици низ технолошката индустрија.

Користење на алатки[уреди | уреди извор]

Одредени задачи претставуваат својствени предизвици за големите јазични модели (ГЈМ-и), задачи кои, во принцип, може да бидат нерешливи без прибегнување кон надворешни алатки или дополнителен софтвер. Јасен пример за таква задача е одговарањето на внесување на корисникот како „354 * 139 =“ — особено ако ГЈМ не наишол на продолжување на оваа пресметка за време на неговата обука. Во такви случаи, ГЈМ можеби ќе треба да го повика програмскиот код за да ја изврши пресметката и да го вклучи исходот во својот одговор. Друго сценарио е кога ќе се соочи со прашање како: „Колку е часот сега? Сега е...“, каде што би бил потребен различен програмски толкувач за извршување на код за добивање на системското време на сметачот, дозволувајќи му на големиот јазичен модел да ги вклучи овие информации во својот одговор.[4][5] Оваа основна стратегија може да се усоврши со повеќекратни обиди за создавање програми и други стратегии за земање примероци за справување со такви сложени предизвици.[6]

Наводи[уреди | уреди извор]

  1. Merritt, Rick (2022-03-25). „What Is a Transformer Model?“. NVIDIA Blog (англиски). Посетено на 2023-07-25.
  2. „Better Language Models and Their Implications“. OpenAI. 2019-02-14. Архивирано од изворникот 2020-12-19. Посетено на 2019-08-25.
  3. „Human Language Understanding & Reasoning“. American Academy of Arts & Sciences (англиски). 2022-04-13. Посетено на 2024-01-09.
  4. Gao, Luyu; Madaan, Aman; Zhou, Shuyan; Alon, Uri; Liu, Pengfei; Yang, Yiming; Callan, Jamie; Neubig, Graham (2022-11-01). "PAL: Program-aided Language Models". arXiv:2211.10435 [cs.CL]. 
  5. „PAL: Program-aided Language Models“. reasonwithpal.com. Посетено на 2023-06-12.
  6. Paranjape, Bhargavi; Lundberg, Scott; Singh, Sameer; Hajishirzi, Hannaneh; Zettlemoyer, Luke; Tulio Ribeiro, Marco (2023-03-01). "ART: Automatic multi-step reasoning and tool-use for large language models". arXiv:2303.09014 [cs.CL]. 

Надворешни врски[уреди | уреди извор]