Skip to main content

Efficient Memory Management for Large Language Model Serving with PagedAttention

· 16 min read
Jisu Lim
AI Engineer

대형 언어 모델(LLM) 성능 향상을 위한 저메모리 솔루션인 vLLM에 대한 심층적인 설명을 제공합니다. 특히 PagedAttention 알고리즘을 활용하여 메모리 관리의 비효율성을 극복하고 자원을 최적화하며, 처리량을 2-4배 향상시킬 수 있는 방법을 알아볼 수 있습니다. 이를 통해 LLM 서비스의 운영 비용을 줄이고 효율성을 높이는 방법을 배울 수 있으며, 최신 기술적 접근 방식에 대한 통찰을 제공합니다.

효율적인 메모리 관리는 대형 언어 모델의 성능에 큰 영향을 미친다.

LaMDA: Language Models for Dialog Applications

· 5 min read
Jisu Lim
AI Engineer

LaMDA is a family of Transformer- based neural language models specialized for dialog, which have up to 137B parameters and are pre-trained on 1.56T words of public dialog data and web text.
The first challenge, safety, involves ensuring that the model’s responses are consistent with a set of human values, such as preventing harmful suggestions and unfair bias.

YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for Everyone

· 8 min read
Jisu Lim
AI Engineer

Abstract

YOURTTS는 multilingual approach to the task of zero-shot multi-speaker TTS. 이 모델은 VITS[Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech] 기반으로 zero-shot multi-speaker와 multilingual 학습을 위해서 몇몇 수정을 거친 모델이다. 그래서 zero-shot multi-speaker TTS에 sota를 달성했다. 그리도 VCTK 데이터셋에서 zero-shot voice convention 에서도 SOTA를 달성했다. 그리고 single-speaker dataset에서도 promising results이다. 또한 1분 미만의 데이터에서도 voice similarity와 합리적인 퀄리티를 보였다.

Few-Shot Question Answering by Pretraining Span Selection (Splinter)

· 2 min read
Jisu Lim
AI Engineer

We explore the more realistic few-shot setting, where only a few hundred training examples are available, and observe that standard models perform poorly, highlighting the discrepancy between current pretraining objectives and question answering.
We propose a new pretraining scheme tailored for question answering: recurring span selection. Given a passage with multiple sets of recurring spans, we mask in each set all recurring spans but one, and ask the model to select the correct span in the passage for each masked span.

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

· 2 min read
Jisu Lim
AI Engineer

ELECTRA : PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

Masked language modeling(MLM)들은 일반적으로 많은 양의 계산을 필요로한다. 그에 대한 대안으로 이 논문은 replaced token detection이라고도 하는 pre-training을 효율적으로 하는 것에 의의를 둔다. 입력을 masking 하는 대신 작은 generator 모델을 통해 생성된 토큰으로 대체한다. 그래서 corrupted 토큰들의 원본을 예측하는 대신 이 토큰이 생성된 토큰인지 아닌지를 분별한다.
그래서 BERT와 똑같은 모델 사이즈, 데이터, 학습양으로 더 뛰어난 성능을 보여지고, RoBERTa나 XLNet 보다 1/4의 계산량으로 비슷한 결과를 보여주고 같은 계산량이면 더 능가한다.

Transformer and BERT

· 11 min read
Jisu Lim
AI Engineer

2018년 당시에 [뉴옥 타임지]에서 Oren Etzioni, chief executive of the Allen Institute for Artificial Intelligence가 말하길,
기계가 아직 인간의 보통 감각을 표현할 수는 없지만, Bert는 폭발적인 발전의 순간이라고 했습니다. 이 Bert 모델에 기초가 된 [Transformer]는 어텐션 매커니즘을 사용하여 Encoder-Decoder로 구성되는 구조를 보려고 합니다.