메뉴 여닫기
환경 설정 메뉴 여닫기
개인 메뉴 여닫기
로그인하지 않음
지금 편집한다면 당신의 IP 주소가 공개될 수 있습니다.


개요

Time between token(TBT)는 LLM의 성능을 평가하는 지표중 하나로, 모델이 첫번째 토큰을 생성한후(TTFT)각 후속 토큰을 생성하는 데 걸리는 평균 시간을 의미한다.

TBT는 다음과 같이 정의된다: TBT = [math]\displaystyle{ \frac{T_{\text{total}} - T_{\text{first}}}{N - 1} }[/math] 여기서,

  • [math]\displaystyle{ T_{\text{total}} }[/math] = 전체 응답 생성 시간
  • [math]\displaystyle{ T_{\text{first}} }[/math] = 첫 번째 토큰이 생성되기까지 걸린 시간 (Time to First Token, TTFT)
  • N = 전체 토큰 수
import time  
import openai  

response = openai.ChatCompletion.create(model="gpt-4", messages=[{"role": "user", "content": "Explain quantum mechanics"}], stream=True)  

first_token_time = None  
previous_token_time = None  
token_intervals = []  

for chunk in response:  
    if chunk["choices"][0]["delta"]:  
        current_time = time.time()  
        if first_token_time is None:  
            first_token_time = current_time  
        else:  
            if previous_token_time is not None:  
                token_intervals.append(current_time - previous_token_time)  
            previous_token_time = current_time  

avg_tbt = sum(token_intervals) / len(token_intervals) if token_intervals else None  
print(f"Average TBT: {avg_tbt:.3f} seconds")