Độ dài Prompt AI Chat: Giới hạn đầu vào ChatGPT, Claude và Gemini

9 phút đọc

Mỗi AI chatbot có giới hạn đầu vào khác nhau được đo bằng token. Hiểu các giới hạn này giúp bạn soạn prompt tạo ra phản hồi tốt nhất có thể mà không gặp vấn đề cắt ngắn.

Sự phát triển của cửa sổ ngữ cảnh

Khi ChatGPT ra mắt cuối năm 2022, GPT-3.5 có cửa sổ ngữ cảnh chỉ 4.096 token. Năm 2023, GPT-4 mở rộng lên 8K/32K token, và đến 2024, GPT-4o đạt 128K token. Trong khi đó, Claude của Anthropic đạt 200K token, và Gemini 2.5 Pro của Google cung cấp 1 triệu token đáng kinh ngạc. Chỉ trong hai năm, cửa sổ ngữ cảnh đã mở rộng khoảng 250 lần.

Tuy nhiên, cửa sổ ngữ cảnh lớn hơn không phải lúc nào cũng có nghĩa prompt dài hơn là tốt hơn. Nghiên cứu đã chỉ ra rằng khi độ dài đầu vào tăng, mô hình có xu hướng mất tập trung vào thông tin đặt ở giữa tài liệu (được gọi là vấn đề "Lạc giữa văn bản"). Đặt các hướng dẫn quan trọng ở đầu hoặc cuối prompt là một phương pháp thực hành tốt nhất.

Cách Token thực sự hoạt động

Mô hình AI xử lý văn bản theo đơn vị gọi là "token" thay vì ký tự. Một token đại diện cho một từ, từ phụ hoặc mảnh ký tự—đây là đơn vị cơ bản mà mô hình ngôn ngữ sử dụng để xử lý văn bản. Khái niệm "token" đã được sử dụng trong xử lý ngôn ngữ tự nhiên (NLP) từ những năm 1990, nhưng chỉ được biết đến rộng rãi sau khi ChatGPT ra mắt cuối năm 2022. Như đã giải thích trong hướng dẫn độ dài đầu ra ChatGPT, mô hình AI chia văn bản thành token trước khi xử lý.

Trong tiếng Anh, một token xấp xỉ 4 ký tự hoặc 0,75 từ. Các mô hình họ GPT sử dụng BPE (Byte Pair Encoding), một thuật toán được huấn luyện chủ yếu trên văn bản tiếng Anh, nên các từ tiếng Anh được ánh xạ hiệu quả thành 1–2 token. Đối với các ngôn ngữ như tiếng Nhật và tiếng Trung, như đã đề cập trong hướng dẫn cơ bản về Unicode, một ký tự đơn có thể tiêu tốn 1–3 token. Cùng một nội dung viết bằng tiếng Nhật sử dụng khoảng 1,5–2 lần số token so với tiếng Anh tương đương. Sự chênh lệch này ảnh hưởng trực tiếp đến cả cửa sổ ngữ cảnh khả dụng và chi phí API khi làm việc với các ngôn ngữ không phải Latin.

Sự bất đối xứng này có ảnh hưởng chi phí trực tiếp cho người dùng API. Vì giá tính theo token, xử lý cùng một nội dung bằng tiếng Nhật tốn gấp 1,5–2 lần so với tiếng Anh. Đối với các ứng dụng nhạy cảm về chi phí, viết hướng dẫn prompt bằng tiếng Anh trong khi chỉ giữ văn bản mục tiêu bằng ngôn ngữ gốc là một chiến lược tối ưu hóa hiệu quả.

Giới hạn đầu vào theo nền tảng

Cửa sổ ngữ cảnh được chia sẻ giữa đầu vào và đầu ra. Ví dụ, nếu bạn gửi 100K token đầu vào cho mô hình 128K token, chỉ còn 28K token cho phản hồi. Cột "Đầu vào hiệu dụng" bên dưới đã tính đến phân bổ đầu ra tối đa.

Nền tảng	Cửa sổ ngữ cảnh	Đầu ra tối đa	Đầu vào hiệu dụng (từ)
ChatGPT (GPT-4o)	128K token	16.384 token	~84.000 từ
Claude 4 Sonnet	200K token	16.000 token	~138.000 từ
Gemini 2.5 Pro	1M token	65.536 token	~700.000 từ
ChatGPT miễn phí	8K token	4.096 token	~3.000 từ

Gói miễn phí của ChatGPT đáng được chú ý đặc biệt. Với chỉ 8K token tổng cộng và tối đa 4.096 token dành cho đầu ra, bạn chỉ còn khoảng 4K token cho đầu vào—tương đương khoảng 3.000 từ. Đối với các tác vụ như tóm tắt tài liệu dài hoặc phân tích dữ liệu phức tạp, nâng cấp lên gói trả phí là điều đáng cân nhắc.

Mức tiêu thụ Token theo loại ký tự

Mức tiêu thụ token khác nhau đáng kể theo loại ký tự. Hiểu những khác biệt này giúp bạn ước tính mức sử dụng token chính xác hơn.

Loại ký tự	Token trên mỗi ký tự	Ví dụ
Từ tiếng Anh thông dụng	0,25–0,5 token	"ChatGPT" = 1–2 token
Từ hiếm/chuyên ngành	0,5–1 token	"tokenizer" = 2 token
Ký tự CJK	1–3 token	"文字" = 2 token
Emoji	2–4 token	"😀" = 2–3 token
Khoảng trắng/xuống dòng	0,25–1 token	Mỗi dòng mới ≈ 1 token

Chi tiết thường bị bỏ qua là mức tiêu thụ token emoji. Một emoji đơn có thể dùng 2–4 token, nên prompt chứa nhiều emoji sẽ tiêu tốn token nhanh hơn dự kiến. Xuống dòng và định dạng quá mức cũng được tính là token, vì vậy prompt có cấu trúc quá phức tạp có thể giảm dung lượng đầu vào hiệu dụng của bạn.

Mẹo cho Prompt hiệu quả

Prompt dài hơn không nhất thiết tốt hơn. Chìa khóa là khớp độ dài prompt với độ phức tạp nhiệm vụ. Quá ngắn thì bạn nhận được phản hồi mơ hồ; quá dài thì sự chú ý của mô hình bị phân tán, tăng nguy cơ các hướng dẫn quan trọng bị bỏ qua.

Câu hỏi đơn giản: 20–50 từ là đủ. "X là gì?" không cần phần mở đầu dài dòng
Hướng dẫn chi tiết: 50–150 từ hoạt động tốt. Bao gồm vai trò, nhiệm vụ, ràng buộc và định dạng đầu ra
Tác vụ phức tạp: 150–300 từ để xác định rõ bối cảnh, điều kiện và kỳ vọng. Thêm ví dụ giúp cải thiện độ chính xác
Phân tích tài liệu dài: Văn bản đầu vào + 30–60 từ hướng dẫn. Đặt hướng dẫn trước văn bản đầu vào để có kết quả tốt nhất

Một nhận thức quan trọng: "chất lượng" và "độ dài" prompt không tương quan tuyến tính. Một prompt rõ ràng 50 từ thường vượt trội hơn một prompt mơ hồ 200 từ. Để tối đa hóa hiệu quả token, hãy loại bỏ các từ bổ nghĩa không cần thiết và lời lẽ xã giao, tập trung vào hướng dẫn cốt lõi.

Tại sao giới hạn Token tồn tại

Cửa sổ ngữ cảnh (số token tối đa mô hình có thể xử lý cùng lúc) được xác định bởi kiến trúc và dung lượng bộ nhớ của mô hình. Trong kiến trúc Transformer, cơ chế Self-Attention yêu cầu mỗi token tính điểm liên quan với mọi token khác, dẫn đến độ phức tạp tính toán tăng theo bậc hai (O(n²)) theo số lượng token. Xử lý 128K token đòi hỏi tài nguyên tính toán gấp khoảng 1.024 lần so với xử lý 4K token.

Để vượt qua các giới hạn này, mỗi nhà cung cấp đã phát triển các kỹ thuật tối ưu hóa riêng. Gemini của Google sử dụng Ring Attention để đạt 1 triệu token, trong khi Claude của Anthropic sử dụng quản lý KV cache hiệu quả cho cửa sổ 200K token. Tuy nhiên, mở rộng cửa sổ ngữ cảnh làm tăng mức tiêu thụ bộ nhớ GPU phía máy chủ, nên mỗi dịch vụ cân nhắc kỹ lưỡng giữa tốc độ phản hồi, chi phí và chất lượng khi thiết lập kích thước cửa sổ.

Mẹo viết Prompt hiệu quả

Gán vai trò ngay từ đầu: "Bạn là chuyên gia về [lĩnh vực]" thiết lập giọng điệu và thu hẹp phạm vi phản hồi, giảm đầu ra không cần thiết
Chỉ định định dạng đầu ra: "Trả lời bằng gạch đầu dòng", "Dùng bảng" hoặc "Viết dạng JSON" loại bỏ sự mơ hồ và tiết kiệm token cho việc định dạng lại
Nêu rõ ràng buộc: "Dưới 300 từ", "Cho đối tượng mới bắt đầu" hoặc "Trong 3 đoạn văn" cho mô hình ranh giới rõ ràng
Bỏ phần mở đầu không cần thiết: Bỏ qua lời xã giao và từ thừa. "Tóm tắt bài viết này thành 3 gạch đầu dòng" hiệu quả hơn "Bạn có thể vui lòng giúp tôi tóm tắt bài viết sau thành khoảng ba gạch đầu dòng không?" AI không quan tâm đến lịch sự—hướng dẫn trực tiếp tiết kiệm token
Dùng hướng dẫn khẳng định thay vì phủ định: "Viết bằng ngôn ngữ đơn giản mà học sinh cấp hai có thể hiểu" hiệu quả hơn "Đừng dùng thuật ngữ chuyên ngành." Mô hình diễn giải hướng dẫn tích cực đáng tin cậy hơn hướng dẫn phủ định

Lỗi Prompt phổ biến

Đây là những cạm bẫy thường gặp nhất khi làm việc với giao diện AI chat, cùng cách tránh chúng.

Prompt quá dài, phản hồi bị cắt: Cửa sổ ngữ cảnh được tiêu thụ bởi cả đầu vào và đầu ra. Đầu vào càng dài, càng ít token còn lại cho phản hồi. Ví dụ, gửi 120K token đầu vào cho mô hình 128K token chỉ còn 8K token cho đầu ra. Khi gửi văn bản dài, luôn tính đến phân bổ token đầu ra tối đa
Hướng dẫn mơ hồ tạo ra kết quả không mong muốn: "Làm cho tốt hơn" hoặc "Chỉnh sửa cái này" không cho mô hình hướng đi rõ ràng. Thay vào đó, hãy chỉ rõ bạn muốn gì: "Viết lại đoạn này ngắn gọn hơn, mục tiêu giới hạn 50 từ." Các tính từ chủ quan như "tốt", "phù hợp" và "rõ ràng" quá mơ hồ để AI diễn giải nhất quán
Cuộc hội thoại quá dài và ngữ cảnh bị mất: Mô hình AI giữ toàn bộ cuộc hội thoại trong cửa sổ ngữ cảnh. Khi cuộc hội thoại dài ra, các hướng dẫn trước đó bị đẩy ra ngoài. Trên gói miễn phí ChatGPT (8K token), ngữ cảnh có thể bị mất sau khoảng 10 lượt trao đổi. Hãy nhắc lại các hướng dẫn quan trọng định kỳ, hoặc bắt đầu cuộc hội thoại mới
Bỏ qua tham số temperature: Khi sử dụng API, tham số temperature ảnh hưởng đáng kể đến tính nhất quán của phản hồi. Để kiểm tra thông tin và tạo mã, đặt temperature từ 0–0,3. Để viết sáng tạo và brainstorm, dùng 0,7–1,0. Giao diện web thường không hiển thị cài đặt này, nên hãy dùng cách diễn đạt trong prompt như "hãy chính xác" hoặc "hãy sáng tạo" để thay thế

Kỹ thuật Prompt nâng cao

Những kỹ thuật này được người dùng nâng cao sử dụng để tối đa chất lượng phản hồi từ mô hình AI chat.

Prompt chuỗi suy luận (Chain of Thought): Thêm "Hãy suy nghĩ từng bước" khuyến khích mô hình trình bày quá trình lập luận, giúp cải thiện đáng kể độ chính xác cho các bài toán phức tạp như toán học, logic và phân tích nhiều bước. Các nghiên cứu đã báo cáo cải thiện độ chính xác 20–30% cho bài toán. Tuy nhiên, đầu ra lập luận tiêu tốn thêm token, nên kỹ thuật này phản tác dụng cho các truy vấn thông tin đơn giản
Prompt ít mẫu (Few-shot): Đưa 2–3 ví dụ về đầu ra mong muốn vào prompt giúp mô hình học mẫu và tạo kết quả nhất quán. Điều này tốn thêm token nhưng cải thiện đáng kể chất lượng và tính nhất quán định dạng đầu ra. Điểm tối ưu là 2–3 ví dụ; thêm hơn 5 thường cho hiệu quả giảm dần
Tách biệt prompt hệ thống và prompt người dùng: Khi sử dụng API, đặt định nghĩa vai trò và ràng buộc trong prompt hệ thống, và câu hỏi cụ thể trong prompt người dùng. Mô hình ưu tiên hướng dẫn trong prompt hệ thống, khiến đây là nơi lý tưởng cho các ràng buộc quan trọng. Điều này tạo phản hồi nhất quán hơn và giúp quản lý token dễ dàng hơn
Dùng dấu phân cách để cấu trúc các phần: Sử dụng các dấu hiệu như "---" hoặc "###" để phân tách trực quan hướng dẫn, dữ liệu đầu vào và định dạng đầu ra giúp mô hình xác định chính xác vai trò của từng phần. Đối với prompt dài, sự rõ ràng về cấu trúc này trực tiếp cải thiện độ chính xác phản hồi

Chọn nền tảng phù hợp cho nhiệm vụ

Mỗi dịch vụ AI chat có thế mạnh riêng. Khớp nền tảng phù hợp với nhiệm vụ cho kết quả tốt nhất.

ChatGPT (GPT-4o): Rất đa năng, xử lý mọi thứ từ câu hỏi hàng ngày đến thực hành prompt engineering. Hỗ trợ đầu vào hình ảnh cho các tác vụ đa phương thức
Claude 4 Sonnet: Xuất sắc trong đọc hiểu và phân tích văn bản dài. Cửa sổ ngữ cảnh 200K token có thể xử lý toàn bộ bài nghiên cứu hoặc hợp đồng trong một lần. Nổi tiếng với độ trung thực cao trong việc tuân theo hướng dẫn, đặc biệt với các yêu cầu định dạng
Gemini 2.5 Pro: Với 1 triệu token ngữ cảnh, có thể xử lý toàn bộ một cuốn sách trong một prompt duy nhất. Tích hợp mạnh mẽ với các dịch vụ Google và xuất sắc trong phản hồi dựa trên tìm kiếm

Kết luận

Giới hạn đầu vào khác nhau đáng kể giữa các dịch vụ AI chat, và sự bất đối xứng token giữa các ngôn ngữ khiến người dùng không nói tiếng Anh phải đối mặt với thêm ràng buộc. Ngoài kích thước cửa sổ ngữ cảnh thuần túy, cân bằng phân bổ đầu vào-đầu ra, cấu trúc prompt và lựa chọn nền tảng đều đóng vai trò quan trọng trong việc xác định chất lượng phản hồi. Tìm hiểu thêm qua sách về prompt engineering có thể giúp nâng cao kỹ năng của bạn. Luôn kiểm tra độ dài đầu vào với Bộ đếm ký tự trước khi gửi để đảm bảo bạn nằm trong giới hạn.