Ô search box nhìn rất đơn giản cho tới khi ai đó gõ một câu mà tài liệu không dùng đúng những từ đó. Khách hàng hỏi: nếu plan tự renew nhầm thì tôi có lấy lại tiền được không? Trang policy lại dùng những từ như refund, cancellation window, billing adjustment và eligibility. Keyword search trả về kết quả yếu vì chữ không khớp. Con người nhìn là thấy liên quan ngay. System thì cần một cách search theo meaning, không chỉ theo exact text.
Đây là lý do rất đời khiến vector database trở nên quan trọng trong AI product. Vector là một danh sách số đại diện cho một thứ gì đó, thường là text, image, audio hoặc code. Embedding model biến nội dung gốc thành vector đó. Những meaning gần nhau nên nằm gần nhau trong vector space. Các con số này không được viết ra để con người đọc trực tiếp. Chúng là tọa độ giúp system so sánh meaning ở scale lớn.
Vector database lưu các embedding đó và làm similarity search nhanh. Khi user đặt câu hỏi, system biến câu hỏi thành một vector khác, rồi hỏi database những vector nào nằm gần nó. Kết quả gần nhất thường chứa meaning liên quan, ngay cả khi từ ngữ khác nhau. Vì vậy semantic search có thể tìm refund policy cho một câu hỏi nói về lấy lại tiền.
Database không hiểu meaning giống con người. Nó đang so sánh khoảng cách toán học giữa các embedding. Phân biệt này quan trọng. Vector search hữu ích vì embedding model đã học nhiều pattern từ ngôn ngữ và dữ liệu, không phải vì database có judgment. Nó có thể tìm text liên quan, nhưng không bảo đảm answer là đúng, mới nhất hoặc đầy đủ.
Vector database thường xuất hiện trong RAG system. Thay vì hỏi LLM trả lời từ memory, product retrieve các chunk liên quan từ knowledge base rồi đưa chúng cho model làm context. Model sau đó viết answer dựa trên material đã retrieve. Trong một thiết kế tốt, user có thể thấy source, và product có thể từ chối khi context lấy được quá yếu.
Chunking là một trong những decision thực tế đầu tiên. Chunk quá lớn có thể kéo về một đoạn dài với nhiều chi tiết không liên quan. Chunk quá nhỏ có thể làm model mất context xung quanh để trả lời tốt. Chunking tốt tôn trọng hình dạng của content: heading, paragraph, table, code block, date và ownership. Nó ít hào nhoáng hơn chọn database, nhưng thường quan trọng hơn.
Metadata giữ vector search hữu ích trong product thật. Một document có thể có locale, product version, access level, department, date, owner và status. Similarity đơn thuần có thể retrieve một tài liệu trông hợp lý nhưng đã outdated hoặc user không được phép xem. Metadata filter cho system hỏi meaning gần nhất trong đúng boundary: chỉ public docs, chỉ policy hiện tại, chỉ tenant này, chỉ content tiếng Anh hoặc tiếng Việt, chỉ nội dung user có quyền đọc.
Freshness là một vấn đề âm thầm khác. Document thay đổi. Policy hết hạn. Code snippet bị di chuyển. Nếu embedding không được update khi source đổi, vector database trở thành ký ức của một tổ chức cũ hơn. Một system nghiêm túc cần ingestion pipeline, chiến lược re-embedding, đường xóa dữ liệu, và cách trace một answer về đúng source version đã tạo ra nó.
Evaluation là nơi product bắt đầu đáng tin. Team nên gom câu hỏi thật và source document kỳ vọng, rồi đo retrieval có kéo đúng material không. Không đủ để nói demo nghe ổn. Hãy đo recall, precision, latency, cost, refusal behavior và tần suất user mở source. Vector database có thể làm search trông thông minh hơn, nhưng chỉ evaluation mới cho thấy nó đang giúp công việc thật hay không.
Cost và trade-off cũng có thật. Approximate nearest neighbor index làm search nhanh, nhưng có thể bỏ lỡ match hoàn hảo. Nhiều dimension có thể mang tín hiệu giàu hơn nhưng tăng storage và compute. Hybrid search, kết hợp keyword và vector search, thường mạnh hơn dùng riêng một thứ. Với nhiều product, câu trả lời tốt nhất không phải semantic search thuần. Đó là semantic search cộng metadata, keyword matching, ranking rule và source display dễ đọc.
Tôi hay nghĩ vector database giống một kệ thư viện được sắp theo độ gần của meaning. Nó mạnh khi user không biết đúng từ, khi tài liệu dùng nhiều cách nói khác nhau cho cùng một ý, hoặc khi AI feature cần grounded context. Nhưng nó không phải magic memory. Chất lượng vẫn phụ thuộc vào source material, embedding model, chunking, filter, evaluation và việc interface thể hiện evidence trung thực tới đâu.
Nếu bạn đang xây AI search hoặc RAG feature, câu hỏi đầu tiên hữu ích không phải vector database nào đang nổi nhất. Câu hỏi là user cần tìm gì, search phải tôn trọng boundary nào, và bạn sẽ biết retrieval đúng bằng cách nào. Database quan trọng, nhưng discipline xung quanh nó mới làm answer đáng tin.