Về cơ bản, ML là bắt chước cách con người học tập. Con người học sao thì máy học vậy!
Học sinh <=> Mô hình (trong ML hay gọi là “huấn luyện mô hình” nhé!)
Bài tập <=> Dữ liệu: Muốn người/máy làm gì thì phải cho học/huấn luyện cái đó. Muốn học sinh tính đạo hàm thì phải cho bài tập đạo hàm. Muốn mô hình dự đoán giá nhà thì phải “nhồi” data diện tích, số tầng, vị trí,…
Suy nghĩ, làm bài <=> Tương tác với dữ liệu: Học sinh nhận bài tập thì suy nghĩ, làm bài. Mô hình nhận dữ liệu thì tương tác với dữ liệu (tùy thuật toán). Kết quả là bài làm của học sinh và dự đoán của mô hình.
Giáo viên & Đáp án <=> Hàm mất mát (loss function) & Giá trị thực tế (ground-truth): Giáo viên chấm bài dựa trên đáp án. Hàm mất mát đánh giá độ lệch giữa dự đoán của mô hình và giá trị thực tế. Càng lệch ít thì loss value càng nhỏ, mô hình càng tốt.
Bài chữa <=> Giá trị mất mát: Giáo viên chữa bài cho học sinh rút kinh nghiệm. Hàm mất mát trả về loss value để mô hình tự cập nhật và cải thiện.
Nhiều bài tập <=> Minibatch: Học sinh làm nhiều bài tập cùng lúc. Mô hình xử lý một cụm dữ liệu (minibatch) cùng lúc.
Quá trình lặp lại: Bài tập -> làm bài -> chấm bài -> rút kinh nghiệm. Tương tự với máy: Dữ liệu -> tương tác -> dự đoán -> tính loss value -> cập nhật mô hình.
Lưu ý: Học nhiều chưa chắc đã giỏi! Con người có giới hạn, học đến một mức nào đó thì dù có cố cũng không giỏi hơn được (ví dụ điểm Toán hay TOEIC). Mô hình cũng vậy, huấn luyện đến khi loss value không giảm nữa thì dù có cày thêm cũng không cải thiện được.
Bài tập chất lượng <=> Dữ liệu chất lượng: Bài tập phải liên quan và phù hợp với khả năng học sinh. Dữ liệu cũng phải liên quan và phù hợp với khả năng của mô hình.
Underfitting: Cho học sinh lớp 12 làm bài đại học thì làm sao làm được? Tương tự, dữ liệu quá phức tạp so với mô hình thì mô hình cũng bó tay, không học được gì.
Overfitting: Ngược lại, nếu mô hình quá phức tạp so với dữ liệu thì dễ bị học vẹt, không tổng quát hóa được.
Model weight = Học có trọng tâm: Học sinh tập trung nhiều hơn vào những phần kiến thức quan trọng hoặc cần thiết nhất, dựa trên mục tiêu học tập hoặc yêu cầu của kỳ thi. Học có trọng tâm tương tự như model gán trọng số cao cho các đặc trưng quan trọng. Cả người và máy đều tập trung nguồn lực (thời gian, công sức hoặc trọng số) vào những yếu tố có ảnh hưởng lớn đến kết quả cuối cùng.
Bias = Học lệch: Do sự đơn giản hóa hoặc tập trung quá hẹp, dẫn đến thiếu hụt kiến thức hoặc khả năng mô hình hóa.
Variance = Học tủ: Do phụ thuộc quá mức vào dữ liệu hoặc kiến thức cụ thể, dẫn đến khó khăn khi đối mặt với tình huống mới.
Câu chuyện ở trên áp dụng cho mô hình học có giám sát (supervised learning), loại phổ biến nhất trong ML. Mấy loại khác thì hơi khác chút.
Token hóa đầu vào <=> Chuyển lời nói của giáo viên thành văn bản để làm bài: LLMs ‘ghi chép’ bằng cách chuyển đổi văn bản thành các token, giống như học sinh nghe giảng và ghi chép lại để hiểu bài.
Cơ chế Attention <=> Đọc hiểu trọng tâm: Học sinh khi làm bài sẽ tập trung vào những phần quan trọng của đề bài. LLMs sử dụng cơ chế attention để ‘tập trung’
vào các token quan trọng, từ đó hiểu ngữ cảnh tốt hơn.
Sinh văn bản dựa trên dự đoán từ tiếp theo <=> Lập luận từng bước, bước sau dựa trên kết quả của bước trước: Học sinh suy nghĩ và viết, câu sau dựa vào câu trước. LLMs dự đoán từ tiếp theo dựa trên các token trước đó, giống như xây dựng lập luận từng bước .
Vector Embedding <=> Dùng mẹo, ví dụ bài thơ có vần để nhớ kiến thức: Học sinh dùng mẹo để ghi nhớ kiến thức. LLMs sử dụng vector embedding để ‘ghi nhớ’ và biểu diễn thông tin, giúp truy xuất thông tin hiệu quả.
Một số khái niệm hay nhầm lẫn:
Lẫn lộn ML và AI <=> Nhầm lẫn giữa ‘học’ và ‘ứng dụng’: Nhầm lẫn giữa GPT-4 (mô hình ML) và ChatGPT (ứng dụng AI) giống như nhầm lẫn giữa việc ‘học công thức và nguyên lý làm toán’ (ML) với việc ‘ứng dụng kiến thức toán đó để giải bài toán thực tế’ (AI).
‘Khớp’ (exact match) & ‘Khớp gần đúng’ (fuzzy match) <=> Tra cứu từ điển & Hiểu nghĩa: Lập trình truyền thống giống như tra từ điển, chỉ tìm kiếm kết quả khớp chính xác. ML giống như hiểu nghĩa của từ, có thể nhận ra các từ đồng nghĩa hoặc gần nghĩa (fuzzy match ví dụ: chó = cẩu, khuyển, dog, chien…). Học sinh không chỉ tra từ điển mà còn phải hiểu nghĩa để làm bài.
LLMs & Tìm kiếm <=> Học sinh & Thi được mở sách: LLMs kết hợp với tìm kiếm giống như học sinh được phép mở sách trong giờ kiểm tra, có thể tra cứu thông tin cần thiết. Nếu không có kiến thức từ trước (LLMs) thì có mở sách cũng không biết chép gì.
Lưu trữ kiến thức <=> Kiến thức nhập tâm: LLMs lưu kiến thức trong weights và biases, chứ không phải lưu trữ trong cơ sở dữ liệu riêng. Giống như học sinh đi thi chỉ lưu kiến thức trong đầu chứ không được mở sách. Cho nên với ML model người ta hay dùng khái niệm ‘Open weight’ chứ không dùng ‘Open source’ (là khái niệm của phần mềm thông thường), hoặc không dùng khái niệm ‘open database’. ‘Open weight’ giống như ‘chia sẻ mẹo học tập’, chứ không như open database là ‘cho chép bài’ .
‘Tự học’ theo thời gian thực <=> Ứng dụng kiến thức: LLMs không ‘tự học’ từ tương tác với người dùng vì việc ‘học’ chỉ diễn ra thông qua pre-training, training và fine-tuning dẫn đến kiến thức được nạp vào weight của nó. Sở dĩ nó cung cấp được kiến thức không có trong weight là nhờ khả năng in-context learning từ input của người dùng hoặc thông tin do RAG cung cấp. Đây không hẳn là ‘học’ mà giống như suy luận vì sau khi tắt chat thì kiến thức ‘học’ từ in-context learning cũng bay màu luôn. Kiến thức bền vững là kiến thức model được học trước ngày cut-off date. Muốn cập nhật kiến thức của model thì cần train lại. Giống như học sinh dùng giấy nháp để ghi ra các công thức và tính toán trung gian khi làm toán. Học sinh không ‘học’ được công thức mới nào, mà chỉ đang áp dụng kiến thức đã có. Sau khi giải xong, tờ giấy nháp bị vứt đi, và bài toán cụ thể với những tính toán cụ thể đó cũng không được vào bộ nhớ.
Vector Embedding & Caching <=> Nhập tâm & Ghi nhanh ra giấy để khỏi quên: Vector embedding giống như việc học sinh nhập tâm kiến thức. Caching thì khác, nó giống như ghi chú nhanh ra giấy để khỏi quên để dùng lại lúc sau.
Lưu cache phản hồi & Bảo mật <=> Chia sẻ bài làm & Gian lận: Việc lưu và sử dụng lại phản hồi của người dùng khác là vi phạm quyền riêng tư, giống như việc học sinh gian lận trong học tập cho nhau chép bài.
‘Lấy dữ liệu của nhau’ <=> ‘Đạo văn’: LLMs không ‘lấy dữ liệu của nhau’. Nếu có chia sẻ dữ liệu, đó phải là quá trình được kiểm soát và tuân thủ quy định về bảo mật. Giống như học sinh không được phép đạo văn.
-
Đàm Triệu Vinh, nhà sáng lập của Dịch Vụ Entity Since 2017 backlink, google map, linkedin, fb, tiktok, ytb, insta
View all posts