Regex tách từ (hỗ trợ Unicode)
Cập nhật: 24 Tháng 6, 2026
Dùng biểu thức /[\p{L}\d_]+/gu để Tách từng từ trong văn bản, bắt cả chữ tiếng Việt có dấu. Trang này có công cụ kiểm tra trực tiếp cùng 6 ví dụ đã được đối chiếu (3 hợp lệ, 3 không hợp lệ).
edit_note Văn bản kiểm tra
analytics Kết quả
Xin chào thế giới
biến_số = 10
Việt Nam 2024
!!!
---
code Dùng trong code
const re = /[\p{L}\d_]+/gu;
const matches = str.match(re);
preg_match_all('~[\p{L}\d_]+~u', $str, $matches);
print_r($matches);
import re
pattern = re.compile(r"[\p{L}\d_]+")
matches = pattern.findall(text)
re := regexp.MustCompile(`[\p{L}\d_]+`)
matches := re.FindAllString(str, -1)
Trang này cung cấp biểu thức chính quy /[p{L}d_]+/gu để Tách từng từ trong văn bản, bắt cả chữ tiếng Việt có dấu. Bạn có thể kiểm tra trực tiếp với dữ liệu của mình bằng công cụ phía trên, xem các ví dụ đã đối chiếu và sao chép sẵn mã cho JavaScript, PHP, Python và Go. Mẫu thuộc nhóm Văn bản & Tiếng Việt.
tips_and_updates Ghi chú & lưu ý chuyên môn
Tách văn bản thành từng "từ" gồm chữ cái Unicode, chữ số và gạch dưới. So với \w+ (chỉ hiểu a-z), việc dùng \p{L} kèm cờ u đảm bảo từ tiếng Việt có dấu không bị cắt đôi ở ký tự có dấu. Đây là bước cơ bản khi đếm từ hoặc tạo chỉ mục tìm kiếm cho nội dung tiếng Việt.