Regex tách từ (hỗ trợ Unicode)

Cập nhật: 24 Tháng 6, 2026

Dùng biểu thức /[\p{L}\d_]+/gu để Tách từng từ trong văn bản, bắt cả chữ tiếng Việt có dấu. Trang này có công cụ kiểm tra trực tiếp cùng 6 ví dụ đã được đối chiếu (3 hợp lệ, 3 không hợp lệ).

Biểu thức
6 ví dụ test
/ [\p{L}\d_]+ /gu
/ /

edit_note Văn bản kiểm tra

analytics Kết quả

Số lượng khớp: 0
Chi tiết group:

Chưa có kết quả.

check_circle Ví dụ HỢP LỆ (nên khớp)
Xin chào thế giới
checkKhớp
biến_số = 10
checkKhớp
Việt Nam 2024
checkKhớp
cancel Ví dụ KHÔNG hợp lệ (không khớp)
!!!
blockKhông khớp
blockKhông khớp
---
blockKhông khớp

code Dùng trong code

JavaScript
const re = /[\p{L}\d_]+/gu;
const matches = str.match(re);
PHP
preg_match_all('~[\p{L}\d_]+~u', $str, $matches);
print_r($matches);
Python
import re
pattern = re.compile(r"[\p{L}\d_]+")
matches = pattern.findall(text)
Go
re := regexp.MustCompile(`[\p{L}\d_]+`)
matches := re.FindAllString(str, -1)

Trang này cung cấp biểu thức chính quy /[p{L}d_]+/gu để Tách từng từ trong văn bản, bắt cả chữ tiếng Việt có dấu. Bạn có thể kiểm tra trực tiếp với dữ liệu của mình bằng công cụ phía trên, xem các ví dụ đã đối chiếu và sao chép sẵn mã cho JavaScript, PHP, Python và Go. Mẫu thuộc nhóm Văn bản & Tiếng Việt.

tips_and_updates Ghi chú & lưu ý chuyên môn

Tách văn bản thành từng "từ" gồm chữ cái Unicode, chữ số và gạch dưới. So với \w+ (chỉ hiểu a-z), việc dùng \p{L} kèm cờ u đảm bảo từ tiếng Việt có dấu không bị cắt đôi ở ký tự có dấu. Đây là bước cơ bản khi đếm từ hoặc tạo chỉ mục tìm kiếm cho nội dung tiếng Việt.

Câu hỏi thường gặp

Regex tách từ (hỗ trợ Unicode) như thế nào? expand_more
Dùng biểu thức /[\p{L}\d_]+/gu. Pattern này Tách từng từ trong văn bản, bắt cả chữ tiếng Việt có dấu.
Biểu thức "[\p{L}\d_]+" khớp được những ví dụ nào? expand_more
Khớp các giá trị hợp lệ như "Xin chào thế giới". Ngược lại, "!!!" sẽ không khớp. Trang này kèm 3 ví dụ hợp lệ và 3 ví dụ không hợp lệ đã kiểm chứng.
Dùng biểu thức này trong JavaScript ra sao? expand_more
Trong JavaScript: const re = /[\p{L}\d_]+/gu; rồi gọi str.match(re). Bạn cũng có thể dán pattern vào công cụ kiểm tra ở trên để thử với dữ liệu của mình.

Mẫu regex liên quan: Văn bản & Tiếng Việt

Xem tất cả