Regex tách từ (hỗ trợ Unicode)

Cập nhật: 24 Tháng 6, 2026

Dùng biểu thức /[\p{L}\d_]+/gu để Tách từng từ trong văn bản, bắt cả chữ tiếng Việt có dấu. Trang này có công cụ kiểm tra trực tiếp cùng 6 ví dụ đã được đối chiếu (3 hợp lệ, 3 không hợp lệ).

Biểu thức

6 ví dụ test

/ [\p{L}\d_]+ /gu

/ /

edit_note Văn bản kiểm tra

analytics Kết quả

Số lượng khớp: 0

Chi tiết group:

Chưa có kết quả.

check_circle Ví dụ HỢP LỆ (nên khớp)

Xin chào thế giới

checkKhớp

biến_số = 10

checkKhớp

Việt Nam 2024

checkKhớp

cancel Ví dụ KHÔNG hợp lệ (không khớp)

!!!

blockKhông khớp

---

blockKhông khớp

code Dùng trong code

JavaScript

const re = /[\p{L}\d_]+/gu;
const matches = str.match(re);

PHP

preg_match_all('~[\p{L}\d_]+~u', $str, $matches);
print_r($matches);

Python

import re
pattern = re.compile(r"[\p{L}\d_]+")
matches = pattern.findall(text)

re := regexp.MustCompile(`[\p{L}\d_]+`)
matches := re.FindAllString(str, -1)

Trang này cung cấp biểu thức chính quy /[p{L}d_]+/gu để Tách từng từ trong văn bản, bắt cả chữ tiếng Việt có dấu. Bạn có thể kiểm tra trực tiếp với dữ liệu của mình bằng công cụ phía trên, xem các ví dụ đã đối chiếu và sao chép sẵn mã cho JavaScript, PHP, Python và Go. Mẫu thuộc nhóm Văn bản & Tiếng Việt.

tips_and_updates Ghi chú & lưu ý chuyên môn

Tách văn bản thành từng "từ" gồm chữ cái Unicode, chữ số và gạch dưới. So với \w+ (chỉ hiểu a-z), việc dùng \p{L} kèm cờ u đảm bảo từ tiếng Việt có dấu không bị cắt đôi ở ký tự có dấu. Đây là bước cơ bản khi đếm từ hoặc tạo chỉ mục tìm kiếm cho nội dung tiếng Việt.

Câu hỏi thường gặp

Regex tách từ (hỗ trợ Unicode) như thế nào? expand_more

Dùng biểu thức /[\p{L}\d_]+/gu. Pattern này Tách từng từ trong văn bản, bắt cả chữ tiếng Việt có dấu.

Biểu thức "[\p{L}\d_]+" khớp được những ví dụ nào? expand_more

Khớp các giá trị hợp lệ như "Xin chào thế giới". Ngược lại, "!!!" sẽ không khớp. Trang này kèm 3 ví dụ hợp lệ và 3 ví dụ không hợp lệ đã kiểm chứng.

Dùng biểu thức này trong JavaScript ra sao? expand_more

Trong JavaScript: const re = /[\p{L}\d_]+/gu; rồi gọi str.match(re). Bạn cũng có thể dán pattern vào công cụ kiểm tra ở trên để thử với dữ liệu của mình.

Mẫu regex liên quan: Văn bản & Tiếng Việt

Xem tất cả

data_object

Regex tìm và lọc emoji

[\u{1F300}-\u{1FAFF}\u{2600}-\u{27BF}\u{2190}-\u{21FF}\u{2B00}-\u{2BFF}]

data_object

Regex chữ tiếng Việt có dấu

^[\p{L}\s]+$

data_object

Regex khoảng trắng thừa

\s{2,}