Mẫu regex: Văn bản & Tiếng Việt

Pattern xử lý văn bản: tách từ, chuẩn hóa khoảng trắng, lọc emoji và làm việc với chữ tiếng Việt có dấu. Mẹo quan trọng cho tiếng Việt: lớp ký tự \w và \b mặc định chỉ hiểu a-z, nên ký tự có dấu (à, ê, ữ…) bị bỏ sót. Hãy dùng thuộc tính Unicode \p{L} kèm cờ u để bắt đúng chữ cái tiếng Việt.

Hiển thị 4 mẫu regex