Mẫu regex: Văn bản & Tiếng Việt
Pattern xử lý văn bản: tách từ, chuẩn hóa khoảng trắng, lọc emoji và làm việc với chữ tiếng Việt có dấu. Mẹo quan trọng cho tiếng Việt: lớp ký tự \w và \b mặc định chỉ hiểu a-z, nên ký tự có dấu (à, ê, ữ…) bị bỏ sót. Hãy dùng thuộc tính Unicode \p{L} kèm cờ u để bắt đúng chữ cái tiếng Việt.
Hiển thị 4 mẫu regex
Regex chữ tiếng Việt có dấu
arrow_forward/^[\p{L}\s]+$/mu
Kiểm tra chuỗi chỉ gồm chữ cái (kể cả tiếng Việt có dấu) và khoảng trắng.
Regex khoảng trắng thừa
arrow_forward/\s{2,}/g
Tìm các đoạn từ hai khoảng trắng liền nhau để chuẩn hóa.
Regex tách từ (hỗ trợ Unicode)
arrow_forward/[\p{L}\d_]+/gu
Tách từng từ trong văn bản, bắt cả chữ tiếng Việt có dấu.
Regex tìm và lọc emoji
arrow_forward/[\u{1F300}-\u{1FAFF}\u{2600}-\u{27BF}\u{2190}-\u{21FF}\u{2B00}-\u{2BFF}]/gu
Trích xuất hoặc xóa emoji khỏi chuỗi văn bản.