Xử lý xâu
Xâu (string) xuất hiện rất nhiều trong các bài toán. Bài viết này giới thiệu sơ qua một số thuật ngữ cũng như thuật toán về xâu.
Thuật ngữ¶
- Một xâu \(X\) là xâu con (substring) của một xâu \(Y\) nếu \(X\) là một chuỗi các ký tự liên tiếp của \(Y\). Ví dụ:
abvàbclà 2 xâu con củaabcd. Nhưngacthì không phải là xâu con củaabcd. - Một xâu \(X\) là tiền tố (prefix) của một xâu \(Y\) nếu \(X\) là xâu con của \(Y\) và \(X\) xuất hiện ở đầu của xâu \(Y\). Ví dụ:
ablà tiền tố củaabcd, nhưngbckhông phải là tiền tố củaabcd. Một xâu \(X\) là một tiền tố không tầm thường (proper prefix) của xâu \(Y\) nếu nó là tiền tố của xâu \(Y\) và khác xâu \(Y\). - Một xâu \(X\) là hậu tố (hậu tố) của một xâu \(Y\) nếu \(X\) là xâu con của \(Y\) và \(X\) xuất hiện ở cuối của xâu \(Y\). Ví dụ:
cdlà hậu tố củaabcd, nhưngbckhông phải là hậu tố củaabcd. Một xâu \(X\) là một hậu tố không tầm thường (proper suffix) của xâu \(Y\) nếu nó là hậu tố của xâu \(Y\) và khác xâu \(Y\).
Các dạng bài¶
So khớp chuỗi (string matching)¶
Cho một xâu \(T\) và xâu \(S\). Tìm tất cả các lần xuất hiện của xâu \(S\) trong xâu \(T\).
Ví dụ:
Bài toán này còn được gọi là tìm kiếm cây kim (needle) trong đống rơm (haystack), vì nó xuất hiện trong thực tế khi ta cần tìm một xâu rất nhỏ trong một lượng dữ liệu rất lớn (ví dụ Google cần tìm từ khóa trong hàng tỉ tỉ trang web).
Có 3 thuật toán chính để giải quyết bài này, đó là:
Xâu đối xứng (Palindrome)¶
Palindrome hay còn gọi là xâu đối xứng, xâu đối gương là tên gọi của những xâu kí tự mà khi viết từ phải qua trái hay từ trái qua phải thì xâu đó không thay đổi. VD: MADAM, IOI,...
Có rất nhiều bài tập liên quan đến xâu đối xứng. Các bạn có thể tìm đọc ở trong các bài viết:
Cấu trúc dữ liệu¶
- Trie là CTDL cơ bản nhất trong xử lý xâu. Nó giúp giải quyết các bài toán về tìm kiếm xâu.
-
Lớp CTDL được gọi chung là Suffix Structures gồm:
- Suffix Array
- Suffix Automaton
- Suffix Tree
- Aho Corasick
Gọi chung như vậy vì các CTDL này có thể dùng thay thế nhau để giải quyết cùng một lớp bài toán liên quan đến các suffix của cây.
Các bài Ad-hoc¶
Trong xử lý xâu còn một vài thuật toán chỉ áp dụng được cho 1 bài toán (ad-hoc).
Thuật toán Manacher¶
Bài toán
Cho xâu \(S\).
- Với mỗi vị trí \(i\) của xâu \(S\), tìm xâu đối xứng dài nhất nhận \(i\) là tâm.
- Với mỗi cặp \(i\), \(i+1\) của xâu \(S\), tìm xâu đối xứng dài nhất nhận \(i\) và \(i+1\) là tâm.
Mô tả thuật toán
Tham khảo thêm ở link
Code
Minimal string rotation¶
Bài toán
Cho một xâu \(S\). Xét các xâu thu được từ xâu \(S\) bằng phép xoay. Ví dụ: S = abcd, thì các xâu thu được từ \(S\) bằng phép xoay là:
abcdbcdacdabdabc
Tìm xâu có thứ tự từ điển nhỏ nhất.
Mô tả thuật toán
Bạn có thể xem ở đây
Code
Lyndon Decomposition¶
Bài toán
Lyndon word là các xâu khác rỗng, mà có thứ tự từ điển nhỏ hơn tất cả các xâu thu được bằng phép xoay của nó.
Cho một xâu \(S\). Tìm cách tách \(S\) thành ít nhất các xâu, sao cho mỗi xâu đều là Lyndon word.
Code