Tartalomjegyzék:
Meghatározás - Mit jelent a tokenizálás?
A tokenizálás a karakterlánc-sorozat darabokra bontása, például szavak, kulcsszavak, mondatok, szimbólumok és egyéb elemek, úgynevezett tokenek. A zsetonok lehetnek szavak, kifejezések vagy akár egész mondatok. A tokenizálás során néhány karaktert, például az írásjeleket, eldobják. A tokenek egy másik folyamat, például az elemzés és a szövegbányászás bemeneteivé válnak.
A tokenizálást a számítástechnikában használják, ahol nagy szerepet játszik a lexikai elemzés folyamatában.
A Techopedia magyarázza a tokenizálást
A tokenizálás elsősorban az egyszerű heurisztikára támaszkodik, hogy a tokeneket néhány lépéssel elválaszthassa:
- A tokeneket vagy a szavakat szóköz, elválasztójel vagy vonalszakadás választja el egymástól
- A szóközt vagy az írásjeleket szükség esetén szükség esetén lehet vagy nem
- A szomszédos karakterláncokban szereplő összes karakter a token része. A tokenek alfabetikus karakterekből, alfanumerikus karakterekből vagy numerikus karakterekből állhatnak.
Maguk a tokenek szintén elválasztók lehetnek. Például a legtöbb programozási nyelvben az azonosítók aritmetikai operátorokkal együtt helyezhetők el, szóköz nélkül. Noha úgy tűnik, hogy ez egyetlen szóként vagy tokenként jelenik meg, a nyelv grammatikája a matematikai operátort (tokent) valójában elválasztónak tekinti, így még ha több tokent össze is kötnek, akkor is elválaszthatók a matematikai úton operátor.