Om sintokenisering uit te voer, kan ons the re. verdeel funksie. Dit sal die teks in sinne verdeel deur 'n patroon daarin deur te gee.
Wat is woordtokenisering?
Tokenisering is die proses om teks in kleiner stukke op te breek, genoem tokens. Hierdie kleiner stukke kan sinne, woorde of subwoorde wees. Byvoorbeeld, die sin "Ek het gewen" kan geteken word in twee woordtekens "I" en "won".
Wat is 'n tokeniseringsin?
Sintokenisering is die proses om teks in individuele sinne te verdeel. … Nadat die individuele sinne gegenereer is, word die omgekeerde vervangings gemaak, wat oorspronklike teks in 'n stel verbeterde sinne herstel.
Wat is tokenisering verduidelik met 'n voorbeeld?
Tokenisering is 'n manier om 'n stuk teks in kleiner eenhede te skei, genaamd tokens. … As spasie as 'n afbakening aanvaar word, lei die tokenisering van die sin tot 3 tekens – Moet nooit opgee nie. Aangesien elke teken 'n woord is, word dit 'n voorbeeld van Woord-tokenisering. Net so kan tekens óf karakters óf subwoorde wees.
Wat doen Tokenizing in Python?
In Python verwys tokenisering basies na die opdeel van 'n groter liggaam teks in kleiner reëls, woorde of selfs die skep van woorde vir 'n nie-Engelse taal. Die verskillende tokeniseringsfunksies is ingebou in die nltk-module self en kan in programme gebruik word soos hieronder getoon.