a †‹gæ&ã@s<dZddlZddlZddlmZmZddlZdZdZdZ dZ dZeed œd d„Z eed œdd „Zeed œdd„Zeed œdd„Zeed œdd„Zeeeedœdd„Zeed œdd„Zeed œdd„Zeeeedœdd„Zeeeedœdd„Zeed œdd „Zeeeedœd!d"„Zeeeedœd#d$„ZdS)%z Preprocessing for ULMFiT éN)Ú CollectionÚListZxxunkZxxrepZxxwrepZxxendZxxurl)ÚtextÚreturncCsd}t |t|¡S)a Replace URL in `text` with TK_URL :param str text: text to replace URL in :return: text with URLs replaced :rtype: str :Example: >>> from pythainlp.ulmfit import replace_url >>> replace_url("go to github.com") go to xxurl uÐ(?i)\b((?:https?:(?:/{1,3}|[a-z0-9%])|[a-z0-9.\-]+[.](?:com|net|org|edu|gov|mil|aero|asia|biz|cat|coop|info|int|jobs|mobi|museum|name|post|pro|tel|travel|xxx|ac|ad|ae|af|ag|ai|al|am|an|ao|aq|ar|as|at|au|aw|ax|az|ba|bb|bd|be|bf|bg|bh|bi|bj|bm|bn|bo|br|bs|bt|bv|bw|by|bz|ca|cc|cd|cf|cg|ch|ci|ck|cl|cm|cn|co|cr|cs|cu|cv|cx|cy|cz|dd|de|dj|dk|dm|do|dz|ec|ee|eg|eh|er|es|et|eu|fi|fj|fk|fm|fo|fr|ga|gb|gd|ge|gf|gg|gh|gi|gl|gm|gn|gp|gq|gr|gs|gt|gu|gw|gy|hk|hm|hn|hr|ht|hu|id|ie|il|im|in|io|iq|ir|is|it|je|jm|jo|jp|ke|kg|kh|ki|km|kn|kp|kr|kw|ky|kz|la|lb|lc|li|lk|lr|ls|lt|lu|lv|ly|ma|mc|md|me|mg|mh|mk|ml|mm|mn|mo|mp|mq|mr|ms|mt|mu|mv|mw|mx|my|mz|na|nc|ne|nf|ng|ni|nl|no|np|nr|nu|nz|om|pa|pe|pf|pg|ph|pk|pl|pm|pn|pr|ps|pt|pw|py|qa|re|ro|rs|ru|rw|sa|sb|sc|sd|se|sg|sh|si|sj|Ja|sk|sl|sm|sn|so|sr|ss|st|su|sv|sx|sy|sz|tc|td|tf|tg|th|tj|tk|tl|tm|tn|to|tp|tr|tt|tv|tw|tz|ua|ug|uk|us|uy|uz|va|vc|ve|vg|vi|vn|vu|wf|ws|ye|yt|yu|za|zm|zw)/)(?:[^\s()<>{}\[\]]+|$[^\s()]*?\([^\s()]+$[^\s()]*?\)|$[^\s]+?$)+(?:$[^\s()]*?\([^\s()]+$[^\s()]*?\)|$[^\s]+?$|[^\s`!()\[\]{};:'".,<>?Â«Â»â€œâ€â€˜â€™])|(?:(?>> from pythainlp.ulmfit import fix_html >>> fix_html("Anbsp;amp;nbsp;B @.@ ") A & B. z +z#39;ú'zamp;ú&z#146;znbsp;ú z#36;ú$z\nÚ zquot;z
z\"ú"zz @.@ Ú.z @-@ ú-z @,@ ú,ú\z \ )rÚcompileÚreplaceÚ_TK_UNKrÚhtmlÚunescape)rZre1r r r Úfix_html's< ÿþýüûúùø ÷ öõô óÿrcCst dd|¡S)z7Remove multiple spaces in `text`. (codes from `fastai`)z {2,}r©rr©rr r r Úrm_useless_spacesJsrcCst dd|¡S)z>> from pythainlp.ulmfit import replace_rep_after >>> >>> text = "à¸à¸²à¸²à¸²à¸²à¸²à¸²à¸²" >>> replace_rep_after(text) 'à¸à¸²xxrep7 ' cSs&| ¡\}}|›t›t|ƒd›dS)Nér)ÚgroupsÚ_TK_REPÚlen)ÚmÚcÚccr r r Ú_replace_repisz'replace_rep_after.._replace_repú(\S)(\1{3,})©rrr©rr'Zre_repr r r Úreplace_rep_afterTs r+)ÚtoksrcCspd}d}g}|tgD]L}||kr,|d7}n2||k|dk@rT|tt|ƒ|g7}d}n | |¡|}q|dd…S)u% Replace repetitive words after tokenization; fastai `replace_wrep` does not work well with Thai. :param list[str] toks: list of tokens :return: list of tokens where **xxwrep** token and the counter is added before repetitive words. :rtype: list[str] :Example: >>> from pythainlp.ulmfit import replace_wrep_post_nonum >>> >>> toks = ["à¸à¸²", "à¸™à¹‰à¸³", "à¸™à¹‰à¸³", "à¸™à¹‰à¸³", "à¸™à¹‰à¸³"] >>> replace_wrep_post(toks) ['à¸à¸²', 'xxwrep', '3', 'à¸™à¹‰à¸³'] Nrr )Ú_TK_ENDÚ_TK_WREPÚstrÚappend©r,Z previous_wordZ rep_countÚresZcurrent_wordr r r Úreplace_wrep_postrs r3cCst dd|¡S)z#Remove multiple newlines in `text`.z[\n]{2,}rrrr r r Úrm_useless_newlines•sr4cCs¬t dd|¡}t dd|¡}t dd|¡}t dd|¡}t dd|¡}t dd|¡}t dd|¡}t d d|¡}t d d|¡}t dd|¡}t dd|¡}t d d|¡}|S)zDRemove all empty brackets and artifacts within brackets from `text`.zÚz\{\}z\[\]u$[^a-zA-Z0-9à¸-à¹™]+$u\{[^a-zA-Z0-9à¸-à¹™]+\}u\[[^a-zA-Z0-9à¸-à¹™]+\]u1(?<=$)[^a-zA-Z0-9à¸-à¹™]+(?=[a-zA-Z0-9à¸-à¹™])u1(?<=\{)[^a-zA-Z0-9à¸-à¹™]+(?=[a-zA-Z0-9à¸-à¹™])u1(?<=\[)[^a-zA-Z0-9à¸-à¹™]+(?=[a-zA-Z0-9à¸-à¹™])u1(?<=[a-zA-Z0-9à¸-à¹™])[^a-zA-Z0-9à¸-à¹™]+(?=$)u1(?<=[a-zA-Z0-9à¸-à¹™])[^a-zA-Z0-9à¸-à¹™]+(?=\})u1(?<=[a-zA-Z0-9à¸-à¹™])[^a-zA-Z0-9à¸-à¹™]+(?=\])r)rÚnew_liner r r Úrm_brackets›s2ÿÿÿÿÿÿr7cCs>g}|D]0}t |¡t|ƒkr.| t|ƒ¡q| |¡q|S)zd Ungroup Zero Width Joiner (ZVJ) Emojis See https://emojipedia.org/emoji-zwj-sequence/ )ÚemojiZemoji_countr#ÚextendÚlistr0)r,r2Útokr r r Ú ungroup_emoji¼sr<cCsdd„|DƒS)zt Lowercase all English words; English words in Thai texts don't usually have nuances of capitalization. cSsg|]}| ¡‘qSr )Úlower)Ú.0r;r r r Ú Ðóz!lowercase_all..r )r,r r r Ú lowercase_allËsrAcCsdd„}t d¡}| ||¡S)ul Replace repetitions at the character level in `text` after the repetition. This is done to prevent such case as 'à¸™à¹‰à¸à¸¢à¸¢à¸¢à¸¢à¸¢à¸¢à¸¢à¸¢' becoming 'à¸™à¹‰à¸ xxrep à¸¢'; instead it will retain the word as 'à¸™à¹‰à¸à¸¢ xxrep ' :param str text: input text to replace character repetition :return: text with repetitive token **xxrep** after character repetition :rtype: str :Example: >>> from pythainlp.ulmfit import replace_rep_nonum >>> >>> text = "à¸à¸²à¸²à¸²à¸²à¸²à¸²à¸²" >>> replace_rep_nonum(text) 'à¸à¸² xxrep ' cSs| ¡\}}|›dt›dS)Nr)r!r")r$r%Ú_r r r r'ész'replace_rep_nonum.._replace_repr(r)r*r r r Úreplace_rep_nonumÓs rCcCsjd}d}g}|tgD]F}||kr,|d7}n,||k|dk@rN|t|g7}d}n | |¡|}q|dd…S)u Replace reptitive words post tokenization; fastai `replace_wrep` does not work well with Thai. :param list[str] toks: list of tokens :return: list of tokens where **xxwrep** token is added in front of repetitive words. :rtype: list[str] :Example: >>> from pythainlp.ulmfit import replace_wrep_post_nonum >>> >>> toks = ["à¸à¸²", "à¸™à¹‰à¸³", "à¸™à¹‰à¸³", "à¸™à¹‰à¸³", "à¸™à¹‰à¸³"] >>> replace_wrep_post_nonum(toks) ['à¸à¸²', 'xxwrep', 'à¸™à¹‰à¸³'] Nrr )r-r.r0r1r r r Úreplace_wrep_post_nonumñs rDcCs(g}|D]}| ¡}|r| |¡q|S)z¾ Do not include space for bag-of-word models. :param list[str] toks: list of tokens :return: list of tokens where space tokens (" ") are filtered out :rtype: list[str] )Ústripr0)r,r2Útr r r Úremove_spaces rG)Ú__doc__rrÚtypingrrr8rr"r.r-rr/rrrrr+r3r4r7r<rArCrDrGr r r r Ús,##!#