https://github.com/thunlp/THULAC-Python
Raw File
Tip revision: 3f1f126cd92c3d2aebdf4ab4850de3c9428a3b66 authored by Zhipeng Guo on 22 June 2018, 02:59:37 UTC
Update Postprocesser.py
Tip revision: 3f1f126
ChangeLog.txt
2017-01-17:
===============================
1. 在pip上发布THULAC python版本,重新整理并定义了接口,方便用户使用;
2. 增加用户自定义字典功能;
3. 增加时间词,标点符号的后处理;
4. 与其他语言版本同步。



2017-01-11:
===============================
1. 增加了自动分句功能,如果一段话(读入的一行)超过了50000字,会按照常见句子结束符(。!?:!?: 7种)作为分隔符进行切分;
2. 现在在分词的时候,中文和英文不会被分到一起,会严格分开。



2016-11-28:
===============================
1. 兼容python3.x。



2016-11-23:
===============================
1. 将对@(邮箱)的特殊处理去掉,并增加@和;当做正常的分隔符加入前处理;
2. 将对网址的特殊处理去掉,并增加=当做正常的分隔符加入前处理;
3. 修改《》中的空格的bug。



2016-05-07:
===============================
1. 在github上发布THULAC python版本;
back to top