2023-12-19 分类:未分类
阅读() 评论(0)
本软件下载地址未录入,如想要软件请评论,我们会补上!
好又快词法分析系统是由北京法国电信研发中心历经多年研发而形成的具有世界先进水平的分词和未登录词识别系统,该系统采用由字构词的技术路线和基于分类的判别式建模(如图1),克服了传统词法分析系统中生成式建模的理论假设缺陷,具有理论基础完备、分词精度高、处理速度快、学习效率高、新应用新语种部署快等诸多优势。同时,好又快词法分析系统在国际权威的SIGHAN中文分词和未登录词识别评测中获得多项第一,显著的综合性能为好又快词法分析系统奠定了坚实的技术基石。
主要功能
智能分词 切分歧义消解 词性标注 新词识别 支持用户词典
特色优势
1. 理论基础完备(代表未来技术方向)
传统词法分析采用生成式建模,这种建模技术要求语言必须符合马尔可夫性假设,而该假设在实际文本中并不成立;好又快词法分析系统建立在无需任何假设前提的判别式建模理论之上,建模理论完备。同时好又快词法分析系统采用由字构词的技术路线,以字为处理单元来确定词的边界,实现了对传统词法分析技术的突破性改进,确保机器的分词过程更接近人脑对文本中词语的识别,全面提高了词法分析准确率。
2. 分词精度高(提高业务量)
人们利用互联网获取信息时,往往对人名、地名、机构名、商品名等所表达的信息非常感兴趣,而这些词大都是未登录词,所以识别出更多的未登录词是提高信息服务系统业务量的关键。传统词法分析技术中的未登录词识别过于依赖外部触发知识(如人名姓氏、地名、机构名、商品名关键词),如果触发知识不完备,部分未登录词就无法识别;但倘若触发知识过多,又会引入不必要的错误。好又快词法分析系统完全克服此技术难题,识别未登录词不需要任何词典和外部触发知识,能准确识别出更多的未登录词,力保业务系统有更高查全率。此外,传统词法分析系统中切分歧义的识别取决于词典词汇量的大小,词典词汇量大,就>
会识别出过多的歧义,词汇量太小,许多歧义又不能识别出来。好又快词法系统采用的由字构词的技术路线,识别歧义无需任何词典,也大大提高了词法分析系统的查全率和查准率。
3. 处理速度快(降低计算成本)
传统词法分析系统需要先查词典来识别切分歧义,再经过若干个未登录词识别过程以挑选出未登录词候选,最后通过最优化搜索才能完成词语边界的确定。好又快词法分析系统无需词典查询环节,切分歧义识别、未登录词识别和确定词语边界仅需一个最优化搜索过程即可轻松完成,使得处理速度大大提高,有效提高了业务系统的处理能力并大大降低了企业的计算成本。经过测试,商业版的好又快分词系统平均每秒可以处理150-200万字,远远超过市场上普通分词系统的速度。
4. 分词与未登录词识别可分离(降低采购成本)
传统词法分析系统中未登录词识别要求与登录词识别同时进行,好又快词法系统则无此局限性,分词与未登录词识别既可同时进行,也可单独处理,带给客户更多选择,同时兼顾降低客户的采购成本。
5. 新业务新语种部署周期短(缩短业务部署时间)
能从有限的学习语料中挖掘出更多的语言知识是好又快词法分析系统的显著优势。实验表明:训练相同性能的词法分析系统,好又快词法分析系统仅仅需要相当于传统建模技术1/10的学习材料。卓越的学习能力确保好又快词法分析系统应用到新领域时能大大缩短业务的部署时间,并便于快速扩展到其他语种。
6. 适用性广(提高业务系统的灵活性)
好又快词法分析系统具有广泛的适用性,系统能够在包括Windows、Linux和Unix等多种平台;GB2312、BIG5、GB18030、UTF8和Unicode等多种编码;中文简体、中文繁体、日文和韩文等多个语种;通用、财经、餐饮、旅游等多个领域;以动态链接库、COM组件和JAVA包等多种模式灵活使用,可以为客户量身定做出符合需求的词法分析系统。
7. 第三方权威高度认可(降低技术风险)
好又快词法分析技术得到了国际权威评测的充分认可。在第三届和第四届国际中文分词和未登录词识别评测中,连续获得了包括中文简体和中文繁体的分词和未登录词识别多项第一名。
8. 研发实力强(技术支持有保障)
背靠法国电信R&D强大的研发实力(遍布全球18个研发中心,4600多名研发人员,8000余件专利),法国电信研发中心在词法分析和其他自然语言处理方向上,拥有庞大的研发队伍,能够快速响应客户的各种需求和技术支持问题。
技术指标
切分精度:免费版97.5%,商用版不低于98%
切分速度:免费版100-120万字/,商用版不低于150万字/s
支持平台:Wndows2000、WindowsNT、WndowsXP、Vista、Linux
支持语种:中文简体、中文繁体、日、韩
支持编码:GB2312、BIG5、GB18030、UTF8、UNICODE
应用模式:C++ 动态链接库API、C++ COM组件;JAVA
接口规范:文件切分和字符串切分两种接口
支持领域:通用领域、新闻、金融、餐饮、化妆品等
用户词典:可根据业务需要添加用户词汇
>
标题:《好又快词法分析系统 1.0》
链接:
https://www.lvruan.com/app/47283
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。
LvRuan.com=绿软=绿盟=绿色软件联盟情怀第一 18年 老牌 下载站 绿色 安全 无广告 无捆绑