成果、专家、团队、院校、需求、企业在线对接

网络大数据内容安全监测服务系统

成果编号:34269
价格:面议
完成单位:江苏省产业技术研究院未来网络技术研究所
单位类别:其他院所
完成时间:2020年
成熟程度:批量生产阶段
服务产业领域: 电子信息、其他
发布人:ganzhi1603 离线
江苏省产业技术研究院未来网络技术研究所-网络感知与资源管理团队长期聚焦互联网内容安全监测方向,充分发挥网络大数据采集、分析和自然语言处理等新一代信息技术优势,创新性的构建了语义通顺度模型算法库,积累了千万级的核心、专业词库,研发推出了网络大数据内容安全监测服务平台,助力党、政、军、教育等行业用户解决网站及新媒体的内容安全保障问题。 该系统通过系统研究中文的拼音、语法、词法和章法构建一套基于微服务架构的政务领域自然语言分析、纠错、评测平台,帮助各政府网站及政务新媒体提高其所发布信息的准确性,从而提升相关工作人员的效率和效果、减少人工校验成本,并降低因表述不当等问题引发不良社会舆论的风险。 网络大数据内容安全监测服务系统采用自然语言处理分析技术探索在政务领域网站内容安全监测中的具体应用,在业界探索性的提出从拼音角度出发辨别长词的准确性,进而在此基础上创建大规模政务词库,建设基于人工智能的AI-NLP纠错平台,构建政务领域自然语言分析评测模型体系,力争为业界建立行业标准提供参考性意见,并为降低社会负面舆论风险、提升网站内容安全作出贡献。
710 次浏览 分享到

成果介绍

科技计划:
成果形式:新产品
合作方式:其他
参与活动: 2022年高校院所服务苏北五市产学研合作对接活动 第二届江苏产学研合作对接大会 2023年高校院所服务苏北五市产学研合作对接活动
专利情况: 正在申请 ,其中:发明专利 7
已授权专利,其中:发明专利 0
专利号:
202011616331.X
202111394371.9
202111204752.6
202111203237.6
202211098249.1
202211263443.0
202211717290.2
成果简介
成果概况
江苏省产业技术研究院未来网络技术研究所-网络感知与资源管理团队长期聚焦互联网内容安全监测方向,充分发挥网络大数据采集、分析和自然语言处理等新一代信息技术优势,创新性的构建了语义通顺度模型算法库,积累了千万级的核心、专业词库,研发推出了网络大数据内容安全监测服务平台,助力党、政、军、教育等行业用户解决网站及新媒体的内容安全保障问题。 该系统通过系统研究中文的拼音、语法、词法和章法构建一套基于微服务架构的政务领域自然语言分析、纠错、评测平台,帮助各政府网站及政务新媒体提高其所发布信息的准确性,从而提升相关工作人员的效率和效果、减少人工校验成本,并降低因表述不当等问题引发不良社会舆论的风险。 网络大数据内容安全监测服务系统采用自然语言处理分析技术探索在政务领域网站内容安全监测中的具体应用,在业界探索性的提出从拼音角度出发辨别长词的准确性,进而在此基础上创建大规模政务词库,建设基于人工智能的AI-NLP纠错平台,构建政务领域自然语言分析评测模型体系,力争为业界建立行业标准提供参考性意见,并为降低社会负面舆论风险、提升网站内容安全作出贡献。
创新要点
1)基于拼音的长词同音错误检测 本项目基于拼音的长词同音错误检测能力则可以大大降低这种因素所导致的错误率上升。 2)基于相似度检测涉政短语、短句纠错模型 涉政类的短语短句具有较强的规范性、严肃性,词序、标点等都不能出错,通用的自然语言。本项目基于规范的涉政表述和相似度检测模型,能够识别不规范的表述并进行纠错。 3)政务领域自然语言分析评测模型 系统通过人工和程序自动的方式收集大量语料,并在此基础上建立通用自然语言分析评测模型。 为建立国内公立的第三方政务网站内容安全分析评测系统提供建设性意见,提出可演进的评测标准和评测模型,为中文NLP方向科研事业提供支持,为政务网站及新媒体内容安全提供保障。 4)语义通顺度语言模型(SFLM,Semantic Fluency Language Model) 项目提出的全新的基于语义通顺度语言模型的纠错方法,在政宣领域已经达到业界先进水平,模型利用覆盖全国建制市的近万个政府部门网站、新媒体等发布的公告、公文和新闻动态等为基础语料库的原材料,持续改进政宣领域特征模型,并将该模型拓展至生物、医疗、化工、计算机等专业领域,助力NLP助力全行业发展。
主要技术指标
(1)该系统建有SaaS服务平台,覆盖3000亿汉字语料,内嵌79个专业词库、5000万条专业词汇、600万条错别字词核心词库; (2)系统已完成可供实际使用的文本校对检测工具1套,可进行多种内容安全监测服务:浏览器内容检测插件、Word内容检测插件、WPS内容检测插件、内容安全检测接口服务、图片内容安全检测服务;完成可供实际使用的自然语言分析评测示范平台 1 套; (3)提出以行业语料库为基础,基于语义通顺度语言模型体系,以准确率、漏检率、错检率为基础评价标准的自然语言分析评测模型,构建政务领域常用字词及易错字词基础信息库,为新时代党政部门公文及涉政新闻网络传播领域提供文本校对检测、舆情分析、民意关注度分析等服务,提供准确、灵活、可扩展的公立开放的评测平台,提升涉政宣传的严谨性、准确性和公信力。
其他说明
产品自上线以来,服务用户1000+,服务网站10000+ 产品功能介绍如下: 错别文字检测 检测项覆盖涉政表述错误、错别字(音近、形近、多字少字)、标点问题、日期问题、省市不对应等。 敏感字词检测 检测项覆盖政治类(含落马官员)、色情类、赌博类、暴恐类、邪教类、社会类、非法网址类、违禁品 信息、违法网络广告类、个人信息(身份证号、手机号和银行卡号)、部队番号泄漏、涉密文件等。 非法链接检测 稳定高效的暗链、黑链、伪链探测引擎,全面排查站点中反动、邪教、涉黄、涉赌和游戏类的非法链接及动态生成域名 (DGA)。 无效链接检测 全面检测站点内4大类无效链接;图片、文档、音视频和网页。 站点篡改监测 站点篡改监测引擎全天候监测站点状态,发现异常及时告警,避免造成严重安全事故和负面影响。 站点/业务系统可用性监测 全国多个运营商网络节点对站点/业务系统进行监测,监测频率多档可选,发现不可用立即进行多途径实 时告警。 图片音视频检测 支持检测图片、音频、视频中的涉政表述错误、错别字、敏感词、涉黄涉暴涉恐内容和落马官员等信息。
完成人信息
姓名:对接成功后可查看
所在部门:对接成功后可查看
职务:对接成功后可查看
职称:对接成功后可查看
手机:对接成功后可查看
E-mail:对接成功后可查看
电话:对接成功后可查看
传真:对接成功后可查看
邮编:对接成功后可查看
通讯地址:对接成功后可查看
联系人信息
姓名:对接成功后可查看
所在部门:对接成功后可查看
职务:对接成功后可查看
职称:对接成功后可查看
手机:对接成功后可查看
E-mail:对接成功后可查看
电话:对接成功后可查看
传真:对接成功后可查看
邮编:对接成功后可查看
通讯地址:对接成功后可查看
附件

咨询与解答