当前位置:首页 > AI资讯 > 正文内容

基于Milvus向量引擎的WPS智能写作平台架构实践

wxianyue1个月前 (05-16)AI资讯44

不知道如何写作文章,推荐国内最强的AI写作工具,帮你写爆款文案

作者 | 王浪、陈启贤

结合当下流行的 NLP 等人工智能相关技术,金山办公软件有限公司武汉 AI 部门自主研发了 WPS 智能辅助写作平台。利用意图识别、文本聚类等语义匹配算法,该平台实现了 AI 辅助用户写稿创作,并具备公文模板、素材推荐和辅助生成等特色功能,同时还实现了公文素材的海量收集,数据规模达到千万级文章、百万级提纲和段落。

整体架构

在 WPS 智能辅助写作平台重要组成部分的素材推荐模块中,基于 的向量处理模块作为核心功能,发挥了极其重要的作用,其目标是在海量的文本中高效提取、存储高质量公文素材,并针对不同用户需求进行精准推荐。

本案例的素材推荐服务按模块可以分为数据处理模块和编码存储模块以及推荐查询模块。涉及到 向量数据库的主要是编码存储模块以及推荐查询模块。

数据处理模块主要分为数据清洗、提纲及段落抽取,从海量数据中得到筛选后的提纲、段落数据。

编码存储模块则涉及到文本编码和向量存储两部分。文本编码通过深度学习方法得到 256 维高维向量,再将向量及其对应的原文 id 等信息插入 向量数据库,并按照 提供的索引建立方法 对每条数据建立索引。

推荐查询模块则根据用户输入等搜索条件进行编码得到输入搜索向量,在 向量数据库中使用官方提供的相似度计算方法 (L2 距离) 进行最近邻搜索,返回粗召回的向量和原文 id 等,再通过画像、模型等进行精准排序推荐。

组件 / 技术

在数据处理模块,所用方法主要涉及到特征工程、正则匹配及 NLP 模型打分等。

文档是人类使用复杂语义的代表,从字到词、句子、段落和文章,多层次分布着大量的语义信息。对文档建立特征工程,是最大化提取语义特征的有效途径之一。

结合实际文本数据智能写作平台,本案例选择从词汇、句子等多级别出发,建立文档的词汇特征和语句特征。

在词汇特征级别上,经过分词建立语料词库,再通过 TF-IDF 算法,

计算单词频率项 (TF):

以及逆文档频率项 (IDF):

得到 TF-IDF 值:

经过排序提取出文档关键词。

同时考虑到对象文本含有大量的人名、机构名称等实体词汇,这些实体在排序召回尤其是精准排序时发挥了巨大作用,因此采用深度学习模型:BLSTM-CNNs-CRF 对文档中的实体词进行抽取。

BLSTM-CNNs-CRF 模型可以分为三个部分,首先在字符级别嵌入 (Char ) 的基础上,使用 CNN 模型对每个单词计算其字符级别表示 (Char ),再将该结果连接到单词级别嵌入向量 (Word )智能写作平台,输送到双向长短期记忆网络 (BLSTM),最后将 BLSTM 的输出反馈到条件随机场 (CRF),共同解码最佳标签序列。

在语句特征级别上,本案例使用 抽取文档中表达观点的摘要性句子作为文档关键句, 算法作为一种抽取式的无监督的文本摘要方法,借鉴了用于对在线搜索结果中的网页进行排序的 算法,通过分割文本、向量化并建立图模型, 利用转移概率矩阵对文本语句进行排序, 在文档内部实现了关键句抽取。

同时本案例还训练了一个 模型用于提取文档中的高质量段落和语句,将抽取任务看作分类任务,为了更好的捕捉语句之间的局部相关性,本案例在使用预训练的词向量 () 基础上,利用多个不同大小 (Size) 的卷积核 (),实现语句对单词的强关联。

主要分为嵌入层 ()、卷积层 ()、池化层 () 和全连接输出层 (Full- and ),作为常用的文本分类算法之一,其优势体现在结构简单,效果良好,可扩展性强。

在编码存储模块,编码主要使用语义理解模型,在存储中主要用到了索引 Index 组件。

在编码部分,传统的语句嵌入多使用无监督方法,然而这些方法在处理长语句时不够鲁棒。在本案例场景下,采用了有监督训练方法的语句嵌入模型中的 模型,尽可能对句子进行通用表征。

作为有监督模型, 选取 SNLI 作为分类任务,通过设计好的编码器 () 对句子对 (text, ) 进行编码得到其对应的特征向量 U、V,经过连接、差值和内积后得到分类所用的特征,经过全连接层和 层后输出对应分类 (),在训练完成后即可通过 得到语句的编码向量。

在索引部分, 索引是作为针对欧式距离计算设计的暴力搜索索引,但考虑到际应用场景,本案例选择了在 索引基础上添加聚类的 IVF-FLAT 索引,通过划分搜索空间,在查询时检索某几个聚类,大大加快了整体速度。

本案例也用到了 的分区功能,为数据划分不同的种类,使得查询变得更加快速和准确。

线上服务部分主要使用 K8s 共享集群,同时考虑具体数据内容,选择 mysql 保存元数据信息,没有使用默认的 ,侧面也反映了 组件的灵活性。

性能目标

目前部署于 0.6.0-CPU 版本 向量数据库约有 200 万文本,用于支持 WPS 智能辅助写作微信小程序搜索,同时正在处理增加数据,预计可以达到千万级规模语料。

在响应时间方面,本案例使用共享集群AI一键帮你写论文,计算资源被其他应用所共享,因此本案例的数据只能作为参考标志,在目前的版本中单次单条服务总体响应时间平均达到 0.2s。

应用效果

在面向党政领域的素材智能推荐功能上,意图识别准确率达 80% 以上,用户素材引用率达 40%;在面向公文领域的辅助生成功能上,实现了多类法定公文的写作模板和辅助创作,并支持一键生成全文。

以 WPS 智能辅助写作网页客户端为例,现支持工作总结、心得体会以及评论观点等 9 类常见公文类型的辅助写作,辅助功能则主打一键全文和智能生成功能。一键全文功能通过对标题、关键词的意图理解,通过相关推荐算法选择合适的提纲和段落,生成一篇完整的文章供用户修改使用。而特色的智能生成功能则先初步为用户提供多篇可更换的提纲段落,同时在用户修改创作过程中,通过 AI 生成算法对选中字段结合上下文语境生成适度文字段落供用户引用和发散思维,达到以人为主、辅助创作的效果。

WPS 智能辅助写作平台微信小程序在相关公文功能的基础上,开发了诸如诗词创作、信件模板推荐等实用功能,同时引入了写作社区,方便用户开拓视野、分享创作,以文交友,进一步提升写作体验。

你也「在看」吗?

扫描二维码推送至手机访问。

版权声明:本文由共享商业学院发布,如需转载请注明出处。

本文链接:https://pplcom.com/post/54153.html

分享给朋友:

相关文章

ChatGPT引领突破!人工智能加速度,中国企业紧紧跟住

ChatGPT引领突破!人工智能加速度,中国企业紧紧跟住

【环球时报报道 记者 杨沙沙 赵觉珵 倪浩 丁雅栀 甄翔】能搜索、能编程、能写诗、能写剧本,甚至还能写论文,凭借前所未有的“智商”以及更贴近人类的“思维”,人工智能研究公司的人工智能聊天机器人模型成为...

chat gpt人工智能官网入口在哪 chat gpt人工智能官网入口网址分享

chat gpt人工智能官网入口在哪 chat gpt人工智能官网入口网址分享

chat gpt人工智能是一种人工智能模型gpt人工智能,基于架构并使用无监督学习的方式进行预训练,用于各种人工智能任务。可以自动学习并处理人类自然语言,并生成接近人类水平的文本,那么chat gpt...

ChatGPT对学术期刊影响如何

ChatGPT对学术期刊影响如何

2022年11月30日,人工智能实验室发布了全新聊天机器人模型,究其本质,这是一款人工智能技术驱动的自然语言处理工具。作为一款大型语言模型,在经历了技术不断迭代完善后,甫一问世便引起了广泛关注。调查显...

人工智能的最新发展:技术、应用与未来

人工智能的最新发展:技术、应用与未来

GPT( Pre- )是一种通用的自然语言处理(NLP)技术,用于帮助计算机理解文本。它可以利用文本数据来构建交互式的模型,可以更好地理解文本内容,从而更好地进行文本分析。同时,GPT 技术还可以用于...

比尔盖茨:超级人工智能还没来,GPT模型是40余年来最革命性技术进步

比尔盖茨:超级人工智能还没来,GPT模型是40余年来最革命性技术进步

比尔·盖茨认为人工智能(AI)可与手机、互联网比肩齐声。 当地时间3月21日,微软公司创始人比尔·盖茨在其博客文章《人工智能时代已经开启》中表示,自1980年首次看到图形用户界面( user )以来,...

Inno关键词丨GPT和人工智能(上篇)

Inno关键词丨GPT和人工智能(上篇)

全球供需对接平台致力于形成需求引导、成果匹配、服务跟进的综合生态,打造创新链和产业链双向联通的“双向快车道”。 近日,在AI领域风头正盛的母公司Open AI正式宣布进军人形机器人方向,试图打破AI...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。