一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

从社交媒体帖子和文本数据中进行用户意图识别的制作方法

2022-12-03 12:17:19 来源:中国专利 TAG:


1.本公开涉及从文本数据中提取意图,更具体地,涉及通过从文本数据中提取用户的意图来分析文本数据和社交媒体帖子以获得受众兴趣水平的准确度量。


背景技术:

2.当前的文本数据意图提取方法是基于情感分析和关键词搜索的。虽然它们提供了关于诸如社交媒体帖子的任何文本数据的初步有用见解,但是由于文本数据中的噪声,它们不准确并且对于更深入的商业洞察太过笼统。市场营销应用中的共同目标需要对受众兴趣有系统性的了解,例如,使用来自社交媒体数据的信号来预测潜在的票房的意外成功或失败。因此,意图是关于感兴趣的主体的行为或意见。这个主体可以是产品、服务或其他相关主题。


技术实现要素:

3.本公开提供了通过从文本数据和社交媒体帖子中提取用户意图来分析文本数据和社交媒体帖子以获得受众兴趣水平的准确度量。
4.在一个实现中,公开一种分析文本数据和社交媒体帖子以获得包括商业目标特征的受众兴趣水平的准确度量的系统。所述系统包括:基于至少一个商业目标特征收集文本数据的数据聚合;包括信息提取器和意图识别器的意图识别,其中信息提取器从收集的文本数据中提取包括具有关联连接的元数据、行为和实体的信息,并且其中信息提取器使用为每个词识别作用或一组特征的工具来提取信息,其中意图识别器基于包括相关实体的提取的信息并通过聚合针对对象的一般行为来识别意图行为;度量准确的受众兴趣水平的方法。
5.在一个实现中,意图识别还包括给收集的文本数据的每个数据分配至少一个标签的分类器,其中分类器被训练以分配至少一个标签;和基于训练为每个标记数据打分并基于分配的标签分配意图的打分器。在一个实现中,打分器将概率添加到分配的标签,其中概率指示每个标记数据属于分配的标签的可能性有多大。在一个实现中,数据聚合耦接到分类器和信息提取器,以使来自数据聚合的收集的文本数据被并行发送到分类器和信息提取器。在一个实现中,打分器和意图识别器两者耦接到反馈,以使来自打分器和意图识别器的输出以加权平衡使用。在一个实现中,意图识别器的输出耦接到分类器的输入,以使没有明确识别的意图的提取的信息被发送到分类器。在一个实现中,意图识别器耦接到反馈,以使具有明确识别的意图的提取的信息被发送到反馈。
6.在另一个实现中,公开一种分析文本数据和社交媒体帖子以获得包括商业目标特征的受众兴趣水平的准确度量的方法。所述方法包括:基于每个商业目标特征收集文本数据;从文本数据中提取包括具有关联连接的元数据、行为和实体的信息;使用意图识别器基于包括相关实体的提取的信息识别意图;使用提取的信息基于意图标准过滤和辨别相关输入数据;和提供关于每个商业目标特征的聚合数据作为关于意图的反馈。
7.在一个实现中,使用为每个词识别作用的工具来提取信息。在一个实现中,通过聚合针对对象的一般想法或行为来识别意图。在一个实现中,所述方法还包括使用训练的分类器给收集的文本数据中的每个数据分配至少一个标签。在一个实现中,所述方法还包括使用打分器基于训练为每个标记的数据打分并基于分配的标签分配意图。在一个实现中,反馈使用意图识别器和打分器的输出之间的加权平衡。在一个实现中,通过信息提取器进行提取信息。在一个实现中,所述方法还包括把收集的文本数据并行应用于分类器和信息提取器两者。在一个实现中,所述方法还包括:向反馈发送具有明确识别的意图的提取的信息;和向分类器发送没有明确识别的意图的提取的信息。
8.在另一个实现中,公开一种存储分析文本数据和社交媒体帖子以获得包括商业目标特征的受众兴趣水平的准确度量的计算机程序的非暂时性计算机可读存储介质。所述计算机程序包括使计算机进行下述操作的可执行指令:基于每个商业目标特征收集文本数据;从文本数据中提取包括具有关联连接的元数据、行为和实体的信息;使用意图识别器基于包括相关实体的提取的信息来识别意图;使用提取的信息基于意图标准过滤和辨别相关输入数据;并提供关于每个商业目标特征的聚合数据作为关于意图的反馈。
9.在一个实现中,所述计算机可读存储介质还包括使计算机给收集的文本数据的每个数据分配至少一个标签的可执行指令。在一个实现中,所述计算机可读存储介质还包括使计算机基于训练为每个标记的数据打分并基于分配的标签分配意图的可执行指令。在一个实现中,使用为每个词识别作用的工具提取信息。
10.从通过举例对本公开的各个方面进行说明的本说明书中,其他特征和优点应该是明显的。
附图说明
11.本公开的细节(关于其结构和操作)可以通过对附图的研究部分收集,附图中,相同的附图标记指代相同的部分,在附图中:
12.图1a是按照本公开的一个实现的分析文本数据和社交媒体帖子以获得受众兴趣水平的准确度量的系统的框图;
13.图1b是按照本公开的一个实现的意图识别的详细框图;
14.图1c是按照本公开的另一个实现的分析文本数据和社交媒体帖子以获得受众兴趣水平的准确度量的系统的框图;
15.图1d是按照本公开的另一个实现的分析文本数据和社交媒体帖子以获得受众兴趣水平的准确度量的系统的框图;
16.图2a显示了一个示例情况,其中推文“i am going to watch zombieland soon”被处理以识别由“i”进行的行为为“going to watch”,并识别目标为“zombieland”;
17.图2b显示了另一个示例情况,其中推文“the city seems like a zombieland”被处理以识别行为为“seems like”,并识别目标为“zombieland”,且来源为“the city”;
18.图2c显示了另一个详细的示例情况,其中推文“i'm nervous to see bad boys 3because i think my fav has lost his funny and i don't want to face the truth”被处理;
19.图3是按照本公开的一个实现的分析文本数据和社交媒体帖子以获得包括商业目
标特征的受众兴趣水平的准确度量的方法的流程图;
20.图4a是按照本公开的实现的计算机系统和用户的表示;并且
21.图4b是说明了按照本公开的实现的托管文本分析应用的计算机系统的功能框图。
具体实施方式
22.如上文所述,当前从文本数据中提取意图是基于情感分析的,由于文本数据中的噪声,这会导致对受众兴趣的不准确度量。情感分析涉及:训练分类器以给每个收集的数据分配情感标签(例如,“正面”、“负面”和“中性”);为每个标记的数据打分以指示数据属于情感标签的可能性有多大;和基于分配的情感标签分配意图。因此,假设高百分比的“正面”标记数据反映了特定行为(例如,去看电影)。因此,情感分析经常无法提供对于社交媒体上针对商业目标的用户意图的可靠且明确的理解,原因有多种,包括:(a)它高度基于用于情感分析的训练数据;(b)当前情感工具和方法仅限于几个类别,而意图可能包括更多类型的类别;(c)同一种情感并不一定指示同一类型的意图;(d)在意图识别中,针对来自用户的未来可能行为进行搜索,因为用户的当前意见情感可能不指示这种意图。
23.本公开的某些实现提供通过从文本数据和社交媒体帖子中提取意图来分析文本数据和社交媒体帖子以获得受众兴趣水平的准确度量。在阅读了以下说明后,如何在各种实现和应用中实现本公开将变得明显。尽管本文将说明本公开的各种实现,但应理解的是,这些实现仅通过例子来呈现,而非限制。因此,各种实现的详细说明不应该被解释为限制本公开的范围或广度。
24.在实现中提供的用于分析文本数据和社交媒体帖子以获得受众兴趣水平的准确度量的特征可以包括但不限于辨别意图的以下项目中的一个或多个:(a)数据聚合;(b)信息提取;(c)意图识别;(d)用以获得受众兴趣水平的准确度量的反馈;和(e)限定新意图或移除/更新旧意图。
25.图1a是按照本公开的一个实现的分析文本数据和社交媒体帖子以获得受众兴趣水平的准确度量的系统100的框图。在图1a所示的实现中,系统100包括数据聚合部102、意图识别部104和反馈部106。在一个实现中,意图识别104包括信息提取。
26.在一个实现中,数据聚合102包括基于每个商业目标特征收集文本数据。例如,可以收集关于电影的推文。
27.在一个实现中,用以获得受众兴趣水平的准确度量的反馈106包括提供关于目标的聚合数据作为关于意图的反馈或一般意见。在另一个实现中,应该注意的是意图类别可能在分析的不同阶段改变。例如,一开始,可能收集“买票”和“看电影”,但是后来,可能只收集“看电影”。在进一步的实现中,加入反馈以使用意图收集更好的数据。例如,一些电影可能更多地和其他词(比如演员)一起辨别。因此,可以通过迭代实现数据收集精细化作为数据收集质量的反馈的一部分。
28.图1b是按照本公开的一个实现的意图识别104的详细框图。在图1b所示的实现中,意图识别104包括信息提取器110和意图识别器112。
29.在一个实现中,信息提取器110从文本中提取具有关联连接的元数据、行为和实体。此外,信息提取器110通过使用为每个词识别作用的工具提取信息。例如,可以从单个推文中收集动词短语和名词。
30.在一个实现中,意图识别器112基于包括相关实体的提取的信息并通过聚合针对对象的一般想法/行为识别意图行为。此外,使用提取的信息,基于意图标准过滤和辨别相关输入数据。例如,对包含观看电影的行为的推文采样。
31.图1c是按照本公开的另一个实现的分析文本数据和社交媒体帖子以获得受众兴趣水平的准确度量的系统120的框图。在图1c中,系统120包括数据聚合部102、意图识别部130和反馈部132。在一个实现中,意图识别130包括信息提取。
32.在一个实现中,数据聚合102包括基于每个商业目标特征收集文本数据。例如,可以收集关于电影的推文。
33.在图1c中,数据聚合102收集的文本数据被并行应用于:训练的分类器122/打分器124以向标签添加概率;和信息提取器126/意图识别器128以查找具有明确意图的数据。
34.在图1c所示的实现中,系统120,与图1a的系统100不同,涉及训练用于监督标记的分类器与意图识别的组合。在图1c中,意图识别130包括分类器122、打分器124、信息提取器126和意图识别器128。
35.在一个实现中,训练分类器122以给数据聚合102收集的每个数据分配至少一个标签(例如,“推广”、“意图”、“正面”和“其他”)。例如,一条推文被分配为上面定义的标签之一(例如,“推广”、“意图”、“正面”或“其他”)。
36.在一个实现中,打分器124基于训练为每个标记的数据打分并基于分配的标签分配意图。因此,假设高百分比的“正面”标记数据反映了特定行为(例如,去看电影)。
37.在图1c所示的实现中,信息提取器126从文本中提取具有关联连接的元数据、行为和实体。此外,信息提取器126通过使用为每个词识别作用的工具提取信息。例如,可以从单个推文中收集动词短语和名词。
38.在图1c所示的实现中,意图识别器128基于包括相关实体的提取的信息来识别意图行为。此外,使用提取的信息(由信息提取器126提取),基于意图标准过滤和辨别相关输入数据。例如,对包含观看电影的行为的推文采样。
39.在图1c所示的实现中,用以获得受众兴趣水平的准确度量的反馈132组合了来自训练的分类器122/打分器124和信息提取器126/意图识别器128两者的输出。如上文所述,训练的分类器122/打分器124组合向标签添加概率,而信息提取器126/意图识别器128组合查找具有明确意图的数据。在这种情况下,来自两条路径的输出可以以取决于对商业策略精细化的贡献的加权平衡一起使用。例如,具有明确意图的文本可能比第二条路径识别的文本有更高的重要性。
40.图1d是按照本公开的另一个实现的分析文本数据和社交媒体帖子以获得受众兴趣水平的准确度量的系统150的框图。在图1d中,系统150包括数据聚合部102、意图识别部150和反馈部152。在一个实现中,意图识别150包括信息提取。
41.在一个实现中,数据聚合102包括基于每个商业目标特征收集文本数据。例如,可以收集关于电影的推文。
42.在图1d中,按顺序应用输入的文本数据。例如,由数据聚合102收集的输入文本数据可以首先被发送到信息提取器146和意图识别器148以查找具有明确意图的数据。随后,没有识别的明确意图的输入文本数据可以被发送到训练的分类器142和打分器144以向标签添加概率。
被识别。因此,观看目标电影的意图224被识别,其中行为对应于“观看电影(bad boys 3)”。
53.图3是按照本公开的一个实现的分析文本数据和社交媒体帖子以获得包括商业目标特征的受众兴趣水平的准确度量的方法300的流程图。在图3所示的实现中,在310,基于每个商业目标特征收集文本数据。例如,可以收集关于电影的推文。
54.然后在320,从文本数据中提取包括具有关联连接的元数据、行为和实体的信息。在一个实现中,通过使用为每个词识别作用的工具来提取信息。例如,可以从单个推文中收集动词短语和名词。在330,基于包括相关实体的提取的信息并通过聚合针对对象的一般想法/行为来识别意图行为。此外,在340,使用提取的信息基于意图标准过滤和辨别相关输入数据。例如,对包含观看电影的行为的推文采样。在350,提供关于目标的聚合数据作为关于意图的一般意见或反馈。
55.应该注意的是,上述方法的优点包括:(a)所述方法应用于用户意图的广泛类别;(b)基于行为集或实体集限定意图的类别的能力;(c)聚类所有现有意图的能力;(d)减少训练数据中的潜在偏差的能力,因为信息提取不取决于意图的类型。
56.图4a是按照本公开的实现的计算机系统400和用户402的表示。用户402使用计算机系统400来实现文本分析应用490,以减少捕获期间使用的数据,如图1a、1b和1c中关于系统100、120、140各自所说明和描述的,以及图3中关于方法300所说明和描述的。
57.计算机系统400存储和执行图4b的文本分析应用490。此外,计算机系统400可以与软件程序404通信。软件程序404可以包括用于文本分析应用490的软件代码。软件程序404可以加载到诸如cd、dvd或存储驱动器之类的外部介质上,如下文将进一步解释的。
58.此外,计算机系统400可以连接到网络480。网络480可以用各种不同架构连接,例如主从式架构、对等式网络架构或其他类型的架构。例如,网络480可以与协调文本分析应用490内使用的引擎和数据的服务器485通信。此外,所述网络可以是不同类型的网络。例如,网络480可以是因特网、局域网或局域网的任意变体、广域网、城域网、内联网或外联网、或无线网络。
59.图4b是说明了按照本公开的实现的托管文本分析应用490的计算机系统400的功能框图。控制器410是可编程处理器并且控制计算机系统400及其组件的操作。控制器410从存储器420或嵌入式控制器存储器(未示出)加载指令(例如,以计算机程序的形式),并执行这些指令以控制系统,比如提供数据处理。在其执行中,控制器410为文本分析应用490提供软件系统。或者,这项服务可以作为控制器410或计算机系统400中独立的硬件组件实现。
60.存储器420为计算机系统400的其他组件的使用暂时存储数据。在一个实现中,存储器420作为ram实现。在一个实现中,存储器420还包括长期或永久性存储器,比如闪存和/或rom。
61.存储设备430为计算机系统400的其他组件的使用暂时或长时期地存储数据。例如,存储设备430存储文本分析应用490使用的数据。在一个实现中,存储设备430是硬盘驱动器。
62.介质设备440接收可移除介质并针对插入的介质读取和/或写入数据。例如,在一个实现中,媒体设备440是光盘驱动器。
63.用户接口450包括用于接受来自计算机系统400的用户的用户输入并向用户402呈现信息的组件。在一个实现中,用户接口450包括键盘、鼠标、音频扬声器和显示器。控制器
410使用来自用户402的输入调整计算机系统400的操作。
64.i/o接口460包括一个或多个i/o端口以连接到对应的i/o设备,比如外部存储或追加设备(例如,打印机或pda)。在一个实现中,i/o接口460的端口包括诸如:usb端口、pcmcia端口、串行端口和/或并行端口之类的端口。在另一个实现中,i/o接口460包括用于与外部设备无线通信的无线接口。
65.网络接口470包括有线和/或无线网络连接,比如支持以太网连接的rj-45或“wi-fi”接口(包括但不限于802.11)。
66.计算机系统400包括典型的计算机系统的附加硬件和软件(例如,电源、散热、操作系统),尽管为简单起见,这些组件未在图4b中具体示出。在其他实现中,可以使用计算机系统的不同配置(例如,不同的总线或存储配置或多处理器配置)。
67.在一个实现中,系统100、120、140中的每个是完全用硬件配置的系统,所述硬件包括一个或多个数字信号处理器(dsp)、通用微处理器、专用集成电路(asic)、现场可编程门/逻辑阵列(fpga)或其他等效的集成或分立逻辑电路。在另一个实现中,系统100、120、140中的每个用硬件和软件的组合配置。
68.提供本文中所公开实现的说明以使本领域的任何技术人员能够制作或使用本公开。对这些实现的众多修改对于本领域的技术人员来说将是显而易见的,并且本文中定义的原理可以应用于其他实现而不脱离本公开的精神或范围。因此,本公开不旨在限于本文中所示的实现,而是要被给予符合本文中公开的主要和新颖特征的最广范围。
69.本领域的技术人员会意识到,本文中所述的各种例证性模块和方法步骤可以实现为电子硬件、软件、固件或前述的组合。为了明确说明硬件和软件的这种可互换性,各种例证性模块和方法步骤已经一般按照它们的功能在本文中描述。此类功能实现为硬件还是软件取决于特定应用和施加于整体系统上的设计约束。技术人员可以为每个特定应用以不同方式实现所描述的功能,但是此类实现决策不应该被解释为导致脱离本公开的范围。此外,模块或步骤内功能的分组是为了便于说明。具体功能可以从一个模块或步骤移动到另一个模块或步骤而不脱离本公开。
70.上文讨论的例子的所有特征在本公开的特定实现中不是必定需要的。此外,应理解的是,本文中所述的说明和附图代表了本公开广泛设想的主题。还应理解的是,本公开的范围完全包含对本领域的技术人员可能变得显而易见的其他实现,并且本公开的范围因此仅被所附权利要求限制。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献