chatgpt 如何提取小说关键词 Jieba库实现词性标注及小说人物角色抽取

AI资讯3年前 (2023)发布 fengdao

163 0 0

4年人力资源从业经验，情报学硕士，主要内容涵盖、数据分析和人力资源相关内容

本文运用自然语言处理技术，对中文小说《神雕侠侣》人物角色进行抽取，为使用通过社会网络分析法对人物关系进行分析奠定基础，使文学研究者、社会学家和普通读者对小说人物关系和背景有更全面的认识

自然语言处理技术

自然语言处理（NLP）是一门融语言学、计算机科学、数学于一体的科学。国外学者于20世纪40年代末至50年代初开始NLP相关的研究，近年来，随着人工智能和计算机技术的发展，自然语言处理（NLP）已经成为一个重要的人工智能发展方向，目前已广泛的应用于机器翻译、问答系统、文本分类、信息检索、自动文本摘要等领域。中文的自然语言处理相对于英文还是有诸多差异的，英文是以空格来区分词语，每一个单词即是一个词语，而中文则是以字为字符单位，以词语来表达意思，而且存在一词多义、多词一义等情况，所以相对于英文来说，中文的自然语言处理更为艰难。分词、词性标注、句法分析是中文自然语言处理的三大基本任务，本文主要应用分词、词性标注两类处理技术。

jieba库基本介绍 jieba库概述

jieba是优秀的中文分词第三方库中文文本需要通过分词获得单个的词语 jieba是优秀的中文分词第三方库，需要额外安装 jieba库提供三种分词模式，最简单只需掌握一个函数

jieba分词的原理

Jieba分词依靠中文词库利用一个中文词库，确定汉字之间的关联概率汉字间概率大的组成词组，形成分词结果除了分词，用户还可以添加自定义的词组

jieba库的优点安装jieba：

命令行安装方法


   
   pip3 install jieba

中的安装方法


   
   !pip3 install jieba


   
   !pip3 install jieba


   
   Requirement already satisfied: jieba in d:ancanda3libsite-packages (0.39)

jieba库常用函数分词代码功能

jieba.cut(s)

精确模式，返回一个可迭代的数据类型

jieba.cut(s，=True)

全模式，输出文本s中所有可能单词

jieba.(s)

chatgpt 如何提取小说关键词_提取文章关键词算法_提取关键词语专题训练

搜索引擎模式，适合搜索建立索引的分词

jieba.lcut(s)

精确模式，返回一个列表类型，常用

jieba.lcut(s，=True)

全模式，返回一个列表类型，常用

jieba.(s)

搜索引擎模式，返回一个列表类型，常用

jieba.(w)

向词典中增加新词

词性标注

.39版本提供55种词性标注，部分符号及含义如表1所示。由表1可知，人名被标注为nr,因此对小说进行分词和词性标注后的文本进行进一步提取，提取出词性为nr的词作为人物角色名称，即可构建角色列表。


   
   import jieba
text = '我来到北京清华大学'
wordlist = jieba.lcut(text)
wordlist


   
   Building prefix dict from the default dictionary ...
Dumping model to file cache C:UserszAppDataLocalTempjieba.cache
Loading model cost 1.717 seconds.
Prefix dict has been built succesfully.
['我', '来到', '北京', '清华大学']

jieba分词的简单应用

使用 jieba 分词对一个文本进行分词，统计长度大于2，出现次数最多的词语，这里以《神雕侠侣》为例


   
   
import jieba
txt = open("神雕侠侣-网络版.txt","r",encoding="utf-8").read()
words = jieba.lcut(txt) # 使用精确模式对文本进行分词
counts = {} # 通过键值对的形式存储词语及其出现的次数
for word in words:
 if len(word) == 1: # 单个词语不计算在内
 continue
 else:
 counts[word] = counts.get(word, 0) + 1# 遍历所有词语，每出现一次其对应的值加 1
items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True) # 根据词语出现的次数进行从大到小排序
for i in range(len(items)):
 word, count = items[i]
print("{0:5}".format(word, count))

从小说中抽取出现的人名及次数

词性标注

chatgpt 如何提取小说关键词_提取文章关键词算法_提取关键词语专题训练


   
   import jieba.posseg as psg
sent='中文分词是文本处理不可或缺的一步！'
seg_list=psg.cut(sent)
for w in seg_list:
 if w.flag == "n":
 print(w.flag)


   
   Building prefix dict from the default dictionary ...
Loading model from cache C:UserszAppDataLocalTempjieba.cache
Loading model cost 1.535 seconds.
Prefix dict has been built succesfully.
n
n

jieba词性标注的简单应用

使用 jieba 分词对一个文本进行分词及词性标注，统计词性为nr，出现次数最多的词语，这里以《神雕侠侣》为例


   
   import jieba
import jieba.posseg as psg
txt = open("神雕侠侣-网络版.txt","r",encoding="utf-8").read()
words = psg.cut(txt) # 使用精确模式对文本进行分词
counts = {} # 通过键值对的形式存储词语及其出现的次数
for word in words:
 if len(word.word) == 1: # 单个词语不计算在内
 continue
 else:
 if word.flag == "nr": # 仅统计词性为nr的词语
 counts[word] = counts.get(word, 0) + 1# 遍历所有词语，每出现一次其对应的值加 1
items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True) # 根据词语出现的次数进行从大到小排序
fi = open("人物角色提取.txt","w",encoding="utf-8")
for i in range(len(items)):
 word,pos = items[i][0]
 count = items[i][1]
 a = word + ","+ str(count)
 fi.write(a + "n")
fi.close()

提取后的文件内容如下图所示

近期文章

使用自动生成事件分析图谱

如何使用预测下一次营销活动的效果

使用及库实现社会网络分析及可视化

计算社会经济学

使用分析师报告中含有的情感信息预测上市公司股价变动

日期数据操作第1期库

日期数据操作第2期库

史上最大规模1.4亿中文知识图谱开源下载

文本数据分析文章汇总(2016-至今)

当遇上数据类型问题

如何理解中的函数

一行代码生成哑变量

最被低估的库，用好了效率提升10倍！

公众号后台回复关键词“”，即可获得课件资源，请在如果觉得有用，欢迎转发支持～

# AI资讯 # 人物 # 提取 # 文本 # 标注 # 角色

文章版权归作者所有，未经允许请勿转载。

ai尺寸标注工具无极AI实验室 AI模型与AI算力

fengdao

153 0

chatgpt可以识图做题吗新里程碑: OpenAI震撼发布“学霸”GPT-4, 看图解题

fengdao

153 0

ai表格工具怎么用 CAD入门必学！字母命令教程全集！

fengdao

154 0

ai软件做立体字 AI文本生成3D 技术汇总。#知识领航者

fengdao

191 0

人工智能chatgpt对教育的帮助 ChatGPT爆火，会给世界教育带来哪些影响？如何应对？

fengdao

151 0

用chatgpt写的代码无法运行 Python代码写好了怎么运行？

fengdao

166 0

暂无评论

暂无评论...

chatgpt 如何提取小说关键词 Jieba库实现词性标注及小说人物角色抽取

chatgpt写文章技巧如何让ChatGPT写出10w+阅读的文章，使用技巧分享（一）

马斯克讲chatgpt 不骂了，马斯克要自己做个ChatGPT

相关文章

暂无评论

chatgpt 如何提取小说关键词 Jieba库实现词性标注及小说人物角色抽取

chatgpt写文章技巧 如何让ChatGPT写出10w+阅读的文章，使用技巧分享（一）

马斯克讲chatgpt 不骂了，马斯克要自己做个ChatGPT

相关文章

暂无评论

chatgpt写文章技巧如何让ChatGPT写出10w+阅读的文章，使用技巧分享（一）