您的位置:beat365亚洲官方网站 > 互联网资讯 > 用机器学习怎样鉴别不可描述的网站beat365亚洲官

用机器学习怎样鉴别不可描述的网站beat365亚洲官

2019-10-15 16:24

原标题:用机器学习怎样鉴别不可描述的网站

本章知识点:中文分词,向量空间模型,TF-IDF方法,文本分类算法和评价指标
使用的算法:朴素的贝叶斯算法,KNN最近邻算法
python库:jieba分词,Scikit-Learning
本章目标:实现小型的文本分类系统
本章主要讲解文本分类的整体流程和相关算法

全文大约3500字。读完可能需要下面这首歌的时间


前两天教师节,人工智能头条的某个精神股东粉群里,大家纷纷向当年为我们启蒙、给我们带来快乐的老师们表达感激之情。

2.1 文本挖掘和文本分类的概念

1,文本挖掘:指从大量的文本数据中抽取事先未知的,可理解的,最终可使用的知识的过程,同时运用这些知识更好的组织信息以便将来参考。
简言之,就是从非结构化的文本中寻找知识的过程
2,文本挖掘的细分领域:搜索和信息检索(IR),文本聚类,文本分类,Web挖掘,信息抽取(IE),自然语言处理(NLP),概念提取。
3,文本分类:为用户给出的每个文档找到所属的正确类别
4,文本分类的应用:文本检索,垃圾邮件过滤,网页分层目录自动生成元数据,题材检测
5,文本分类的方法:一是基于模式系统,二是分类模型


很多人表示,他们的硬盘里,至今还保留着当时她们上课时候的视频。有一些现在网站上已经很难找到了,于是大家又纷纷开始互相交流跟随这些老师学习实践的心得体会。

2.2 文本分类项目

beat365亚洲官方网站 1

中文语言的文本分类技术和流程:

1)预处理:去除文本的噪声信息:HTML标签,文本格式转换
2)中文分词:使用中文分词器为文本分词,并去除停用词
3)构建词向量空间:统计文本词频,生成文本的词向量空间
4 ) 权重策略--TF-IDF方法:使用TF-IDF发现特征词,并抽取为反映文档主题的特征
5)分类器:使用算法训练分类器
6)评价分类结果:分类器的测试结果分析

本文由beat365亚洲官方网站发布于互联网资讯,转载请注明出处:用机器学习怎样鉴别不可描述的网站beat365亚洲官

关键词: