安装5.9.0版本时404 Not Found

By 67655rfrf at 2019-02-18 • 0人收藏 • 752人看过

最近要做领域概念的提取,TFIDF作为一个很经典的算法可以作为其中的一步处理。


关于TFIDF算法的介绍可以参考这篇博客http://www.ruanyifeng.com/blog/2013/03/tf-idf.html。


计算公式比较简单,如下:


图1.png


预处理


由于需要处理的候选词大约后3w+,并且语料文档数有1w+,直接挨个文本遍历的话很耗时,每个词处理时间都要一分钟以上。


为了缩短时间,首先进行分词,一个词输出为一行方便统计,分词工具选择的是HanLp。


然后,将一个领域的文档合并到一个文件中,并用“$$$”标识符分割,方便记录文档数。


图2.png


下面是选择的领域语料(PATH目录下):


图3.png


代码实现


package edu.heu.lawsoutput;


import java.io.BufferedReader;


import java.io.BufferedWriter;


import java.io.File;


import java.io.FileReader;


import java.io.FileWriter;


import java.util.HashMap;


import java.util.Map;


import java.util.Set;


 


/**


 * @ClassName: TfIdf


 * @Description: TODO


 * @author LJH


 * @date 2017年11月12日 下午3:55:15


 */


 


public class TfIdf {


 


    static final String PATH = "E:\\corpus"; // 语料库路径


 


    public static void main(String[] args) throws Exception {


 


        String test = "离退休人员"; // 要计算的候选词


 


        computeTFIDF(PATH, test);


 


    }


 


    /**


    * @param @param path 语料路经


    * @param @param word 候选词


    * @param @throws Exception


    * @return void


    */


    static void computeTFIDF(String path, String word) throws Exception {


 


        File fileDir = new File(path);

最近要做领域概念的提取,TFIDF作为一个很经典的算法可以作为其中的一步处理。


关于TFIDF算法的介绍可以参考这篇博客http://www.ruanyifeng.com/blog/2013/03/tf-idf.html。


计算公式比较简单,如下:


图1.png


预处理


由于需要处理的候选词大约后3w+,并且语料文档数有1w+,直接挨个文本遍历的话很耗时,每个词处理时间都要一分钟以上。


为了缩短时间,首先进行分词,一个词输出为一行方便统计,分词工具选择的是HanLp。


然后,将一个领域的文档合并到一个文件中,并用“$$$”标识符分割,方便记录文档数。


图2.png


下面是选择的领域语料(PATH目录下):


图3.png


代码实现


package edu.heu.lawsoutput;


import java.io.BufferedReader;


import java.io.BufferedWriter;


import java.io.File;


import java.io.FileReader;


import java.io.FileWriter;


import java.util.HashMap;


import java.util.Map;


import java.util.Set;


 


/**


 * @ClassName: TfIdf


 * @Description: TODO


 * @author LJH


 * @date 2017年11月12日 下午3:55:15


 */


 


public class TfIdf {


 


    static final String PATH = "E:\\corpus"; // 语料库路径


 


    public static void main(String[] args) throws Exception {


 


        String test = "离退休人员"; // 要计算的候选词


 


        computeTFIDF(PATH, test);


 


    }


 


    /**


    * @param @param path 语料路经


    * @param @param word 候选词


    * @param @throws Exception


    * @return void


    */


    static void computeTFIDF(String path, String word) throws Exception {


 


        File fileDir = new File(path);


登录后方可回帖

登 录
信息栏

Carbon Forum是一个基于话题的高性能轻型PHP论坛

下载地址:Carbon Forum v5.9.0
QQ群:12607708(QQ我不常上)

donate

手机支付宝扫描上方二维码可向本项目捐款

粤公网安备 44030602003677号
粤ICP备17135490号

Loading...