hadoop 词频统计

悠悠 2024-02-18 19:51 152阅读 0赞

1)先写words文件

20180425155914434![Image 1][]![Image 1][]

2)再将words上传到hdfs中,可以直接运行

bin/hadoop fs -put /home/data/words指定文件路径 /words目标路

20180425155945498![Image 1][]

20180425155955964

20180425160007973

浏览器查看文件 20180425160053355

可以单击Download下载;
必须配置: C:\Windows\System32\drivers\etc\hosts

192.168.X.X hlx

![Image 1][]20180425160106756

2)查看案例

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar

20180425160231554

运行wordCount

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount /words文件源 /out输出路径

20180425160248820

查看节点

20180425160316238

2018042516035171

查看数据

bin/hadoop fs -ls /

2018042516040733

bin/hadoop fs -ls /out

![Image 1][]20180425160421675

bin/hadoop fs -cat /out/part-r-00000

20180425160430393

![Image 1][]

[Image 1]:

发表评论

表情:
评论列表 (有 0 条评论,152人围观)

还没有评论,来说两句吧...

相关阅读

    相关 词频统计之《三国演义》

    描述:‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪

    相关 jieba库词频统计

    一、jieba 库简介   (1) jieba 库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组;除此之外,ji