欢迎来到传世资源网!
加载中...
正在加载,请耐心等待...
本站为收藏、学习站,如有侵权,请联系管理员删除!

python主题爬虫爬取与主题词相关的新浪新闻网页

介绍 评论 失效链接反馈

•在新闻页面的HTML中进行文本内容的提取,这里是使用了BeautifulSoup和xpath的信息提取方法。在提取出文本之后,进行了文本的切分,获取每个词汇。进行了停用词过滤,最后以词汇出现的次数和词汇在每个段落出现的情况来进行特征选择,最终选择出10个代表该页面内容的词汇。将这些词汇与事先设定的主题词汇基于Jaccard相似系数来计算页面内容与主题的相关度。
from clipboard    #提取形如 href="http://news.sina.com.cn/o/2018-11-06/doc-ihmutuea7351575.shtml" 的字符串
   ulist=re.findall('href="http://[a-z0-9/.\-] \.shtml',content)
   i=1
   for u in ulist:
      u=u[6:]
      print(u)
      page = requests.get(u, headers=http_headers)
      page.encoding = 'utf-8'
      content=page.text

      bs=BeautifulSoup(content,'lxml')
      ps=bs.select('div#article > p')
      ptext=''
      doc=[]
      for p in ps:
         p=p.text.strip("\n")
         if p!="" :
            d=[]

            #词汇切分、过滤
            for w in list(jieba.cut(p,cut_all=True)):
              if len(w)>1 and w not in stoplist:
                d.append(w)
            doc.append(d)      
      #print(doc)

下载声明:

本站资源均有第三方用户自行上传分享推荐,非本站自制,仅供玩家做交流学习之用!切勿用于商业用途!游戏作品版权归原作者享有,如有版权问题,请附带版权证明至邮件,本平台将应您的要求删除。
相关推荐:

评论

发表评论必须先登陆, 您可以 登陆 或者 注册新账号 !


在线咨询: 问题反馈
客服QQ:174666394

有问题请留言,看到后及时答复