python获取今日头条搜索信息_python爬虫(十二、爬取今日头条关键词所有文章)

python获取今日头条搜索信息_python爬虫(十二、爬取今日头条关键词所有文章)

2024-11-01 23:24

今日头条

我们以搜索’妹子’为例

那么我们在右上角的搜索框搜索妹子 , 出来了一系列文章那么我们在右上角的搜索框搜索妹子,出来了一系列文章那么我们在右上角的搜索框搜索妹子,出来了一系列文章

检查网页的源代码 , 发现只是一个简短的框架检查网页的源代码,发现只是一个简短的框架检查网页的源代码,发现只是一个简短的框架

于是猜测这是用于是猜测这是用于是猜测这是用AJAX技术请求的,那么我们打开XHR查看

果不其然 , 就在这里 , 现在我们就是构造这些 J S 加载请求果不其然,就在这里,现在我们就是构造这些JS加载请求果不其然,就在这里,现在我们就是构造这些JS加载请求

打开这个数据包的 h e a d e r s 部分查看打开这个数据包的headers部分查看打开这个数据包的headers部分查看

显然其中的 o f f s e t 是决定翻页的 , 每加 20 翻一页显然其中的offset是决定翻页的,每加20翻一页显然其中的offset是决定翻页的,每加20翻一页

t i m e s t a m p 是什么呢 ? timestamp是什么呢?timestamp是什么呢?

这个可以直接用 t i m e . t i m e ( ) 取得 , 具体看代码中这个可以直接用time.time()取得,具体看代码中这个可以直接用time.time()取得,具体看代码中

接下来就是请求 , 转化为字典 , 取出需要的内容接下来就是请求,转化为字典,取出需要的内容接下来就是请求,转化为字典,取出需要的内容

#-*-codeing = utf-8 -*-

#@Time : 2020/6/28 13:17

#@Author : issue小菜鸡

#@File : 今日头条爬取.py

#@Software: PyCharm

import time

import json

import requests

from urllib.parse import urlencode

def get_data(search_name,page):

data = { #构造请求的data

'aid':'24',

'app_name':'web_search',

'offset':page,

'format':'json',

'keyword':search_name,

'autoload':'true',

'count':'20',

'en_qc':'1',

'cur_tab': '1',

'from': 'search_tab',

'pd':'synthesis',

'timestamp': int(time.time()),

'_signature': '21oMXgAgEBAwjHnl59qFgNtbTUAAIWq5yRBJSZ83MdD56bgu5GDIJxHd0EHk8Y1-DDSzzYJ-ZlFlc5td8NE86Wb3wfbOIt2i-9L7pr2I3.bmY8SCimmZOjMIL2g7TKFO-Lj'

url = 'https://www.toutiao.com/api/search/content/?' + urlencode(data)

header={

'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36',

'x-requested-with':'XMLHttpRequest'

res = requests.get(url=url,headers=header)

return res

def find_content(search_name,page):

dic = get_data(search_name,page).json() #转化为json字典

data = dic['data']

if data is not None: #不为空才开始

for item in data:

if 'title' in item: #标题

print(item['title'])

else:

print('没有找到啊啊啊啊啊')

if 'article_url' in item: #文章url

print(item['article_url'])

page = 0

for i in range(0,9):

find_content('妹子',page)

以上就是本篇文章【python获取今日头条搜索信息_python爬虫(十二、爬取今日头条关键词所有文章)】的全部内容了，欢迎阅览！文章地址：http://dh99988.xhstdz.com/news/32.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页物流园资讯移动站 http://dh99988.xhstdz.com/mobile/ , 查看更多