9 月之前 · 1c1ba64d56
--- a/utils/__pycache__/anjuke_response.cpython-39.pyc
+++ b/utils/__pycache__/anjuke_response.cpython-39.pyc
--- a/utils/__pycache__/get_message.cpython-39.pyc
+++ b/utils/__pycache__/get_message.cpython-39.pyc
--- a/utils/__pycache__/setting.cpython-39.pyc
+++ b/utils/__pycache__/setting.cpython-39.pyc
--- a/utils/anjuke_response.py
+++ b/utils/anjuke_response.py
@@ -0,0 +1,13 @@
 
															+# -*- coding: utf-8 -*-
														
 
															+# @Author  : ChenZhaoyuchen
														
 
															+# @Time    : 2024/9/30 11:00
														
 
															+# @File    : anjuke_response.py
														
 
															+
														
 
															+import requests
														
 
															+from anjuke.utils.setting import *
														
 
															+
														
 
															+# 请求返回
														
 
															+response_origion = requests.get(url = url_start, headers=headers).content.decode('utf8')
														
 
															+response_200 = requests.get(url = url_start, headers=headers)
														
 
															+
														
 
															+print(response_origion,response_200)
														
--- a/utils/get_message.py
+++ b/utils/get_message.py
@@ -3,103 +3,97 @@
 
															 # @Time    : 2024/9/26 16:20
														
 
															 # @File    : get_message.py
														
 
															-from anjuke.utils.setting import *
														
 
															 from bs4 import BeautifulSoup
														
 
															+from anjuke.utils.anjuke_response import *
														
 
															+from anjuke.utils.setting import *
														
 
															-
														
 
															-def get_province_area():
														
 
															-    Area_list = []
														
 
															-    soup = BeautifulSoup(response_HTML_province, 'html.parser')
														
 
															-    div_table = soup.find(class_='sel-content')
														
 
															-
														
 
															-    for area_ in div_table.find_all('a'):
														
 
															-        area = area_.text
														
 
															-        Area_list.append(area)
														
 
															-    # 此处出现错误是因为del操作缩进错误，for循环里append，又del导致输出为空
														
 
															-    del Area_list[0]
														
 
															-    return Area_list
														
 
															-
														
 
															-
														
 
															-def get_city_area():
														
 
															-    Area_list = []
														
 
															-    soup = BeautifulSoup(response_HTML_province, 'html.parser')
														
 
															-    div_table = soup.find(class_='sel-sec')
														
 
															-
														
 
															-    for area_ in div_table.find_all('a'):
														
 
															-        area = area_.text
														
 
															-        Area_list.append(area)
														
 
															-    del Area_list[0]
														
 
															-    return Area_list
														
 
															-
														
 
															-def get_qu_area():
														
 
															-    Area_list = []
														
 
															-    soup = BeautifulSoup(response_HTML, 'html.parser')
														
 
															-    div_table = soup.find(class_= 'sel-content')
														
 
															-
														
 
															-    for area_ in div_table.find_all('a'):
														
 
															-        area = area_.text
														
 
															-        Area_list.append(area)
														
 
															-    del Area_list[0]
														
 
															-    return Area_list
														
 
															-
														
 
															-def get_zhoubian_area():
														
 
															-    Area_list = []
														
 
															-    soup = BeautifulSoup(response_HTML, 'html.parser')
														
 
															-    div_table = soup.find(class_= 'sel-sec')
														
 
															-
														
 
															-    for area_ in div_table.find_all('a'):
														
 
															-        area = area_.text
														
 
															-        Area_list.append(area)
														
 
															-    del Area_list[0]
														
 
															-    return Area_list
														
 
															-
														
 
															+# 省级
														
 
															+def get_province():
														
 
															+    province_name_list = []
														
 
															+    province_url_list = []
														
 
															+    response_province = requests.get(url = url_start, headers=headers).content.decode('utf8')
														
 
															+    soup = BeautifulSoup(response_province, 'html.parser')
														
 
															+    print(soup)
														
 
															+    filter_area_wrap = soup.find(class_="filter-area-wrap")
														
 
															+    print(filter_area_wrap)
														
 
															+    for province_ in filter_area_wrap.find_all('a'):
														
 
															+        province_name = province_.text
														
 
															+        province_url = province_.get('href')
														
 
															+        province_name_list.append(province_name)
														
 
															+        province_url_list.append('https://www.anjuke.com'+province_url)
														
 
															+    del province_name_list[0],province_url_list[0]
														
 
															+    return province_name_list,province_url_list
														
 
															+
														
 
															+# 市级
														
 
															+def get_city():
														
 
															+    province_name_list,province_url_list = get_province()
														
 
															+    city_name_list = []
														
 
															+    city_url_list = []
														
 
															+
														
 
															+    for i in range(len(province_url_list)):
														
 
															+        province_url = province_url_list[i]
														
 
															+        province_name = province_name_list[i]
														
 
															+        response_city = requests.get(url = province_url, headers=headers).content.decode('utf8')
														
 
															+        soup = BeautifulSoup(response_city, 'html.parser')
														
 
															+        filter_area_wrap = soup.find(class_="sel-content bank")
														
 
															+
														
 
															+        for city_ in filter_area_wrap.find_all('a'):
														
 
															+            city_name = province_name + city_.text
														
 
															+            city_url = city_.get('href')
														
 
															+            city_name_list.append(city_name)
														
 
															+            city_url_list.append(city_url)
														
 
															+        del city_name_list[0],city_url_list[0]
														
 
															+        return city_name_list,city_url_list
														
 
															+
														
 
															+# 区级
														
 
															+def get_area():
														
 
															+    area_name_list = []
														
 
															+    area_url_list = []
														
 
															+    response_area = requests.get(url = '', headers=headers).content.decode('utf8')
														
 
															+    soup = BeautifulSoup(response_area, 'html.parser')
														
 
															+    filter_area_wrap = soup.find(class_="filter-area-wrap")
														
 
															+
														
 
															+    for area_ in filter_area_wrap.find_all('a'):
														
 
															+        area_name = area_.text
														
 
															+        area_url = area_.get('href')
														
 
															+        area_name_list.append(area_name)
														
 
															+        area_url_list.append('https://www.anjuke.com'+area_url)
														
 
															+    del area_name_list[0],area_url_list[0]
														
 
															+    return area_name_list,area_url_list
														
 
															+
														
 
															+# 周边
														
 
															+def get_periphery():
														
 
															+    periphery_name_list = []
														
 
															+    periphery_url_list = []
														
 
															+    response_periphery = requests.get(url = '', headers=headers).content.decode('utf8')
														
 
															+    soup = BeautifulSoup(response_periphery, 'html.parser')
														
 
															+    filter_area_wrap = soup.find(class_="filter-area-wrap")
														
 
															+
														
 
															+    for periphery_ in filter_area_wrap.find_all('a'):
														
 
															+        periphery_name = periphery_.text
														
 
															+        periphery_url = periphery_.get('href')
														
 
															+        periphery_name_list.append(periphery_name)
														
 
															+        periphery_url_list.append('https://www.anjuke.com'+periphery_url)
														
 
															+    del periphery_name_list[0],periphery_url_list[0]
														
 
															+    return periphery_name_list,periphery_url_list
														
 
															+
														
 
															+# 获取年份
														
 
															 def get_Year():
														
 
															     Years_list = []
														
 
															-    soup = BeautifulSoup(response_HTML, 'html.parser')
														
 
															+    soup = BeautifulSoup(response_origion, 'html.parser')
														
 
															     years = soup.find(class_="year-list")
														
 
															     for year_ in years.find_all('a'):
														
 
															         year = year_.text
														
 
															         Years_list.append(year)
														
 
															     return Years_list
														
 
															-def get_area_url():
														
 
															-    Urls_list = []
														
 
															-    soup = BeautifulSoup(response_HTML, 'html.parser')
														
 
															-    urls = soup.find(class_='sel-content')
														
 
															-
														
 
															-    for url_area in urls.find_all('a'):
														
 
															-        url_area = url_area.get('href')
														
 
															-        Urls_list.append('https://www.anjuke.com' + url_area)
														
 
															-    del Urls_list[0]
														
 
															-    return Urls_list
														
 
															-
														
 
															-def get_zhoubian_url():
														
 
															-    Urls_list = []
														
 
															-    soup = BeautifulSoup(response_HTML, 'html.parser')
														
 
															-    urls = soup.find(class_='sel-sec')
														
 
															-
														
 
															-    for url_area in urls.find_all('a'):
														
 
															-        url_area = url_area.get('href')
														
 
															-        Urls_list.append( url_area)
														
 
															-    del Urls_list[0]
														
 
															-    return Urls_list
														
 
															-
														
 
															+# 测试函数
														
 
															 if __name__ == '__main__':
														
 
															-    # url和response值
														
 
															-    print(urls_template_high,response_200)
														
 
															-    print(urls_template_low,response_2002)
														
 
															-    # 时间跨度及地区唯一url
														
 
															-    print('时间跨度:',get_Year())
														
 
															-    # 分url
														
 
															-    print('省级/直辖市:',get_province_area())
														
 
															-    print('市级:',get_city_area())
														
 
															-    # 分url
														
 
															-    print('区级:',get_qu_area())
														
 
															-    print('区级'+'唯一url:',get_area_url())
														
 
															-    print('周边:',get_zhoubian_area())
														
 
															-    print('周边'+'唯一url:',get_zhoubian_url())
														
 
															-    # # html内容
														
 
															-    # print(response_HTML)
														
 
															+    # print('时间跨度:',get_Year())
														
 
															+    print('省级单位:',get_province())
														
 
															+    # print('市级单位:',get_city())
														
 
															+    # print('区级单位',get_area())
														
 
															+    # print('周边单位',get_periphery())
														
--- a/utils/get_price.py
+++ b/utils/get_price.py
@@ -2,35 +2,53 @@
 
															 # @Author  : ChenZhaoyuchen
														
 
															 # @Time    : 2024/9/27 16:17
														
 
															 # @File    : get_price.py
														
 
															-
														
 
															-from bs4 import BeautifulSoup
														
 
															+import requests
														
 
															 from anjuke.utils.get_message import *
														
 
															 from anjuke.utils.setting import *
														
 
															 def get_price():
														
 
															-    price_list = []
														
 
															-    zhoubian_name_list = get_zhoubian_area()
														
 
															-    zhoubian_url_list = get_zhoubian_url()
														
 
															-    for i in range(len(zhoubian_name_list)):
														
 
															-        name = zhoubian_name_list[i]
														
 
															-        url = zhoubian_url_list[i]
														
 
															+    # # 价格列表
														
 
															+    # price_list = []
														
 
															+    # periphery_name_list = get_periphery()[0]
														
 
															+    # periphery_url_list = get_periphery()[1]
														
 
															+    #
														
 
															+    # # 主函数
														
 
															+    # for i in range(len(periphery_name_list)):
														
 
															+    #     name = periphery_name_list[i]
														
 
															+    #     url = periphery_url_list[i]
														
 
															+        url = 'https://www.anjuke.com/fangjia/hf2024/bhgyy/'
														
 
															         response_price = requests.get(url = url, headers = headers).content.decode('utf8')
														
 
															         soup = BeautifulSoup(response_price, 'html.parser')
														
 
															         price_ = soup.find(class_ = "table is-headless")
														
 
															         table_trs = price_.find_all('div',class_ = "table-tr")
														
 
															+        # html提取 时间time，单价price，涨跌tab，涨跌比率Price_Rate
														
 
															+        list = []
														
 
															         for table_tr in table_trs:
														
 
															-            list = []
														
 
															-            yue_fang_lv = table_tr.find_all('div',class_ = 'td')
														
 
															-            for td in yue_fang_lv:
														
 
															-                a = td.text.strip()
														
 
															-                # Price_Rate = table_tr.find('div',class_ = "up") or table_tr.find('div',class_ = "down")
														
 
															-                # if Price_Rate.find('div',class_ = "up"):
														
 
															-                #     tab = '上涨'
														
 
															-                # else:
														
 
															-                #     tab = '下降'
														
 
															-                print(a)
														
 
															+            all_mes = table_tr.find_all('div',class_ = 'td')
														
 
															+            zhongji = []
														
 
															+            for td in all_mes:
														
 
															+                a = td.text.strip() # 防止出现换行符等符号错误
														
 
															+                print('a',a)
														
 
															+                zhongji.append(a)
														
 
															-if __name__ == '__main__':
														
 
															-    get_price()
														
 
															+            UporDown = table_tr.find('div',class_ = "up") or table_tr.find('div',class_ = "down")
														
 
															+            if UporDown.find('div',class_ = "up"):
														
 
															+                tab = '↑'
														
 
															+            else:
														
 
															+                if UporDown.find('div', class_="down"):
														
 
															+                    tab = '↓'
														
 
															+                else:
														
 
															+                    tab = '未找到趋势'
														
 
															+
														
 
															+            zhongji.insert(2,tab)
														
 
															+            list.append(zhongji)
														
 
															+            print('zhongji',zhongji)
														
 
															+        print('list',list)
														
 
															+        # print(list[0][2])
														
 
															+
														
 
															+
														
 
															+            # return list
														
 
															+if __name__ == '__main__':
														
 
															+    print(get_price())
														
--- a/utils/readme.txt
+++ b/utils/readme.txt
@@ -1,11 +1,9 @@
 
															 ## 安居客房价
														
 
															 ### 1.请求头
														
 
															 ### 2.确定基本格式：精细到区域，带价格，三个参数：区域，日期，价格
														
 
															-如（省级单位）：全国-安徽-合肥-包河-包河工业园
														
 
															-如（直辖市）：全国-直辖市-北京-朝阳—CBD
														
 
															-
														
 
															+      格式：全国-省级-城市-区-周边
														
 
															+   如（省）：全国-安徽-合肥-包河-包河工业园
														
 
															+如（直辖市）：全国-直辖-北京-朝阳—CBD
														
 
															 ### 3.爬出内容格式：
														
 
															-
														
 
															-每个省都有独立的市，每个市都有独立的区，每个区都有独立的范围
														
 
															-所以创建爬虫爬取每个
														
 
															-
														
 
															+四元数据A B C D
														
 
															+格式：时间A房价 B元/㎡ C↑or↓ D%
														
--- a/utils/setting.py
+++ b/utils/setting.py
@@ -3,39 +3,13 @@
 
															 # @Time    : 2024/9/26 16:00
														
 
															 # @File    : setting.py
														
 
															-import requests
														
 
															-
														
 
															-# 先试着爬取包河工业园2024年1-12月房价
														
 
															-year = '2024'
														
 
															-province = 'anhui'
														
 
															-city = 'hf'
														
 
															-area = 'baohequ'
														
 
															-position = 'bhgyy'
														
 
															-
														
 
															-# url模板
														
 
															-urls_template_high = f'https://www.anjuke.com/fangjia/{province}/'
														
 
															-urls_template_low = f'https://www.anjuke.com/fangjia/{city}{year}/{area}/'
														
 
															-
														
 
															-
														
 
															-# 省级单位的url，以省名为url后缀，进入后重定向
														
 
															-url_province = 'https://www.anjuke.com/fangjia/anhui/'
														
 
															-
														
 
															-# 值得注意的是：选择城市之后，省级信息在url里不会体现
														
 
															-url_sjzxs = f'https://www.anjuke.com/fangjia/'
														
 
															-url_city = f'https://www.anjuke.com/fangjia/hf/'
														
 
															-
														
 
															-# 例如这个url就显示了在合肥市的包河区，但没有显示在安徽省
														
 
															-url_qu = f'https://www.anjuke.com/fangjia/hf/baohequ/'
														
 
															+# 初始url
														
 
															+url_start = 'https://www.anjuke.com/fangjia/quanguo2024/'
														
 
															+# 请求头
														
 
															 headers = {
														
 
															     'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
														
 
															     'Accept-Encoding': 'gzip, deflate, br',
														
 
															     'Accept-Language': 'zh-CN,zh;q=0.9',
														
 
															     'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36 Edg/129.0.0.0'
														
 
															 }
														
 
															-
														
 
															-response_HTML_province = requests.get(url = urls_template_high, headers=headers).content.decode('utf8')
														
 
															-response_HTML = requests.get(url = urls_template_low, headers=headers).content.decode('utf8')
														
 
															-
														
 
															-response_200 = requests.get(url = urls_template_high, headers=headers)
														
 
															-response_2002 = requests.get(url = urls_template_low, headers=headers)