網站數據分析系統設計研究

發布時間：2022-11-17 09:24:30

序言：寫作是分享個人見解和探索未知領域的橋梁，我們為您精選了1篇的網站數據分析系統設計研究樣本，期待這些樣本能夠為您提供豐富的參考和啟發，請盡情閱讀。

網站數據分析系統設計研究

0引言

伴隨著互聯網技術的飛速發展，中國正迎來從IT時代到DT時代的變革。《2020中國網絡文學藍皮書》顯示，2020年中國網絡文學用戶規模達4.67億人，全網作品累計約2800萬部，全國文學網站日均更新字數超1.5億，全年累計新增字數超過500億。由此可見，網絡小說平臺在運營過程中會產生大量讀者、作者、類別、熱度、評分等信息。面對日益增加的數據壓力，網絡小說的平臺流量成本不斷提升，平臺在老用戶維持、新用戶吸引、網站點擊率等方面逐漸暴露出諸多問題[1]。由于新媒介的不斷崛起，讀者對網絡小說平臺的要求也越來越高，用戶閱讀時長呈現離散化分布，導致網絡小說平臺行業獨占率下滑，用戶爭奪日趨白熱化。因此，對小說平臺產生的海量數據進行整合分析勢在必行。一方面，有利于指導網絡小說平臺改編影視，降低運營成本，提高收益[2]；另一方面，便于讀者和新手更加快捷有效地發現感興趣的小說題材。本文以“我愛小說網”為研究案例，通過開發一個海量數據分析系統，旨在提高用戶體驗，推動小說網絡平臺發展。平臺的用戶主要包括小說閱讀用戶、小說網站管理者、新入行的網絡小說作者等。通過爬取小說網站信息，并對數據進行分析和處理，有助于用戶找到當前比較流行的網絡小說類型、各種類型小說所適合的篇幅等。

1系統概述

本系統設計的目的在于使用戶便捷高效地采集到需要的數據，并將數據清洗之后進行分析和可視化呈現[3]。因此，本文將系統的功能需求分為數據采集部分、數據存儲部分、系統登錄部分、后臺管理部分、數據可視化交互部分。以下每個功能模塊的需求分析。

⑴數據采集部分

數據采集功能只有管理員才擁有權限操作，普通用戶無法操作數據采集。因此，數據采集模塊是在服務器端上進行操作的。啟動后，系統會生成相應的任務采集數據表，然后啟動引擎開始爬取網頁數據并存儲到對應MySQL數據庫表中。當任務沒有可爬取的網址時，任務結束并返回任務結束信號[4]。

⑵數據存儲部分

數據存儲部分主要是用來存儲爬取小說的文本數據，包括ID、小說類型、小說名稱、更新的小說章節、小說作者、小說字數、小說狀態、發布時間、點擊量和推薦票數量等。除此之外，還包括系統登錄賬號以及密碼和用戶的權限管理。

⑶系統登錄部分

當用戶對相關的平臺接口進行訪問時，首先進入系統的登錄界面。在該界面中，包括有兩個功能模塊：注冊與登錄模塊[5]。如果當前用戶屬于未注冊用戶，需要用戶先進行注冊，得到系統管理員的授權之后才能進入系統內部。若當前用戶屬于已經注冊的老用戶，可以直接通過填寫用戶名和密碼完成登錄。

⑷后臺管理部分

前端界面的數據查詢部分、小說數據詳情展示部分和數據分析可視化部分都需要先從后臺管理獲取對應的圖表數據，而后臺數據管理則是從MySQL數據庫獲取全部數據，管理員用戶可以對數據清洗沒清洗掉的數據進行管理操作，以求前端展示的數據都是有效數據，并可以根據需求調整排序方式，以及前端頁面數據的展示數量。

⑸數據可視化交互部分

數據可視化交互部分只針對普通用戶，用戶可以自由選擇想要查看的圖表信息。且用戶可以下載所呈現出來的圖表信息并保存至本地，方便隨時查閱。以上各部分模塊獨立開發、低耦合、適合于團隊敏捷開發，更加方便后期系統的升級和運維。

2系統架構設計

完成系統分析后，需要設計系統的總體架構，主要分為表示層、業務層和數據層。分別使用DjangoWeb框架和DjangoAdmin框架來實現。在系統功能需求分析的基礎上，結合數據采集系統的架構設計，將系統分為五個部分，主要有數據采集部分、數據存儲部分、系統登錄部分、后臺管理部分、數據可視化交互部分。系統結構圖如下所示：下面簡要介紹系統的體系結構，總體框架是PythonWeb的Browser/Server架構，主要包含數據采集、數據分析與展示。其中數據采集部分采用Python的Scrapy框架，后臺存儲數據采用的是傳統的關系型數據庫MySQL，后臺管理采用Djangoadmin，前端采用DjangoWeb框架，主要用到CSS、JS、HTML等語言。體系結構圖示例如圖1所示。業務邏輯層主要是由Django框架和Scrapy框架這兩部分組成。DjangoWeb負責實現業務邏輯，從后臺獲取數據、通過統計分析之后，再到前端展示。而后臺的數據則是從數據庫獲取的，后臺的數據管理請求可以修改后臺的數據并保存下來，實現對數據庫的增刪改查（CRUD）。數據采集Scrapy框架包括以下這些模塊功能：URL獲取功能、數據響應內容功能、數據提取功能、數據清洗功能和數據持久化功能等[6]。數據層主要使用傳統的關系型數據庫MySQL作為數據持久化層。

3系統功能模塊設計

⑴數據采集

數據采集模塊主要包含URL獲取功能、數據響應內容功能、數據提取功能、數據清洗功能和數據持久化功能等，數據采集的功能模塊圖如圖2所示。

⑵數據分析與展示

數據分析與展示模塊主要有用戶管理、數據分析與展示、數據維護等功能，其中用戶管理模塊有用戶注冊和用戶登錄，數據分析與展示模塊包括：小說類別狀態圖、每年小說類別數量動態占比圖、各類小說平均字數圖、每年小說占比圖、詞云圖和小說狀態圖等，數據維護則是通過數據查詢查找到需要維護的數據進行維護操作[7]，數據分析與展示模塊功能設計圖如圖3所示。

4系統實現

整體的系統實現分為四個模塊，分別為數據采集模塊、數據清洗模塊、系統后臺管理模塊以及小說數據管理模塊。

⑴數據采集模塊

Scrapy框架接受到數據采集的任務之后，負責對小說網站進行數據采集。經過頁面的請求到URLconf，再到相對應View函數，View模塊負責整個采集任務的配置信息，并發布啟動請求。

⑵數據清洗模塊

在爬取的過程中，無法保證每個字段的數據信息格式是正常的，但是我們每一列數據后續所需要使用的信息必須是一致的，所以在進行后續的可視化操作或者模型分析時，需要確保當前的每一列的數據維度是正確的。對于系統爬取到的數據，并不能直接滿足系統所要分析的內容，所以需要通過對數據進行清洗之后，才能將數據完整的與模型進行適配。

⑶系統后臺管理模塊

后臺管理是針對管理員用戶設計，經過數據采集模塊爬取數據，清洗數據和持久化存儲數據之后。采集到的數據依舊存在一些垃圾數據問題，用DjangoAdmin框架設計實現后臺管理模塊，可以在后臺實現對小說數據的管理和維護操作，通過對小說詳情數據表各個表頭的正序和倒序排列來實現對小說垃圾數據的快速查找，并且可以對系統用戶進行認證和授權管理操作，包括對普通用戶授權、資料管理和管理員用戶的資料管理等。

⑷小說數據管理模塊

管理員可以在后臺對存儲到MySQL數據庫中的小說數據直接進行管理操作，主要任務是去除一些數據清洗時沒有清洗掉的垃圾數據。為了方便且快速查找，小說詳情表每一個表頭都能夠實現正序和倒序排列。在數據管理模塊，對于清洗后的數據會做一些可視化呈現，其中部分數據分析界如圖4所示。圖4采用柱狀圖的形式呈現，所有的小說都可以劃分為完結跟連載兩種了類別，能明顯看到完結數量最高是“玄幻奇幻”，連載數量最高為“都市生活”。

5結束語

網絡小說在互聯網時代呈現出海量數據且內容繁雜，想獲取準確高價值的數據并不容易，由此對網絡數據采集與分析提出更高的要求。網絡爬蟲技術可以高效獲取并整合這些海量的數據，為用戶提供相關高質量的數據信息[8]。本文設計開發的小說網數據爬取分析系統，通過Scrapy爬蟲框架采集數據，利用Django框架管理后臺并進行數據分析與展示，使得用戶可以直觀的獲取到自己想要的信息。測試表明，該系統具有高效獲取、分析和處理網絡小說平臺數據的功能，具有較高的實用價值。

作者:楊孟姣杜棋東單位:湖南省石門縣第一中學廣州鐵路職業技術學院

優秀范文

相關期刊

數據分析與知識發現

影響因子：1.2

期刊級別：CSSCI南大期刊

發行周期：月刊

国产亚洲精品久久久久久久网站_自拍偷拍欧美日韩_成人久久18免费网址_最近中文字幕在线视频1

網站數據分析系統設計研究

數據分析與知識發現