阅读文章前辛苦您点下关注，方便讨论和分享，为了回馈您的支持，我将每日更新优质内容。

上映电影样本数据的收集过程中共涉及两种页面，第一种页面为数据收集的起始页面，以列表的形式显示了某年内地上映电影的电影名称、上映时间等数据。

样本数据的收集

电影名称是一种带有链接的超文本，点击此链接可以跳转到电影数据详情页面，即第二种页面。

第二种页面是电影数据详情页面，主要包括电影总票房、导演、主演、上映时间、片长、制作国家地区和类型等数据。

在八爪鱼中，上映电影数据的收集包含两个循环，外面的循环指的是循环点击下一页，第二种循环指循环点击第一种页面中的电影名称超链接，使之跳转到电影数据详情页面。

当某件事情在微博中被关注到一定程度时，此事件会在微博中拥有一个话题页面，可以通过搜索话题名称找到此话题主页面。

话题主页面中显示了此话题的基本数据信息，主要包括话题名称、阅读和讨论数量。基本信息下面是微博用户发布的和此话题相关的微博，据不同的排序方法，此话题页面下的微博在页面中有三种展示形式：综合、实时和热门。

电影羞羞的铁拳在手机端微博中的话题主页。选择任何一种微博排列方式，滑动滚动条，用户发布的和此话题相关的微博以动态加载的形式展示出来。

每条微博的主要数据有博主的名字、微博的发布日期、微博的内容、微博的评论信息、微博的转发数、微博的评论数和微博的点赞数。

可以看出话题页面主要有三部分组成，从上而下依次是话题概括、导航条、主要内容。在话题概括部分，我们需要得到的数据是话题的讨论和阅读量。

在导航条部分，排序方式对本文所需要爬取数据的数量和内容没有影响，本文以默认的排序方式综合对数据进行爬取；主要内容是和此话题相关的所有微博，也是本文所需要获取的主要数据。

用户能够通过申请AppKey来访问平台的免费API接口，从而获取平台中的数据，但是使用此方法获取的数据是有限的，并不能够满足本文章的需求。

故本部分主要基于两种方式获取数据，其一，手动搜索获取电影微博主页面的基本信息和动态加载页面共同的url。

微博平台的页面与普通的页面有所不同，平台使用的方法技术给数据收集工作带来了一定的困难，最大的困难是基于Javascript/JS的AJAX程序框架，导致平台上的数据比较难获取。

但是，手机端中微博动态加载页面有一定的规律，即每个微博话题主页下的所有动态加载页面的URL中只有page的值不同，此规律使得数据的爬取工作变得相对简单；其二，通过编程获取微博话题页面中的数据。

其次，在基础的（共有的）RequestURL后面加上一个页码数字，就是一个完整的RequestURL链接，每一个链接通往一个数据文件，此文件里存放着电影微博相关的信息，比如微博的发布者、微博的文本内容、微博的互动数据量等。

一个数据文件最多包含9条微博信息，在每一个基础的RequestURL后面分别加上一个从0开始的页码数字，形成此话题的微博RequestURL集合，通过一一访问此RequestURL集合里的链接，能够爬取此电影话题下面所有的微博数据。

数据文件的最外层是一个数据字典，包含：OK和data关键字。关键字OK有0和1两个值。

0表示此文件中没有数据，即data中数据为空，表示data中包含至少一条微博的数据。数据文件定义标签中对应的抓取内容说明。

最后，根据获得的微博详细页面的链接爬取微博数据。微博文本内容分为短文本和长文本，它们在数据文件中的存储标签不同。

分别对应于上文中的标签Text和标签longText。在每个微博中都有Text标签，不一定有longText标签。Text标签只含有在话题主页被显示出来的文字。

当微博部分内容在话题主页被折叠时，通过上文中的Text标签获取的微博文本内容是不全面的，而通过微博详情链接文件中的Text标签可以获取完整的微博文本内容。

文本数据的处理是主题挖掘与分析的第一步，也是十分关键的一步。在对文本进行挖掘与分析时。

为了提高分析效率，我们往往希望只保留对文本挖掘和分析结果起重要作用的信息，即需要过滤掉文本中的无用数据信息。

而文本预处理的步骤就是为了避免无用信息对电影微博主题发现与分析的干扰，提升电影微博主题发现和分析的性能。

本文章对微博数据文本的处理主要包括数据的清洗、分词、停用词的过滤、同意替换和特征词的选择5个步骤。

微博文本具有不规范性，这种性质直接导致微博文本中有许多和主题无关的内容。分析电影话题微博中的文本数据，主要包括以下无关信息：被符号包围的电影话题名称、@他人、被符号[]包围的表情符号、视频类型名称以及超链接数据等。

这样与微博内容关系不大且没有很大实际意义的文字和符号对于主题挖掘而言就是噪音数据。

在对电影话题中的微博文本进行主题挖掘与分析时，这些噪音数据实际意义不大，但是这些噪音数据却对实验结果产生影响，因此需要把这些噪音数据过滤掉。

1.祁德昊. 基于网络结构和节点语义信息的社区发现研究[D].南京邮电大学,2019.

2.申静,张璐,王若佳.中国智库微博内容特征分析——基于新浪微博的实证研究[J]. 情报科学,2019,37(12):3-10.