数据采集的方法有哪些-做PTA你需要掌握的数据搜集的方法

生活百科 2023-08-28 0 12.1K 专属

如何找官方的数据来源？

网站篇

股票基本面财务数据

最正统的来源是上市公司的年报：

上交所：上海证券交易所

深交所：深圳证券交易所

港股：

美股：SEC.gov | Home

更方便获取年报的网站应该是巨潮资讯网

单间公司也可以到公司的官网去下载，一般上市公司网站都有相关栏目，一般叫“投资者关系”。

官方经济数据

统计局：中华人民共和国国家统计局

美联储：Board of Governors of the Federal Reserve System

石油

OPEC：OPEC : Home

（OPEC每月都会发布月度报告，这也是很多新闻的来源）

伦敦贵金属交易所：London Metal Exchange: Home（伦敦金等）

外汇

国家外汇管理局：

等等。

方法篇

关键字溯源法

其实就是从财经新闻中寻找那些关键字，然后在搜索引擎上寻找它的网站。除去一些伪相关等无意义的财经新闻外，一些新闻是由专业的财经记者写的，一些是引用一些业内著名人士的分析的，还有一些则是翻译外国的一些文件或新闻。在这些新闻内容中，多多少少会有一些机构组织名称（通常是英文名）是容易被我们忽视的，而这些恰恰是关键信息来源，甚至比看的新闻更加客观。

举例

文中列出了十大黄金矿商的产量这里提供了大量的信息：

1.十大黄金矿商的名称；

2.数据来源（左下角GFMS）。

搜索一下GFMS（外国网站当然用Google）

于是我们得知了它是全球领先的会金属咨询公司数据采集的方法有哪些，如果还不放心数据的真实性（毕竟这是二手数据了），我们可以直接搜索公司的名称，年报是最标准不过的了。

比如搜索Goldcorp，进入其官网下载年报打开，所有的信息一目了然。

在这几百页的PDF里，你看到的就不仅是产量这么简单了。包括维持成本（All-in sustaining costs）等等。你也可以对它们进行整合得出数据：

如果对大宗商品感兴趣，从这方面入手也是一个切入点，也可以看看外国企业开采黄金的成本等等。可以作出一些调研分析。对于行研有一定的帮助。

数据找不到，如何继续阐述问题？

有些数据的确是找不到的，这时候就需要自己预测了。最常用的方法就是利用计量经济学的方法建立经济模型，根据已知的因素进行线性回归分析，进一步去预测某些数据。

比较常用的统计软件就是Eviews、SPSS这些了吧。涉及到的具体问题比较复杂，也需要根据具体问题来分析。

数据库标价太贵，怎么办？

现有的数据库往往太贵，一般人承受不起。所以当一些数据可以从网页上获取得到，却没有相应的接口时，就需要用爬虫了。

Excel

Excel可以选择复制粘贴的方式数据采集的方法有哪些，但效率较低，且无法更新。所以在Excel中调用数据是更为明智的做法。

优点：简单快捷，不需要太多的计算机知识；数据能够自动更新。

缺点：不使用大规模爬取数据；效率较低。

具体做法是：

在网上找到想要的表格数据

复制网站，打开Excel，选择数据-自网站

在弹出框的地址栏中输入网址，进去后，在需要的表格左上方会有黄色的框黑色的箭头，点击便是选中表格。

选中后点击导入就可以了。

爬虫+数据库

上面的Excel算个“小爬虫”了。但真正高效的还是得用程序编写。可以使用Python+MongoDB，当然使用其它的组合也可以。

优点：可以大规模的获取数据；效率高；可以构建个性化的数据库。

缺点：需要学习编程；可能面临反爬虫的问题等。

举例

求出A股所有上市公司的资本回报率（Returnof Invested Capital ,ROIC）

(1)写出爬虫，将信息爬取下来。

具体对应的库：

网页操作：

urllib：

requests：Requests: HTTP for Humans

爬虫及爬虫框架：

BeautifulSoup：Beautiful Soup Documentation

lxml：The lxml.etree Tutorial

scrapy：Scrapy入门教程

pyspider：pyspider

(2)将数据写入数据库中（调用方便快捷，可重复利用）。

数据库：

pymongo：PyMongo 3.2.2 Documentation

sqlite3：11.13. sqlite3 â€” DB-API 2.0interface for SQLite databases

MySQLdb：GitHub – farcepest/MySQLdb1: MySQL databaseconnector for Python (legacy version)

(3)从数据库调出并作计算。

科学计算：

numpy：NumPy — Numpy

pandas：Python Data Analysis Library

scipy：SciPy.org — SciPy.org

(4)数据可视化。

画图：

matplotlib：

同时pandas也能够画图

（有时二三步也可调换，先计算好后将计算结果写入数据库。）

通过该种方法，就可以在各个网站上将需要的数据（可获取的或不可获取的）放进自己的数据库，下次需要调用的时候就可以轻易调用了。对于一次性的数据，甚至不用写入数据库，调用一遍并进行计算就可以得到想要的数据了。对于研究相关领域有很大用处。

本文由“职问”授权转载，NAC诚意推荐。

NAC简介：Nankai Advisory Club南开咨询俱乐部，受经济学院管理支持，向全校同学展开服务，连接南开咨询界校友和在校生，提升南开人职场竞争力，扩大南开人在咨询界的影响力。

声明：
1、本站资源针对会员完全免费，站点中所有资源大部分为投稿作者付费教程，切勿轻易添加教程上除本站信息外的任何联系方式，谨防被割，如有疑问请随时联系客服。
2、本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

大数据