需求
onionscan爬取暗网数据后,是使用tiedot这个非关系型数据库进行数据存储,需要从tiedot提取出来暗网的网址链接
tiedot
简介
tiedot 是一个文档型数据库引擎,它使用 JSON 作为文档表示方法;有一个强大的查询处理器,支持高级设置操作;可以嵌入到程序中,也可以使用 HTTP 为 API 运行独立服务
github地址: https://github.com/HouzuoGuo/tiedot
启动tiedot
|
|
tiedot文件结构
进入/opt/onionscandb
目录下,可以看到onionscan保存的数据目录结构如下图,crawls
和relationships
是tiedot的两个集合
其中relationships
目录中结构如下图,From
,Identifier
, Onion
, Type
是四个索引,被索引的字段才可以被查询到
查询语法
1、查询有哪些collection
2、查询col中所有的索引
3、 查询索引Type等于uri或者索引Form等于links的内容
4、 查询索引Type等于uri且索引Form等于links的内容
其余查询语法可参看官方文档
数据提取
通过tiedot查询可以获得如下数据结构,Identifier字段就是我们要提取的内容,即暗网网址
可以用一段简单的python代码来实现这个提取功能
|
|