互联网数据控据
、数据著取
工 网页主要技术
Html
下
AAAX
2 网页解析
DoM 树与Xpath
正则表达式
信息抽取《用户、时间、内容)
Deep 信息与浏览器模拟
3 网页采集
让由
并行中由
4 数据预处理
文本与编码
时间
数字
二、数据存储与查询
工 关序数据库
数据库创建
数据库查询
2 非关系数据库
内存数据库
Keyvalue 数据库(分析\应用)
图数据库
三、文本处理
工分词与meram
分词算法
分词开源模块与应用
Neram 特征表示
2 命名实体识别
识别竺法
开源模块与应用
3 词向量与文本表示
词向量模型 (word2vec 其他)
文本表示《向量表示、实向量)
文本相似性
四、用户网络
工 图与网络基础
图的类型与表示
图的基本算法(遍历\最短路径\生成树\流\分取)
网络基本测度()
2 网络模型
随机网络
无标度网络
小世界网络
生成模型(偏好)
3 社会网络
节点排序理