9.23 解析 HTML 文件,分析正文
解析 HTML 文件,分析正文中的信息。
查找 HTML 文件的正文中有哪些数字。文件部分内容如下:
<!DOCTYPE html>
<html class="html__responsive html__unpinned-leftnav">
<head>
<title>Stack Overflow - Where Developers Learn, Share, & Build Careers</title>
<link rel="shortcut icon" href="https://cdn.sstatic.net/Sites/stackoverflow/Img/favicon.ico?v=ec617d715196">
<link rel="apple-touch-icon" href="https://cdn.sstatic.net/Sites/stackoverflow/Img/apple-touch-icon.png?v=c78bd457575a">
<link rel="image_src" href="https://cdn.sstatic.net/Sites/stackoverflow/Img/apple-touch-icon.png?v=c78bd457575a">
…
</html>
使用函数 s.htmlparse() 获取 html 文件中所有文本。
脚本:
A | |
---|---|
1 | =file(“sof.html”).read() |
2 | =A1.htmlparse() |
3 | =A2.(~.words@d()).conj() |
A1 读取 html 文件
A2 使用 htmlparse() 函数解析 html 串,返回所有文本的序列
A3 对解析后的文本序列循环计算,取出每个串中的数字,再取和列
运行结果:
Members |
---|
30 |
3 |
16.5 |
5 |
… |