9.23 解析 HTML 文件,分析正文

 

解析 HTML 文件,分析正文中的信息。
查找 HTML 文件的正文中有哪些数字。文件部分内容如下:

 <!DOCTYPE html>
<html class="html__responsive html__unpinned-leftnav">
<head>
 <title>Stack Overflow - Where Developers Learn, Share, &amp; Build Careers</title>
        <link rel="shortcut icon" href="https://cdn.sstatic.net/Sites/stackoverflow/Img/favicon.ico?v=ec617d715196">
        <link rel="apple-touch-icon" href="https://cdn.sstatic.net/Sites/stackoverflow/Img/apple-touch-icon.png?v=c78bd457575a">
        <link rel="image_src" href="https://cdn.sstatic.net/Sites/stackoverflow/Img/apple-touch-icon.png?v=c78bd457575a"> 
…
</html>

使用函数 s.htmlparse() 获取 html 文件中所有文本。

脚本:

A
1 =file(“sof.html”).read()
2 =A1.htmlparse()
3 =A2.(~.words@d()).conj()

A1 读取 html 文件
A2 使用 htmlparse() 函数解析 html 串,返回所有文本的序列
A3 对解析后的文本序列循环计算,取出每个串中的数字,再取和列

运行结果:

Members
30
3
16.5
5