手把手教程：用Python开发一个自然语言处理模型，并用Flask进行部署

雅言敦行

2019-07-01

摘要： 实用性教程！教你如何快速创建一个可用的机器学习程序！

截住到目前为止，我们已经开发了许多机器学习模型，对测试数据进行了数值预测，并测试了结果。实际上，生成预测只是机器学习项目的一部分，尽管它是我认为最重要的部分。今天我们来创建一个用于文档分类、垃圾过滤的自然语言处理模型，使用机器学习来检测垃圾短信文本消息。我们的ML系统工作流程如下：离线训练->将模型作为服务提供->在线预测。

1、通过垃圾邮件和非垃圾邮件训练离线分类器。

2、经过训练的模型被部署为服务用户的服务。

手把手教程：用Python开发一个自然语言处理模型，并用Flask进行部署

当我们开发机器学习模型时，我们需要考虑如何部署它，即如何使这个模型可供其他用户使用。Kaggle和数据科学训练营非常适合学习如何构建和优化模型，但他们并没有教会工程师如何将它们带给其他用户使用，建立模型与实际为人们提供产品和服务之间存在重大差异。

在本文中，我们将重点关注：构建垃圾短信分类的机器学习模型，然后使用Flask（用于构建Web应用程序的Python微框架）为模型创建API。此API允许用户通过HTTP请求利用预测功能。让我们开始吧！

构建ML模型

数据是标记为垃圾邮件或正常邮件的SMS消息的集合，可在此处找到。首先，我们将使用此数据集构建预测模型，以准确分类哪些文本是垃圾邮件。朴素贝叶斯分类器是一种流行的电子邮件过滤统计技术。他们通常使用词袋功能来识别垃圾邮件。因此，我们将使用Naive Bayes定理构建一个简单的消息分类器。

import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report

df = pd.read_csv('spam.csv', encoding="latin-1")
df.drop(['Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'], axis=1, inplace=True)
df['label'] = df['class'].map({'ham': 0, 'spam': 1})
X = df['message']
y = df['label']
cv = CountVectorizer()
X = cv.fit_transform(X) # Fit the Data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
#Naive Bayes Classifier
clf = MultinomialNB()
clf.fit(X_train,y_train)
clf.score(X_test,y_test)
y_pred = clf.predict(X_test)
print(classification_report(y_test, y_pred))

手把手教程：用Python开发一个自然语言处理模型，并用Flask进行部署

Naive Bayes分类器不仅易于实现，而且提供了非常好的性能。在训练模型之后，我们都希望有一种方法来保持模型以供将来使用而无需重新训练。为实现此目的，我们添加以下行以将我们的模型保存为.pkl文件供以后使用。

from sklearn.externals import joblib
joblib.dump(clf, 'NB_spam_model.pkl')

我们加载并使用保存的模型：

NB_spam_model = open('NB_spam_model.pkl','rb')
clf = joblib.load(NB_spam_model)

上述过程称为“标准格式的持久模型”，即模型以特定的开发语言的特定格式持久存储。下一步就是将模型在一个微服务中提供，该服务的公开端点用来接收来自客户端的请求。

将垃圾邮件分类器转换为Web应用程序

在上一节中准备好用于对SMS消息进行分类的代码之后，我们将开发一个Web应用程序，该应用程序由一个简单的Web页面组成，该页面具有允许我们输入消息的表单字段。在将消息提交给Web应用程序后，它将在新页面上呈现该消息，从而为我们提供是否为垃圾邮件的结果。

首先，我们为这个项目创建一个名为SMS-Message-Spam-Detector 的文件夹，这是该文件夹中的目录树，接下来我们将解释每个文件。

spam.csv
app.py
templates/
        home.html
        result.html
static/
        style.css

手把手教程：用Python开发一个自然语言处理模型，并用Flask进行部署

子目录templates是Flask在Web浏览器中查找静态HTML文件的目录，在我们的例子中，我们有两个html文件：home.html和result.html 。

app.py

app.py文件包含将由Python解释器执行以运行Flask Web应用程序的主代码，还包含用于对SMS消息进行分类的ML代码：

from flask import Flask,render_template,url_for,request
import pandas as pd 
import pickle
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.externals import joblib

app = Flask(__name__)

@app.route('/')
def home():
    return render_template('home.html')

@app.route('/predict',methods=['POST'])
def predict():
    df= pd.read_csv("spam.csv", encoding="latin-1")
    df.drop(['Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'], axis=1, inplace=True)
    # Features and Labels
    df['label'] = df['class'].map({'ham': 0, 'spam': 1})
    X = df['message']
    y = df['label']

    # Extract Feature With CountVectorizer
    cv = CountVectorizer()
    X = cv.fit_transform(X) # Fit the Data
    from sklearn.model_selection import train_test_split
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
    #Naive Bayes Classifier
    from sklearn.naive_bayes import MultinomialNB

    clf = MultinomialNB()
    clf.fit(X_train,y_train)
    clf.score(X_test,y_test)
    #Alternative Usage of Saved Model
    # joblib.dump(clf, 'NB_spam_model.pkl')
    # NB_spam_model = open('NB_spam_model.pkl','rb')
    # clf = joblib.load(NB_spam_model)

    if request.method == 'POST':
        message = request.form['message']
        data = [message]
        vect = cv.transform(data).toarray()
        my_prediction = clf.predict(vect)
    return render_template('result.html',prediction = my_prediction)

if __name__ == '__main__':
    app.run(debug=True)

1、我们将应用程序作为单个模块运行，因此我们使用参数初始化了一个新的Flask实例，__name__是为了让Flask知道它可以在templates所在的同一目录中找到HTML模板文件夹（）。

2、接下来，我们使用route decorator（@app.route('/')）来指定可以触发home 函数执行的URL 。我们的home 函数只是呈现home.htmlHTML文件，该文件位于templates文件夹中。

3、在predict函数内部，我们访问垃圾邮件数据集、预处理文本、进行预测，然后存储模型。我们访问用户输入的新消息，并使用我们的模型对其标签进行预测。

4、我们使用该POST方法将表单数据传输到邮件正文中的服务器。最后，通过debug=True在app.run方法中设置参数，进一步激活Flask的调试器。

5、最后，我们使用run函数执行在服务器上的脚本文件，我们需要确保使用if语句 __name__ == '__main__'。

home.html

以下是home.html将呈现文本表单的文件的内容，用户可以在其中输入消息：

<!DOCTYPE html>
<html>
<head>
    <title>Home</title>
    <!-- <link rel="stylesheet" type="text/css" href="../static/css/styles.css"> -->
    <link rel="stylesheet" type="text/css" href="{{ url_for('static', filename='css/styles.css') }}">
</head>
<body>

    <header>
        <div class="container">
        <div id="brandname">
            Machine Learning App with Flask
        </div>
        <h2>Spam Detector For SMS Messages</h2>

    </div>
    </header>

    <div class="ml-container">

        <form action="{{ url_for('predict')}}" method="POST">
        <p>Enter Your Message Here</p>
        <!-- <input type="text" name="comment"/> -->
        <textarea name="message" rows="4" cols="50"></textarea>
        <br/>

        <input type="submit" class="btn-info" value="predict">

    </form>

    </div>
</body>
</html>
view raw

style.css文件

在home.html的head部分，我们将加载styles.css文件，CSS文件是用于确定HTML文档的外观和风格的。styles.css必须保存在一个名为的子目录中static，这是Flask查找静态文件（如CSS）的默认目录。

body{
    font:15px/1.5 Arial, Helvetica,sans-serif;
    padding: 0px;
    background-color:#f4f3f3;
}

.container{
    width:100%;
    margin: auto;
    overflow: hidden;
}

header{
    background:#03A9F4;#35434a;
    border-bottom:#448AFF 3px solid;
    height:120px;
    width:100%;
    padding-top:30px;

}

.main-header{
            text-align:center;
            background-color: blue;
            height:100px;
            width:100%;
            margin:0px;
        }
#brandname{
    float:left;
    font-size:30px;
    color: #fff;
    margin: 10px;
}

header h2{
    text-align:center;
    color:#fff;

}

.btn-info {background-color: #2196F3;
    height:40px;
    width:100px;} /* Blue */
.btn-info:hover {background: #0b7dda;}

.resultss{
    border-radius: 15px 50px;
    background: #345fe4;
    padding: 20px; 
    width: 200px;
    height: 150px;
}

result.html

我们创建一个result.html文件，该文件将通过函数render_template('result.html', prediction=my_prediction)返回呈现predict，我们在app.py脚本中定义该文件以显示用户通过文本字段提交的文本。result.html文件包含以下内容：

<!DOCTYPE html>
<html>
<head>
    <title></title>
    <link rel="stylesheet" type="text/css" href="{{ url_for('static', filename='css/styles.css') }}">
</head>
<body>
    <header>
        <div class="container">
        <div id="brandname">
            ML App
        </div>
        <h2>Spam Detector For SMS Messages</h2>        
    </div>
    </header>
    <p style="color:blue;font-size:20;text-align: center;"><b>Results for Comment</b></p>
    <div class="results">

    {% if prediction == 1%}
    <h2 style="color:red;">Spam</h2>
    {% elif prediction == 0%}
    <h2 style="color:blue;">Not a Spam (It is a Ham)</h2>
    {% endif %}
    </div>
</body>
</html>

从result.htm文件我们可以看到一些代码使用通常在HTML文件中找不到的语法例如，{% if prediction ==1%},{% elif prediction == 0%},{% endif %}这是jinja语法，它用于访问从HTML文件中请求返回的预测。

我们就要大功告成了！

完成上述所有操作后，你可以通过双击appy.py 或从终端执行命令来开始运行API ：

cd SMS-Message-Spam-Detector
python app.py

你应该得到以下输出：

手把手教程：用Python开发一个自然语言处理模型，并用Flask进行部署

现在你可以打开Web浏览器并导航到http://127.0.0.1:5000/，你应该看到一个简单的网站，内容如下：

手把手教程：用Python开发一个自然语言处理模型，并用Flask进行部署

恭喜！我们现在以零成本的代价创建了端到端机器学习（NLP）应用程序。如果你回顾一下，其实整个过程根本不复杂。有点耐心和渴望学习的动力，任何人都可以做到。所有开源工具都使每件事都成为可能。

更重要的是，我们能够将我们对机器学习理论的知识扩展到有用和实用的Web应用程序！

完整的工作源代码可在此存储库中找到，祝你度过愉快的一周！

本文作者：【方向】

阅读原文

本文为云栖社区原创内容，未经允许不得转载。

机器学习自然语言处理 flask python 分类器

安科网

手把手教程：用Python开发一个自然语言处理模型，并用Flask进行部署

雅言敦行

构建ML模型

将垃圾邮件分类器转换为Web应用程序

app.py

home.html

style.css文件

result.html

雅言敦行

相关推荐

为什么企业应该了解聊天机器人中的自然语言处理？

Python 用5行代码学机器学习—线性回归

如果不能用Python执行机器学习，那该用什么呢？

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

雅言敦行