Classification(3)Generate Features and Stem Adjust the Model System

lightyaoyuan

2015-10-31

关注关注

Classification(3)GenerateFeaturesandStemAdjusttheModelSystem

1.ScalaOperation

StringMethod-contains

scala>vallongContent="carllovetostudypython,scala"

longContent:String=carllovetostudypython,scala

scala>longContent.contains("python")

res0:Boolean=true

MapMergeFunction

Directlyunderthetheprojectwhichwealreadyhavethejardependencies.

>sbtconsole

scala>importscalaz.Scalaz._

importscalaz.Scalaz._

scala>

scala>valm1=Map("0"->0,"1"->1)

m1:scala.collection.immutable.Map[String,Int]=Map(0->0,1->1)

scala>valm2=Map("2"->2)

m2:scala.collection.immutable.Map[String,Int]=Map(2->2)

scala>valm3=m1|+|m2

m3:scala.collection.immutable.Map[String,Int]=Map(0->0,1->1,2->2)

MapOperation

scala>m3

res1:scala.collection.immutable.Map[String,Int]=Map(0->0,1->1,2->2)

scala>m3-"0"

res2:scala.collection.immutable.Map[String,Int]=Map(1->1,2->2)

Magicscalaz

https://github.com/scalaz/scalaz

Sliding

scala>(1to5).iterator.sliding(3).toList

res3:List[Seq[Int]]=List(List(1,2,3),List(2,3,4),List(3,4,5))

ListOperation

scala>List(1,2,3).zip(List("one","two","three"))

res8:List[(Int,String)]=List((1,one),(2,two),(3,three))

RunwithAssemblyJar

./spark-submit—num-executors2—driver-memory2G—classcom.sillycat.jobs.GenerateFeatureMap${path_to_jar}

NiceConfigurationinbuild.sbt

//There'saproblemwithjackson2.5+withSpark1.4.1

dependencyOverrides++=Set(

"com.fasterxml.jackson.core"%"jackson-databind"%"2.4.4"

)

WhenwebuildassemblyJar,WemayjustneedSparkCoreandrelatedprovided

"org.apache.spark"%%"spark-core"%"1.4.1"%"provided",//Apachev2

"org.apache.spark"%%"spark-mllib"%"1.4.1"%"provided",//Apachev2

2.DetailOperations

GenerateFeatureMap

step1.LoadJobInfofromS3(Onlytitleanddescription),cache()

step2.PlacethetitleanddescriptioninObject,RegextoFindtheTitleandDescriptionagain

step3.NormalizetheString

Fortitle:toLower—>filterallhtml—>stripChars,onlykeep[a-zA-Z\d\-]

Fordescription:toLower—>filterURL—>filterHTML—>stripChar—>stripNumber

step4.TokenizetheString

Wepredefinedalistofphrasesandstoredintextfile.2wordsand3words.

ForTitle:

Findthephrasesinthestringwhicharecontainedinthepre-definedlist.

ConvertthestringtowordsandphraseList

eg:bigdatasoftwareengineer—>big,data,software,engineer,bigdata,softwareengineer

(bigdataandsoftwareengineerarepre-definedinthelist)

Fordescription:

Findthephrasesinthestringwhicharecontainedinthepre-definedlist.

Pre-definedastopwordlist.Removestopword

PorterStemmingAlgorithm(https://github.com/dlwh/epic,PorterStemmer.scala)

ConvertthestringtowordsandphraseList

step5.CalculateIDF

ThedocumentfrequencyDF(t,D)isthenumberofdocumentsthatcontainstermt.

IDIisthetotalnumberofdocumentsinthecorpus.

IDF(t,D)=log((IDI+1)/(DF(t,D)+1))

step6.SaveFileonS3

key,index,IDF

3.ClassifierModelTraining

step1.LoadfeatureMapwhichispre-calculateinpreviousoperation

step2.BinaryFeatureExtractor

step3.LoadListofJobs

step4.TrainMinor

step5.TrainArbitrator

4.ClassificationSystem

MajorGroupClassificationSystem

MinorGroupClassificationSystem

References:

http://www.scalanlp.org/

scala stem string list immutable 编程语言

lightyaoyuan

0 关注 0 粉丝 0 动态

关注关注

scala 数据结构（四）：列表 List

Scala中的List 和Java List 不一样，在Java中List是一个接口，真正存放数据是ArrayList，而Scala的List可以直接存放数据，就是一个object，默认情况下Scala的List是不可变的，List属于序列Seq。5)如果

shenwenjie 2020-07-07

scala 数据结构（九）：-filter、化简

上面的问题当然可以使用遍历list方法来解决，这里我们使用scala的化简方式来完成。4) 然后继续和下一个元素运行，将得到的结果继续返回给第一个参数，继续..

yunfenglee 2020-07-08

通过阶乘的例子,练习在JavaScript, Scala和ABAP里实现尾递归

Before we start to research tail recursion, let’s first have a look at the normal recursion.Let N = 5, see how new stack frame i

匆匆那些年 10评论 2020-10-15

Scala(八)【面向对象总结】

第二种方法，包名只能在target目录才能看到。val/var 变量:变量类型 = 值。//var定义的变量可以通过_赋予初始值：null、0、false、0.0. 在主构造器中可以定义成员属性。不带val、var: 只能在类中使用。class称之为伴生类

TheBigBlue 2020-07-28

scala 数据结构（五）：队列 Queue

1）队列是一个有序列表，在底层可以用数组或是链表来实现。2）其输入和输出要遵循先入先出的原则。后存入的要后取出。3）在Scala中，由设计者直接给我们提供队列类型使用。//补充操作符重载...按照队列的算法，会将数据添加到队列的最后。

muhongdi 2020-07-07

scala 数据结构（八）：-map映射操作

在Scala中可以通过map映射操作来解决：。将集合中的每一个元素通过指定功能（函数）映射（转换）成新的结果集合这里其实就是所谓的将函数作为参数传递给另外一个函数,这是函数式编程的特点。def map[B]: HashSet[B] //map函数的签名。1

waitwolf 2020-07-08

scala 数据结构（七）：集 Set

集是不重复元素的结合。集不保留顺序，默认是以哈希集实现。Set不可变集合的创建。val set = Set //不可变。2 集 Set-可变集合的元素添加和删除。set02 -= 2 // 操作符形式。set02.remove // 方法的形式，scala

yunfenglee 2020-07-08

scala 数据结构（六）：映射 Map

1) Scala中的Map 和Java类似，也是一个散列表，它存储的内容也是键值对映射，Scala中不可变的Map是有序的，可变的Map是无序的。即创建包含键值对的二元组，和第一种方式等价，只是形式上不同而已。对偶元组就是只含有两个数据的元组。2) 如

kekeromer 2020-07-08

scala 数据结构（一）：数据结构简介

3）Scala默认采用不可变集合，对于几乎所有的集合类，Scala都同时提供了可变和不可变的版本。4）Scala的集合有三大类：序列Seq、集Set、映射Map，所有的集合都扩展自Iterable特质，在Scala中集合有可变和不可变两种类型。1）不可变集

匆匆那些年 2020-07-07

8-哈希表-Scala实现

哈希表又叫散列表，这里用数组和链表实现。//编写一个hash方法。//先计算该no对应的链表。//编写Emplinkedlist，存放的是雇员信息。//将curEmp定位到链表的最后。//使用辅助指针遍历

liqinglin0 2020-07-05

IDEA安装scala搭建项目环境

查看IDEA2019.2对应的Scala插件的版本。加载刚刚放入C:\Program Files\JetBrains\IntelliJ IDEA 2019.2.4\plugins里面的scala-intellij-bin-2019.2.40.jar插件。在

TheBigBlue 2020-07-05

类、对象、基础类型、操作(Scala)

在类定义中，有字段filed和方法method，统称为成员member，通过val和var定义字段指定对象的变量。实例一个类后，会指派一些内存来保存对象的状态图。个人理解对通过地址间映射，有一块内存保存值。对字段声明私有。不加，就是共有public。Sca

kekeromer 2020-06-13

今天的收获

直接用jar包方便许多。编程似乎在不断完善，没有人知道未来是啥。因为map和reduce不够用。scala编写代码比java精简。sbt相对于scala来说就相当于 maven对java差不多。

zhixingheyitian 2020-06-08

[bug] Scala eclipse：找不到或无法加载主类

解决右键项目 > properties > scala Compiler >勾选Use Project Setting

TheBigBlue 2020-06-06

Scala核心编程_第09章面向对象编程(高级特性)

Scala语言是完全面向对象的语言，所以并没有静态的操作。Scala中伴生对象采用object关键字声明，伴生对象中声明的全是 "静态"内容，可以通过伴生对象名称直接调用。伴生对象对应的类称之为伴生类，伴生对象的名称应该和伴生类名一致。

liqinglin0 2020-06-01

Scala核心编程_第08章面向对象编程(中级补充)--java动态绑定与静态绑定

Java方法调用过程中，Jvm是如何知道调用的是哪个类的方法？Jvm又是如何处理？当子类和父类存在同一个方法时，子类重写父类（接口）方法时，程序在运行时调用的方法时，是调用父类（接口）的方法呢？绑定又分为静态绑定和动态绑定。在Java中，final、pri

liqinglin0 2020-06-01

scala Object

在scala中被object关键字修饰的类有如下特征：。//创建了一个ObjectDemo_02对象。伴生类与伴生对象。* 伴生类和伴生对象一定要在同一个类文件中，并且类名相同。* 伴生类和伴生对象的特点是可以相互访问被private修饰的字段

yunfenglee 2020-05-30

2020 开发者调查：TypeScript 击败 Python，Scala 最赚钱

Stack Overflow 2020开发者调查报告现已出炉。Stack Overflow 年度开发者调查是面向全球开发者进行的规模最大、最全面的调查。调查涵盖了从开发者喜爱的技术到工作偏好等内容。2020 年是 Stack Overflow 发布年度开发

MICKEYSTUDY 2020-05-28

3-单向链表-Scala实现

今天学习了单向链表的实现，记录一下，方便以后查看~//创建头节点，指向该链表的头部。//添加英雄到链表。//1.先找到链表的最后节点。//因为head不能动，我们一个辅助指针来定位。var flag = false //标识是否已经存在编号的节点。//将t

muhongdi 2020-05-19

IntelliJ IDEA scala的源码设置

3.解压压缩包scala-source-xx.xx.x.tar.gz目录文件的doc目录下。一直点OK就可以了

yunfenglee 2020-05-19

安科网

Classification(3)Generate Features and Stem Adjust the Model System

lightyaoyuan

lightyaoyuan

相关推荐

scala 数据结构（四）：列表 List

scala 数据结构（九）：-filter、化简

通过阶乘的例子,练习在JavaScript, Scala和ABAP里实现尾递归

Scala(八)【面向对象总结】

scala 数据结构（五）：队列 Queue

scala 数据结构（八）：-map映射操作

scala 数据结构（七）：集 Set

scala 数据结构（六）：映射 Map

scala 数据结构（一）：数据结构简介

8-哈希表-Scala实现

IDEA安装scala搭建项目环境

类、对象、基础类型、操作(Scala)

今天的收获

[bug] Scala eclipse：找不到或无法加载主类

Scala核心编程_第09章面向对象编程(高级特性)

Scala核心编程_第08章面向对象编程(中级补充)--java动态绑定与静态绑定

scala Object

2020 开发者调查：TypeScript 击败 Python，Scala 最赚钱

3-单向链表-Scala实现

IntelliJ IDEA scala的源码设置

lightyaoyuan